از آنجایی که داده ها برای تصمیم گیری تجاری اهمیت فزاینده ای پیدا می کنند، دانشمندان و تحلیلگران داده باید اصول آمار را درک کنند تا داده ها را معنا کنند و بینش های ارزشمندی را به دست آورند. این مقاله مقدمه ای بر مبانی آمار برای تجزیه و تحلیل داده ها و دانشمندان داده ارائه می دهد.
آمار تجزیه و تحلیل داده چیست؟
آمار شاخه ای از ریاضیات است که به جمع آوری، تجزیه و تحلیل، تفسیر، ارائه و سازماندهی داده ها می پردازد. در تجزیه و تحلیل داده ها، از آمار برای استخراج بینش و دانش از داده ها برای اطلاع رسانی تصمیمات تجاری استفاده می شود. درک اصول اولیه آمار برای دانشمندان و تحلیلگران داده ضروری است زیرا به آنها کمک می کند تا الگوها، روندها و روابط در داده ها را شناسایی کنند.
انواع آمار برای تجزیه و تحلیل داده ها
دو نوع آمار وجود دارد: آمار توصیفی و آمار استنباطی.
آمار توصیفی
آمار توصیفی برای خلاصه و توصیف مجموعه ای از داده ها استفاده می شود. اطلاعاتی در مورد توزیع، تمایل مرکزی و تغییرپذیری داده ها ارائه می دهد. متداول ترین معیارهای آمار توصیفی شامل میانگین، میانه، حالت، دامنه، واریانس و انحراف معیار است.
آمار استنباطی
آمار استنباطی برای پیش بینی یا استنباط در مورد یک جمعیت بر اساس نمونه ای از داده ها استفاده می شود. این شامل برآورد پارامترها، آزمون فرضیه ها و تعیین اهمیت آماری روابط بین متغیرها است.
مزایای آمار برای تجزیه و تحلیل داده ها
آمار برای تجزیه و تحلیل داده ها ضروری است زیرا به دانشمندان و تحلیلگران داده اجازه می دهد:
- داده ها را خلاصه و توصیف کنید
- الگوها، روندها و روابط در داده ها را شناسایی کنید
- بر اساس نمونه ای از داده ها، در مورد جمعیت ها پیش بینی کنید و نتیجه گیری کنید
- آزمون فرضیه ها و تعیین اهمیت آماری روابط بین متغیرها
- بینش و یافته ها را به صورت واضح و مختصر به ذینفعان منتقل کنید
اصطلاحات اساسی مورد استفاده در آمار برای تجزیه و تحلیل داده ها
برای درک آمار برای تجزیه و تحلیل داده ها، آشنایی با برخی از اصطلاحات اساسی مورد استفاده در آمار ضروری است:
احتمال
احتمال، احتمال وقوع یک رویداد است. به صورت عددی بین 0 و 1 بیان می شود که 0 نشان دهنده غیرممکن بودن یک رویداد و 1 نشان دهنده قطعی بودن یک رویداد است.
جمعیت و نمونه
جامعه، کل گروهی از افراد یا اشیایی است که محقق به مطالعه آنها علاقه مند است. نمونه زیرمجموعه ای از جامعه است که برای استنباط در مورد کل جامعه استفاده می شود.
انتشار داده ها
توزیع داده به نحوه توزیع یا گروه بندی داده ها اشاره دارد. رایج ترین توزیع ها نرمال، یکنواخت و اریب هستند.
معیار گرایش مرکزی
معیار تمایل مرکزی برای توصیف ارزش مرکزی یا معمولی مجموعه ای از داده ها استفاده می شود. متداول ترین معیارهای مورد استفاده برای گرایش مرکزی، میانگین، میانه و حالت هستند.
تغییرپذیری
تنوع به میزان پراکندگی داده ها اشاره دارد. متداول ترین معیارهای تغییرپذیری، محدوده، واریانس و انحراف معیار هستند.
تئوری حد مرکزی
قضیه حد مرکزی بیان میکند که توزیع نمونهگیری میانگین هر متغیر تصادفی مستقل، اگر حجم نمونه به اندازه کافی بزرگ باشد، نرمال یا تقریباً نرمال خواهد بود.
احتمال شرطی و مقدار P
احتمال شرطی احتمال وقوع یک رویداد است با توجه به اینکه رویداد دیگری قبلاً رخ داده است. p-value احتمال به دست آوردن یک آماره آزمون به صورت افراطی یا شدیدتر از مقدار مشاهده شده است، با فرض اینکه فرضیه صفر درست باشد.
اهمیت آزمون فرضیه
از آزمون فرضیه برای تعیین اینکه آیا تفاوت بین دو گروه یا متغیر از نظر آماری معنی دار است یا به دلیل شانس است، استفاده می شود.
متغیرهای تصادفی
متغیر تصادفی متغیری است که مقدار آن به شانس یا تصادفی بودن بستگی دارد. می تواند گسسته یا پیوسته باشد.
توابع توزیع احتمال (PDF)
تابع توزیع احتمال تابعی است که احتمال وقوع هر مقدار از یک متغیر تصادفی را توصیف می کند. می تواند گسسته یا پیوسته باشد.
میانگین، واریانس، انحراف معیار
میانگین مقدار متوسط مجموعه ای از داده ها است. واریانس میانگین مجذور اختلافات از میانگین است و انحراف معیار جذر واریانس است.
کوواریانس و همبستگی
کوواریانس چگونگی تغییر دو متغیر با هم را اندازه گیری می کند. همبستگی قدرت رابطه خطی بین دو متغیر را اندازه گیری می کند.
قضیه بیز
قضیه بیز یک فرمول ریاضی است که احتمال وقوع یک رویداد را بر اساس دانش یا اطلاعات قبلی محاسبه می کند.
رگرسیون خطی و حداقل مربعات معمولی (OLS)
رگرسیون خطی یک روش آماری است که رابطه بین دو متغیر را با برازش یک معادله خطی بر داده های مشاهده شده تجزیه و تحلیل می کند. OLS روشی برای تخمین پارامترهای مدل رگرسیون خطی است.
قضیه گاوس مارکوف
قضیه گاوس-مارکوف بیان میکند که تحت شرایط معین برآوردگر حداقل مربعات معمولی (OLS) بهترین تخمینگر بیطرفدار خطی (BLUE) است.
ویژگی های پارامترها (تعصب، سازگاری، کارایی)
تعصب به تفاوت بین مقدار مورد انتظار برآوردگر و مقدار واقعی پارامتر اشاره دارد. سازگاری به خاصیتی اشاره دارد که یک برآوردگر با افزایش حجم نمونه به مقدار واقعی نزدیک می شود. کارایی به این ویژگی اشاره دارد که یک برآوردگر کمترین واریانس را در بین همه برآوردگرهای بی طرف دارد.
فاصله اطمینان
فاصله اطمینان محدوده ای از مقادیر است که احتمالاً حاوی مقدار واقعی یک پارامتر با سطح اطمینان خاصی است.
آزمایش فرضیه
آزمون فرضیه یک روش آماری است که برای تعیین اینکه آیا یک فرضیه در مورد پارامتر جمعیت توسط داده های نمونه پشتیبانی می شود یا خیر، استفاده می شود.
اهمیت آماری
معنیداری آماری به این احتمال اشاره دارد که یک نتیجه یا رابطه مشاهدهشده در دادهها ناشی از شانس نباشد.
خطاهای نوع اول و دوم
یک خطای نوع I زمانی رخ می دهد که فرضیه صفر زمانی که درست باشد رد شود. یک خطای نوع II زمانی رخ می دهد که فرضیه صفر در صورت نادرست بودن رد نشود.
آزمون های آماری (تست دانشجویی، آزمون اف)
آزمون تی دانشجویی یک آزمون آماری است که برای تعیین اینکه آیا میانگین دو گروه تفاوت معناداری دارند یا خیر. آزمون F یک آزمون آماری است که برای تعیین اینکه آیا واریانس دو گروه تفاوت معنی داری دارند یا خیر.
p-value و محدودیت های آن
مقدار p احتمال به دست آوردن نتیجه ای به اندازه یا شدیدتر از نتیجه مشاهده شده در صورت درست بودن فرضیه صفر است. محدودیت هایی دارد و باید در رابطه با سایر معیارهای با اهمیت آماری تفسیر شود.
کاربرد آمار در تجزیه و تحلیل داده ها و علم داده
آمار ابزاری ضروری برای تحلیلگران داده و دانشمندان است تا بتوانند بر اساس داده ها تصمیمات آگاهانه بگیرند. در اینجا برخی از کاربردهای آمار در تجزیه و تحلیل داده ها و علم داده آورده شده است:
- مدل سازی پیش بینی کننده: مدل سازی پیش بینی فرآیند استفاده از روش های آماری برای ایجاد مدلی است که بتواند رویدادهای آینده را بر اساس داده های تاریخی پیش بینی کند. این تکنیک به طور گسترده در علم داده و تجزیه و تحلیل داده ها برای کاربردهای مختلف مانند تشخیص تقلب، پیش بینی انحراف مشتری و تجزیه و تحلیل ریسک استفاده می شود.
- تست A/B: تست A/B یک روش آماری است که برای مقایسه عملکرد دو نسخه مختلف از یک محصول یا خدمات استفاده می شود. این روش به طور گسترده در تجزیه و تحلیل داده ها و علم داده برای بهینه سازی عملکرد وب سایت ها، برنامه ها و کمپین های بازاریابی استفاده می شود.
- تجسم داده ها: تجسم داده ها فرآیند ارائه داده ها به صورت گرافیکی برای کمک به شناسایی الگوها و روندها است. آمار نقش حیاتی در تجسم داده ها دارد و تحلیلگران داده و دانشمندان داده از روش های آماری برای تجزیه و تحلیل و تفسیر داده ها استفاده می کنند و سپس از ابزار تجسم برای ارائه نتایج استفاده می کنند.
- تجزیه و تحلیل سری زمانی: تحلیل سری زمانی یک روش آماری است که برای تجزیه و تحلیل داده هایی که در طول زمان جمع آوری می شوند استفاده می شود. این تکنیک به طور گسترده در تجزیه و تحلیل داده ها و علم داده برای پیش بینی روندهای آینده، تشخیص ناهنجاری ها و شناسایی الگوها در داده های سری زمانی استفاده می شود.
- آنالیز خوشه ای: تحلیل خوشه ای یک روش آماری است که برای گروه بندی نقاط داده بر اساس شباهت آنها استفاده می شود. این تکنیک در تجزیه و تحلیل داده ها و علم داده برای شناسایی الگوها و روابط در مجموعه داده های بزرگ استفاده می شود.
- تجزیه و تحلیل رگرسیون: تحلیل رگرسیون یک روش آماری است که برای شناسایی رابطه بین دو یا چند متغیر استفاده می شود. این تکنیک به طور گسترده در تجزیه و تحلیل داده ها و علم داده برای پیش بینی و درک تأثیر عوامل مختلف بر یک نتیجه خاص استفاده می شود.
نتیجه
در نتیجه، آمار یک ابزار ضروری برای تحلیلگران داده و دانشمندان داده است و نقش مهمی در جنبه های مختلف تجزیه و تحلیل داده ها و علم داده ایفا می کند. با استفاده از روش های آماری، تحلیلگران داده و دانشمندان داده می توانند بینشی در مورد مجموعه داده های بزرگ به دست آورند، تصمیمات آگاهانه بگیرند و روندهای آینده را پیش بینی کنند. بنابراین، برای تحلیلگران داده و دانشمندان داده ضروری است که درک اساسی از آمار برای موفقیت در حرفه خود داشته باشند.
Edureka به طور ویژه سرپرستی کرده است دوره تحلیل داده ها که شما را در ابزارها و سیستم های مورد استفاده متخصصان تجزیه و تحلیل داده ماهر می کند. شامل آموزش عمیق در آمار، تجزیه و تحلیل داده ها با R، SAS و Tableau است. برنامه درسی با مطالعه عمیق بیش از 5000 شرح شغل در سراسر جهان تعیین می شود.