همبستگی پیرسون

ساخت وبلاگ

اطلاعات دقیق و محاسبه همبستگی پیرسون با استفاده از اکسل ، پایتون ، R و SPSS

همبستگی پیرسون چیست؟

همبستگی پیرسون یا همبستگی لحظه محصول پیرسون (PPMC) یا همبستگی دو متغیره اندازه گیری استاندارد همبستگی در آمار است. این رابطه خطی بین دو مجموعه داده را نشان می دهد. این سؤال را به صورت ساده پاسخ می دهد: آیا می توانم یک نمودار خط را برای نشان دادن داده ها ترسیم کنم؟

همبستگی پیرسون با دو نامه بیان شده است: نامه یونانی rho (ρ) برای یک جمعیت ، و نامه "R" برای یک مطالعه.

برای یافتن رابطه بین متغیرها در داده ها ، از فرمول های ضریب همبستگی استفاده می شود. فرمولها مقدار اعم ا ز-1 تا 1 را برمی گردانند ، که در آن:

1 به معنای رابطه خوبی است که خوش بین است. یک رابطه منفی واضح توس ط-1 نشان داده شده است. هیچ رابطه ای به هیچ وجه دلالت بر نتیجه صفر ندارد.

ضریب همبستگی 1 به این معنی است که افزایش مثبت نسبت ثابت در متغیر دیگر برای هر افزایش مثبت در یک متغیر وجود دارد.

صفر به این معنی است که با افزایش هرگونه افزایش مثبت یا منفی وجود ندارد. این دو به وضوح مرتبط نیستند.

ضریب همبستگ ی-1 به این معنی است که برای هر افزایش مثبت در یک متغیر ، کاهش منفی در یک متغیر دیگر وجود دارد. ضریب همبستگی در مقدار مطلق قدرت رابطه را به ما می دهد. هرچه این تعداد بزرگتر باشد ، مشارکت قوی تر است.| -. 75 |به عنوان مثال ، 75. 75 ، که رابطه بهتری نسبت به 65/0 دارد.

همبستگی به معنای علیت نیست!

همبستگی درجه ای است که بین دو متغیر همبستگی خطی وجود دارد. در تجزیه و تحلیل داده های دو متغیره ، این یک گام مهم است. هر ارتباط آماری ، علّی یا نه ، بین دو متغیر تصادفی در داده های دو متغیره اساساً وسیع ترین معنی همبستگی است. یک قانون قابل توجه این است که هیچ دلیلی با همبستگی وجود ندارد. بیایید دو نمونه از معنای واقعی آن را درک کنیم. مصرف بستنی در ماه های تابستان افزایش می یابد. همبستگی نزدیکی بین فروش واحدهای بستنی وجود دارد. در این مورد خاص ، ما یک همبستگی علی را مشاهده می کنیم ، زیرا تابستان های شدید فروش بستنی ها را بالا می برد. در این مورد خاص ، از آنجا که تابستان های شدید فروش بستنی ها را بالا می برند ، ما یک پیوند علّی می بینیم. فروش بستنی ها همچنین با حملات کوسه ها ارتباط روشنی دارند. همانطور که در اینجا به وضوح می بینیم ، مطمئناً حملات کوسه به دلیل بستنی ایجاد نمی شود. بنابراین ، هیچ علتی در اینجا وجود ندارد. از این رو ، ما می توانیم درک کنیم که همبستگی همیشه به معنای علیت نیست!

استنتاج همبستگی پیرسون

فقط یک رابطه خطی بین دو متغیر مداوم می تواند با همبستگی پیرسون مورد آزمایش قرار گیرد (یک رابطه فقط در صورت تغییر در یک متغیر با تغییر متناسب در متغیر دیگر همراه است) به عنوان مثال ، ممکن است از همبستگی پیرسون برای تعیین اینکه آیا استفاده می شود استفاده شودافزایش سن به افزایش فشار خون کمک می کند. نمونه ای از چگونگی ضریب همبستگی پیرسون (R) با شدت متفاوت است و جهت رابطه بین دو متغیر در زیر آورده شده است. توجه داشته باشید که ضریب پیرسون در صورت ایجاد رابطه خطی ، مقدار صفر را به دست می آورد (به نمودارهای ستون سوم مراجعه کنید).

همبستگی ضریب چیست؟

یک برآورد آماری از فراوانی رابطه بین حرکات نسبی دو متغیر ، ضریب همبستگی است. مقادیر به ترتیب بی ن-1. 0 و 1. 0. 0 متفاوت است. یک همبستگی منفی کامل با همبستگ ی-1. 0 وجود دارد ، در حالی که همبستگی 1. 0 نشانگر یک همبستگی مثبت کامل است. همبستگی 0. 0 نشان دهنده هیچ رابطه خطی بین حرکت دو متغیر نیست.

پراکنده

برای اولین بار نگاه به مجموعه داده های ما ، یک راه خوب برای شروع ، ترسیم جفت متغیرهای مداوم ، یکی در هر مختصات است. هر نقطه روی نمودار با یک ردیف مجموعه داده مطابقت دارد.

پراکنده ها به ما احساس می کنند که رابطه کلی بین دو متغیر را می دهد:

  • جهت: رابطه مثبت یا منفی ، وقتی یک متغیر افزایش می یابد ، دوم افزایش می یابد یا کاهش می یابد؟
  • قدرت: با افزایش حالت دوم ، چقدر متغیر افزایش می یابد.
  • شکل: رابطه خطی ، درجه دوم ، نمایی است؟

استفاده از ScatterPlots یک تکنیک سریع برای تشخیص فضای باز است اگر یک مقدار به طور گسترده ای از بقیه جدا شود ، بررسی مقادیر این فرد مفید خواهد بود.

ما هنگام مطالعه یادگیری ماشین ، عنبیه ، مجموعه داده ای که حاوی اطلاعاتی در مورد گلهای گیاهی عنبیه است ، با بیشترین قاب داده استفاده خواهیم کرد و هدف این یک طبقه بندی گلها به سه گروه است: (Setosa ، Versicolor ، Virginica).

هدف از مجموعه داده های Iris طبقه بندی انواع متمایز عنبیه با داده هایی است که ما داریم ، برای ارائه بهترین رویکرد برای این مشکل ، می خواهیم تمام متغیرهایی را که در دسترس داریم و روابط آنها تجزیه و تحلیل کنیم.

در آخرین طرح ما متغیرهای طول و عرض گلبرگ را داریم و کلاسهای مجزا از عنبیه را در رنگ ها جدا می کنیم ، آنچه می توانیم از این طرح استخراج کنیم این است:

  • بین هر دو متغیر رابطه خطی مثبت وجود دارد.
  • طول گلبرگ تقریباً 3 برابر سریعتر از عرض گلبرگ افزایش می یابد.
  • با استفاده از این 2 متغیر ، گروه ها از نظر بصری متفاوت هستند.

ماتریس طرح پراکندگی

برای ترسیم همه روابط به طور همزمان و در همان نمودار ، بهترین روش ارائه یک طرح جفت است ، این فقط یک ماتریس از تمام متغیرهای حاوی تمام پراکندگی های احتمالی است.

همانطور که مشاهده می کنید ، طرح قسمت آخر در آخرین ردیف و ستون سوم این ماتریس است.

در این ماتریس ، مورب می تواند توطئه های متمایز را نشان دهد ، در این حالت ، ما از توزیع هر یک از کلاس های عنبیه استفاده کردیم.

با داشتن یک ماتریس ، ما برای هر ترکیب متغیرها دو قطعه داریم ، همیشه یک نقشه وجود دارد که همان متغیرهای معکوس (ستون ، ردیف) را با هم ترکیب می کند ، طرف دیگر مورب.

با استفاده از این ماتریس می توانیم تمام اطلاعات مربوط به تمام متغیرهای مداوم موجود در مجموعه داده را به راحتی بدست آوریم.

ضریب همبستگی پیرسون

توطئه های پراکندگی ابزاری مهم برای تجزیه و تحلیل روابط است ، اما ما باید بررسی کنیم که آیا رابطه بین متغیرها معنی دار است ، برای بررسی همبستگی خطی بین متغیرهایی که می توانیم از R یا ضریب همبستگی پیرسون استفاده کنیم.

دامنه نتایج احتمالی این ضریب (-1،1) است ، که در آن:

  • 0 نشانگر همبستگی نیست.
  • 1 نشانگر یک همبستگی مثبت کامل است.
  • -1 نشانگر همبستگی منفی کامل است.

برای محاسبه این آمار از فرمول زیر استفاده می کنیم:

اهمیت آزمون ضریب همبستگی

ما باید بررسی کنیم که آیا همبستگی برای داده های ما قابل توجه است ، زیرا قبلاً در مورد آزمایش فرضیه صحبت کرده ایم ، در این مورد:

  • H0 = متغیرها نامربوط هستند ، R = 0
  • HA = متغیرها مرتبط هستند ، R ≠ 0

این آمار دارای توزیع T دانشجویی با (N-2) درجه آزادی است که تعداد ارزش ها است.

فرمول مقدار t زیر است و ما باید نتیجه را با جدول T-student مقایسه کنیم.

اگر نتیجه ما از مقدار جدول بزرگتر باشد ، فرضیه تهی را رد می کنیم و می گوییم متغیرها مرتبط هستند.

ضریب تعیین

برای محاسبه میزان تغییر یک متغیر می تواند بر تغییر دیگری تأثیر بگذارد ، می توانیم از ضریب تعیین استفاده کنیم ، که به عنوان R² محاسبه می شود. این اندازه گیری در مدل های رگرسیون بسیار مهم خواهد بود.

نحوه انجام همبستگی پیرسون در اکسل:

نحوه انجام همبستگی پیرسون در پایتون:

نحوه انجام همبستگی پیرسون در r:

نحوه انجام همبستگی پیرسون در SPSS:

مزایا و مضرات همبستگی پیرسون:

مزایای:

  1. این روش حاکی از وجود یا عدم همبستگی بین هر دو متغیر است و میزان یا درجه ای را که در ارتباط هستند تعیین می کند.
  2. براساس این روش ، ما همچنین می توانیم جهت همبستگی را مشخص کنیم ، یعنی اینکه آیا همبستگی بین دو متغیر مثبت یا منفی است.
  3. این روش ما را در برآورد مقدار یک متغیر وابسته در رابطه با یک مقدار خاص از یک متغیر مستقل از طریق معادلات رگرسیون امکان پذیر می کند.
  4. این روش دارای خواص جبری زیادی است که محاسبه ضریب همبستگی و تعداد زیادی از عوامل مرتبط دیگر برای آن وجود دارد. همزمان با کارآیی آسان است.

مضرات:

  1. محاسبه نسبتاً دشوار است زیرا محاسبه آن شامل روشهای پیچیده جبری محاسبات است.
  2. این بسیار تحت تأثیر مقادیر موارد غیر ضروری است. این مبتنی بر تعداد زیادی فرضیه است. رابطه خطی ، رابطه علت و معلولیت و غیره ، که ممکن است همیشه خوب نباشد.
  3. به احتمال زیاد به ویژه در مورد داده های همگن تفسیر می شود.
  4. در مقایسه با روش های دیگر ، رسیدن به نتایج زمان زیادی طول می کشد.
  5. این در معرض خطای احتمالی است ، که خود رضایت بخش آن را تصدیق می کند ، و بنابراین ، همیشه توصیه می شود ضمن تفسیر نتایج آن ، خطای احتمالی آن را محاسبه کنید.

نتیجه:

در این مقاله سعی کردم تمام اطلاعات مربوط به همبستگی ، استفاده ، تئوری و کاربرد پیرسون را با استفاده از ابزارهای مختلف جمع آوری کنم.

برای مقالات و وبلاگ های جدید با من از طریق LinkedIn و Medium ارتباط برقرار کنید.

"اشتیاق به یادگیری را ایجاد کنید. اگر این کار را انجام دهید ، هرگز متوقف نخواهید شد "آنتونی جی. آنجلو

گزینه های باینری چیست...
ما را در سایت گزینه های باینری چیست دنبال می کنید

برچسب : نویسنده : مهدی امینی‌خواه بازدید : 84 تاريخ : دوشنبه 7 فروردين 1402 ساعت: 19:36