داده ها و GLMS را بشمارید: انتخاب در بین مدلهای پواسون ، دوتایی منفی و با تورم صفر

ساخت وبلاگ

اکولوژیست ها معمولاً داده هایی را نشان می دهند که تعداد ارگانیسم ها را نشان می دهد. مدلهای خطی عمومی (GLMS) ابزاری قدرتمند برای تجزیه و تحلیل داده های شمارش ارائه می دهد. 1 نقطه شروع برای داده های شمارش ، GLM با خطاهای توزیع شده پواسون است ، اما همه داده های شمارش فرضیات توزیع پواسون را برآورده نمی کنند. بنابراین ، ما باید آزمایش کنیم که آیا واریانس بیشتر از میانگین است یا اینکه تعداد صفرها بیشتر از حد انتظار است. در زیر ، ما مراحل اساسی را طی خواهیم کرد تا مشخص کنیم از کدام GLM برای تجزیه و تحلیل داده های شما استفاده می شود.

اول ، ما تعدادی از متغیرهایی را که به طور مکرر در طول کد بعدی استفاده می شود ، تعریف خواهیم کرد. 2 ما برای اکثر مطالعات زیست محیطی از اندازه نمونه غیر واقعی استفاده می کنیم زیرا نمی خواهیم با یک قرعه کشی عجیب و غریب از هر یک از توزیع ها گمراه شویم.

داده های پواسون

ما متغیرهای تصادفی از توزیع پواسون با عملکرد RPOIS ایجاد می کنیم. از آنجا که میانگین برابر با واریانس در توزیع پواسون است ، ما فقط باید تعداد متغیرهای تصادفی و میانگین مورد انتظار توزیع را مشخص کنیم.

مدل پواسون

اکنون ، GLM را اجرا می کنیم و توزیع خطا را بر روی پواسون تنظیم می کنیم.

ما با یک تست مجذور کای مبتنی بر انحراف باقیمانده و درجه آزادی ، از خوب بودن مدل استفاده می کنیم.

The GOF test indicates that the Poisson model fits the data (p >0. 05). اگر این داده های واقعی شما بود ، می توانید آه تسکین نفس بکشید زیرا می توانید در اینجا متوقف شوید. خوب ، نه کاملاً اینجا. شما هنوز هم می خواهید از مدل برای پیش بینی میانگین تعداد برای هر درمان و خطاهای استاندارد برای هر پارامتر استفاده کنید.

از آنجا که ما از اندازه نمونه بزرگ استفاده کردیم ، وسایل پیش بینی شده مشابه وسایل مورد انتظار 10 و 5 است.

داده های دوتایی منفی

در مرحله بعدی ما از بسته انبوه برای تولید انحرافات تصادفی از توزیع دوتایی منفی ، که شامل یک پارامتر ، تتا است ، استفاده خواهیم کرد که واریانس توزیع را کنترل می کند.

مدل پواسون

ما ابتدا آزمایش می کنیم که آیا یک مدل پواسون متناسب با این داده ها است. به یاد داشته باشید که اگر شما خواص توزیع را نمی دانستید (فراتر از دانستن اینکه اعداد صحیح به صفر و بی نهایت محدود شده اید) ، ما در حال تلاش برای شبیه سازی مراحل شما هستیم.

همانطور که انتظار می رود ، مدل پواسون متناسب با داده ها نیست (ص< 0.05).

با این وجود ، بیایید نگاهی به مقادیر پیش بینی شده بیندازیم.

در این خروجی از SES یادداشت کنید زیرا ما بعد از اجرای GLM بر اساس توزیع خطای دوتایی منفی ، به این کار برمی گردیم.

مدل دوتایی منفی

مدل پارامتر پراکندگی را در مورد مقداری که برای تتا (یعنی 5) تعیین کرده ایم هنگام تولید متغیرهای تصادفی ، تخمین می زند.

آزمون GOF نشان می دهد که مدل دوتایی منفی متناسب با داده ها است.

در اینجا "خطر" نادیده گرفتن بیش از حد در مدل پواسون را مشاهده می کنید. تخمین SE برای مدل پواسون کمتر از مدل دوتایی منفی است ، که احتمال تشخیص نادرست اثر درمانی قابل توجه در مدل پواسون را افزایش می دهد.

داده های پواسون با تورم صفر

سرانجام ، ما لایه های بیشتری از عارضه را به داستان اضافه خواهیم کرد. اگر در داده های خود تعداد زیادی صفر دارید و مشخص کرده اید که پواسون و مدل های دوتایی منفی داده های شما را به خوبی متناسب نمی کنند ، پس باید به مدل های با تورم صفر با پواسون یا توزیع خطای دوتایی منفی روی آورید. ما می توانیم از بسته VGAM برای تولید متغیرهای تصادفی از توزیع پواسون با تورم صفر با استفاده از عملکرد Rzipois استفاده کنیم. آرگومان 3 به عملکرد Rzipois احتمال ترسیم صفر فراتر از تعداد مورد انتظار صفرها برای توزیع پواسون با میانگین مشخص شده را مشخص می کند. در اینجا تعداد نسبتاً کمی از صفرهای اضافی و نسبت یکسان برای هر درمان معرفی شده اند.

مدل پواسون

ما ابتدا مدل پواسون را متناسب می کنیم.

مدل پواسون متناسب با داده ها نیست.

مدل پواسون همچنین میانگین صحیح را پیش بینی نمی کند.

مدل دوتایی منفی

در مرحله بعد ، ما یک مدل دوتایی منفی قرار می دهیم.

مدل دوتایی منفی متناسب با داده ها نیست.

و وسایل صحیح را پیش بینی نمی کند.

مدل های پواسون با تورم صفر

ما بسته PSCL را متناسب با مدل صفر با تورم بارگیری می کنیم. اول ، ما یک مدل را در آن قرار می دهیم که فرض می کنیم احتمال صفر برای هر دو روش درمانی یکسان است (با~TRT | 1).

خروجی مدل نشان می دهد که صفرهای قابل توجهی بیشتر از آنچه انتظار می رود برای توزیع پواسون وجود داشته باشد.

مدل صفر با تورم میانگین تعداد صحیح و احتمال صفر را پیش بینی می کند. اگر یک مدل با تورم صفر متناسب باشیم تا اثر درمانی را برای هر دو تعداد و صفرها آزمایش کنیم (با~trt | trt) ،

ما می بینیم که صفرهای قابل توجهی بیشتر از حد انتظار وجود دارد ، اما احتمال صفر بین این دو تیمار تفاوت معنی داری ندارد.

مدل دوتایی منفی با تورم صفر

ما می توانیم با مشخص کردن توزیع دوتایی منفی ، در قسمت شمارش از مدل صفر تورم آزمایش کنیم.

پارامتر تخمین زده شده تتا معنی دار نیست که نشان می دهد مدل پواسون با تورم صفر مناسب است.

همانطور که قبلاً ذکر شد ، شما به طور کلی نباید داده های خود را متناسب با یک مدل خطی تغییر دهید و به ویژه ، داده های انتقال را وارد نکنید.

برای دریافت تمام کد از این پست در یک پرونده واحد اینجا را کلیک کنید.

© Travis Hinkelman & Ben Nolting ، 2012-2022 با استفاده از هوگو ، موضوع Anubis.

گزینه های باینری چیست...
ما را در سایت گزینه های باینری چیست دنبال می کنید

برچسب : نویسنده : مهدی امینی‌خواه بازدید : 427 تاريخ : چهارشنبه 9 فروردين 1402 ساعت: 12:36