Logo fa.boatexistence.com

اشکالات درج مقادیر گمشده با میانگین چیست؟

فهرست مطالب:

اشکالات درج مقادیر گمشده با میانگین چیست؟
اشکالات درج مقادیر گمشده با میانگین چیست؟

تصویری: اشکالات درج مقادیر گمشده با میانگین چیست؟

تصویری: اشکالات درج مقادیر گمشده با میانگین چیست؟
تصویری: چهار دلیل مهم، چرا نباید هیچ وقت به آمریکا بری؟! مقایسه با آلمان 🇩🇪🇺🇸 2024, ممکن است
Anonim

انتزاع میانگین روابط بین متغیرها را مخدوش می کند اما انتساب میانگین نیز روابط چند متغیره را مخدوش می کند و بر آمارهایی مانند همبستگی تأثیر می گذارد. برای مثال، فراخوانی زیر به PROC CORR همبستگی بین متغیر Orig_Height و متغیرهای Weight و Age را محاسبه می‌کند.

چرا استفاده از یک وسیله برای داده های از دست رفته ایده بدی است؟

میانگین واریانس داده‌ها را کاهش می‌دهد با عمیق‌تر رفتن به ریاضیات، واریانس کوچک‌تر منجر به فاصله اطمینان باریک‌تر در توزیع احتمال می‌شود[3]. این منجر به چیزی جز معرفی یک سوگیری به مدل ما نمی شود.

چرا مقادیر از دست رفته یک مشکل هستند؟

داده های از دست رفته مشکلات مختلفی را ایجاد می کند. اول، عدم وجود داده، قدرت آماری را کاهش می دهد، که به احتمال رد فرضیه صفر در صورت نادرست بودن آن اشاره دارد. دوم، داده های از دست رفته می تواند باعث سوگیری در تخمین پارامترها شود. سوم، می تواند نماینده بودن نمونه ها را کاهش دهد.

چرا انتساب میانگین بد است؟

مسئله 1: میانگین تخلیه روابط بین متغیرهای را حفظ نمی کند. درست است، نسبت دادن میانگین، میانگین داده های مشاهده شده را حفظ می کند. بنابراین اگر داده ها به طور تصادفی از دست رفته باشند، تخمین میانگین بی طرف باقی می ماند.

آیا باید داده های از دست رفته را با میانگین جایگزین کنید؟

نقاط داده Outliers تأثیر قابل توجهی بر میانگین خواهد داشت و بنابراین، در چنین مواردی، توصیه نمی شود از میانگین برای جایگزینی مقادیر از دست رفته استفاده کنید. استفاده از مقادیر میانگین برای جایگزینی مقادیر از دست رفته ممکن است یک مدل عالی ایجاد نکند و از این رو رد می شود.

توصیه شده: