شایع ترین علل پرت در یک مجموعه داده: خطاهای اندازه گیری (خطاهای ابزار) خطاهای آزمایشی (خطاهای استخراج داده ها یا برنامه ریزی/اجرای آزمایش) عمدی (اشکال های پرت ساختگی ساخته شده برای آزمایش روشهای تشخیص) خطاهای پردازش داده (دستکاری دادهها یا جهشهای ناخواسته مجموعه داده)
دلیل احتمالی برای پرت چیست؟
سه دلیل برای موارد پرت وجود دارد - ورود داده ها/خطاهای اندازه گیری آزمایش، مشکلات نمونه گیری، و تغییرات طبیعی. هنگام آزمایش/وارد کردن داده ها ممکن است خطایی رخ دهد. در حین ورود داده ها، اشتباه تایپی می تواند به اشتباه مقدار اشتباهی را تایپ کند.
کدامیک بیشتر تحت تأثیر عوامل پرت است؟
میانگین، میانه و حالت معیارهای گرایش مرکزی هستند. میانگین تنها معیار گرایش مرکزی است که همیشه تحت تأثیر یک نقطه پرت قرار می گیرد. میانگین، میانگین، محبوب ترین معیار گرایش مرکزی است.
آیا دامنه بیشتر تحت تأثیر عوامل پرت است؟
بنابراین اگر مجموعه ای از {52، 54، 56، 58، 60} داشته باشیم، r=60−52=8 را دریافت می کنیم، بنابراین محدوده 8 است. با توجه به آنچه اکنون می دانیم، درست است که بگویید که یک پرت بیشترین تأثیر را بر rang دارد.
آیا نقاط پرت باید از داده ها حذف شوند؟
حذف موارد پرت فقط به دلایل خاص مشروع است موارد پرت می تواند در مورد حوزه موضوعی و فرآیند جمع آوری داده ها بسیار آموزنده باشد. … پرت ها تغییرپذیری در داده های شما را افزایش می دهند که قدرت آماری را کاهش می دهد. در نتیجه، حذف مقادیر پرت میتواند باعث شود که نتایج شما از نظر آماری معنیدار شود.