کلمه جو
صفحه اصلی

جانهی

فرهنگ فارسی

فرایند جای‌گذاری داده‌های گم‌شده براساس داده‌های موجود


دانشنامه عمومی

جانهی، در آمار، فرایند جایگزین کردن داده های گم شده با مقدارهای جای گزین است. جایگزین کردن یک نقطه دادهٔ گم شده، به عنوان «جانهی یکه»، و یک مولفهٔ یک نقطه داده به عنوان «جانهی موردی» شناخته می شود. داده های گم شده منجر به سه مشکل اصلی می شوند: داده های گم شده می توانند منجر به سطح قابل توجهی از اریبی شوند، ساختن و مدیریت کردن داده ها را دشوار می کنند و منجر به کاهش کارایی می شوند. چون داده های گم شده می تواند منجر به بروز مشکل برای تحلیل داده ایجاد کند، جانهی به عنوان راهی برای برای پیش گیری از اشتباهات مربوط به روش حذف لیستی در مواردی که داده های گم شده ایجاد شده شوند. به این دلیل که، وقتی یک یا چند مقدار، برای یک مورد گم شده اند، اکثر بسته های آماری، به طور پیش فرض هر موردی که دادهٔ گم شده دارد را حذف می کنند، که ممکن است منجر به اریبی یا تأثیر بر مناسب بودن داده های برای نمایندگی جامعه شوند. جانهی همهٔ موارد را با جایگزین کردن داده های گم شده با مقدار برآوردی بر اساس داده های موجود دیگر، حفظ می کند. وقتی که همهٔ داده های گم شده جانهی شدند، دادگان می توانند با استفاده از روش های استاندارد برای داده های کامل، تحلیل شوند. نظریهٔ جانهی به طور مداوم در حال توسعه است و بنابراین به توجه مداوم به اطلاعات جدید به توجه به موضوع دارد. نظریه های زیادی در مورد داده های گم شده توسط دانش مندان ارائه شده است، اما عمدهٔ آن ها منجر به سطح زیادی از اریبی می شوند. تعداد کمی از تلاش های مشهور برای کار با داده های گم شده از این قرارند: جانهی هات دک (روش جانهی بی درنگ) و کُلددک (روش جانهی بادرنگ)، حذف لیستی و زوجی، جانهی با میانگین، جانهی رگرسیونی، جانهی تصادفی و جانهی چندگانه.
Bootstrapping (آمار)
سانسور (آمار)
Geo-نسبت دادن
الحاق
انتظار–حداکثر الگوریتم
تاکنون، رایج ترین وسیلهٔ کنترل کردن داده های گم شده حذف لیستی (که با عنوان مورد کامل هم شناخته می شود) بوده است، که به حالتی گفته می شود که همهٔ موارد شامل دادهٔ گم شده حذف شوند. اگه دادها به شکلی کاملاً تصادفی گم شده باشند، آن گاه حذف لیستی هیچ اریبی ای ایجاد نمی کند، اما به دلیل کاستن از اندازهٔ نمونه آماری، توان تحلیل داده ها را کاهش می دهد. برای مثال اگر ۱۰۰۰ نمونه جمع آوری شده باشد، اما ۸۰ نمونه مقدارهای گم شده داشته باشند، مقدار حجم نمونهٔ مؤثر بعد از حذف، ۹۲۰ خواهد بود. در غیر این صورت اگر داده ها به شکل کاملاً تصادفی گم شده نباشند، آن گاه حذف لیستی منجر به بروز اریبی می شود، چون زیرنمونهٔ حاصل پس از حذف لیستی، نمایندهٔ خوبی برای نمونهٔ اصلی نیست (و اگر نمونهٔ اصلی خود نمایندهٔ مناسبی برای جمعیت باشد، موارد کامل نمایندهٔ خوبی برای جامعه نمی شوند). حالتی که داده ها کاملاً به تصادف از دست رفته باشند، در واقعیت به ندرت رخ می دهد.
حذف زوجی (یا «تحلیل موردی در دسترس») شامل حذف کردن یک مورد، هنگام از دست دادن یک متغیر مورد نیاز برای یک تحلیل و همچنین افزودن آن مورد هنگام وجود همهٔ متغیرهای آن مورد برای آن تحلیل خاص می شود. هنگام استفاده از حذف زوجی، N کلی در طول برآورد پارامتر سازگار نخواهد بود. زیرا مقدار N ناقص در یک نقطه از زمان، برای پارامتر دیگر مقایسه کامل را حفظ می کند. حذف زوجی می توند منجر به شرایط ناممکن ریاضی، مانند همبستگی بیشتر از ۱۰۰درصد شود.
یک مزیت روش مورد کامل نسبت به سایر روش ها، پیاده سازی راحت و سرراست آن است. این دلیل اصلی این موضوع است که روش مورد کامل علی رغم معایب زیاد آن محبوب ترین روش در مدیریت داده های گم شده است.

جان هی (انگلیسی: John Hay؛ زاده ۸ اکتبر ۱۸۳۸ درگذشته ۱ ژوئیه ۱۹۰۵(1905-07-01)) یک نویسنده، سیاستمدار، دیپلمات، فرد نظامی اهل ایالات متحده آمریکا بود.

جان هی (تنیس باز). جان هی (انگلیسی: John Hayes؛ زاده ۷ آوریل ۱۹۵۵) یک تنیس باز اهل ایالات متحده آمریکا است.

فرهنگستان زبان و ادب

{imputation, sharing} [ریاضی] فرایند جای گذاری داده های گم شده براساس داده های موجود


کلمات دیگر: