پارادوکس سیمپسون

پارادوکس سیمپسون به یک پدیده در آمار و احتمالات اشاره می کند که در آن هنگامی که داده ها به صورت دسته بندی شده بررسی بشوند نتایج متفاوتی نسبت به زمانی که به صورت کلی و یکجا بررسی شوند نشان می دهند. معمولاً یکی از دلایلی که باعث این تفاوت می شود نامتوازن بودن دسته بندی ها است. برای مثال هنگامی بررسی دو رخداد A و B هنگامی که این دو رخداد به صورت دسته بندی شده بررسی می شوند درصد موفقیت رخداد A در هر دسته نسبت به رخداد B بیشتر است اما هنگامی که داده های ایندو رخداد به صورت یکجا بررسی می شوند درصد موفقیت رخداد B نسبت به A بیشتر می شود که این مخالف نتیجه بدست آمده در حالت قبلی است.
ادوارد سیمپسون در سال ۱۹۵۱ برای اولین بار به این پدیده در یک مقاله خود اشاره کرد. البته قبل از او نیز کارل پیرسون در سال ۱۸۹۹ و اودنی یول در سال ۱۹۰۳ به مسائلی مشابه این پدیده نیز اشاره کرده بودند.
به بیانی دیگر هنگامی که می خواهیم احتمال رویداد X {\displaystyle X} را تحت شرایط A {\displaystyle A} و B {\displaystyle B} در دسته بندی های F i {\displaystyle F_{i}} بررسی کنیم، به ازای هر i {\displaystyle i} اگر P ( X | A F i ) > P ( X | B F i ) {\displaystyle P(X|AF_{i})>P(X|BF_{i})} باشد لزوماً P ( A ) > P ( B ) {\displaystyle P(A)>P(B)} نیست.
این مثال یک اتفاق واقعی است که در آن در یک مرکز درمانی برای بررسی دو نوع درمان A و B برای بیماری سنگ کلیه، بیماران را به دو دسته تقسیم کرده اند دسته اول بیماران با سنگ کلیه کوچک و دسته دوم بیماران با سنگ کلیه بزرگ هستند که نتایج درصد موفقیت درمان ها در این آزمایش در جدول زیر آمده است.

wiki: پارادوکس سیمپسون

دانشنامه عمومی