انواع دادههای پرت - دانشگاه صنعتی اصفهان
Download
Report
Transcript انواع دادههای پرت - دانشگاه صنعتی اصفهان
دانشگاه صنعتی اصفهان
دانشکده علوم ریاض ی
سمینار کالس ی مدلهای خطی 1
ارائه دهندگان-1:عبدالرحیم ستوده
-2ارسالن شیخی
استاد راهنما :دکتر ریحانه ریخته گران
زمستان 93
فهرست مطالب
تعریف
دالیل ایجاد دادههای پرت
دالیل توجه به دادههای پرت
انواع دادههای پرت
روشهای تشخیص دادههای پرت
روشهای برخورد با دادههای پرت
کاربرد دادههای پرت
3
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل توجه به
دادههای پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد
دادههای
پرت
تعریف
غیر عادی یا اتفاقی از وضعیت عمومی دادههای
• یک داده پرت مشاهدهای است که به طور
آنالیز میشود انحراف داشته باشد.
تحت آزمایش و نسبت به قاعدهای که بر اساس آن
ادیر
در یک مجموعه داده نسبت به سایر مق
• داده پرت به داد های اطالق میگردد که معمو ل
تر است.
تر یا کوچک
موجود بزرگ
•
سایر دادهها تفاوت دارند و این تفاوت به حدی است که به نظ ر می-
دادههای پرت دادههایی هستند که با
سایر دادهها تولید شدهاند.
رسد این دادهها توسط توزیع یا مکانیزم متفاوتی از
4
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل توجه به
دادههای پرت
5
انواع
دادههای
پرت
روشهای
تشخیص
دادههای پرت
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
کاربرد
دادههای
پرت
دالیل توجه به
دادههای پرت
6
انواع
دادههای
پرت
روشهای
تشخیص
دادههای پرت
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
کاربرد
دادههای
پرت
دالیل توجه به
دادههای پرت
انواع
دادههای
پرت
دلیل ایجاد دادههای پرت
1
•
•
•
•
7
خطای دادهها
اشتباه در پرسیدن سؤال توسط پرسشگر
اشتباه در وارد کردن داد هها در بانکهای اطالعاتی
اشتباه پرسشگر در نوشتن پاسخ
خطای نمونهگیری
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
روشهای
تشخیص
دادههای پرت
کاربرد
دادههای
پرت
دالیل توجه به
دادههای پرت
3
انواع
دادههای
پرت
روشهای
تشخیص
دادههای پرت
از بین رفتن استانداردها
• غیر صحیح بودن اندازهگیری دادههای مشاهده
ی
• از کار افتادن وسیله اندازهگیر
4
دادههای پرت عمدی یا داشتن انگیزه از از گزارش اشتباه
• پاسخگو به هر دلیلی قادر به پاسخگویی نباشد
8
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
کاربرد
دادههای
پرت
دالیل توجه به
دادههای پرت
انواع
دادههای پرت
روشهای
تشخیص
دادههای پرت
کاربرد
دادههای
پرت
دلیل توجه به دادههای پرت
• او ل آنها باعث افزایش واریانس خطا و کاهش توان آزمون می گردند.
اگر به طو ر تصادفی توزیع نیافته باشند ،باعث برهم زدن نرمال بودن دادهها
• دوم؛
میشوند و از این رو مفروضهی نرمال بودن توزیع دادهها را از بین میبرند و احتمال وقوع
در مورد تحلیلهای چند
خطاهای نوع اول و دوم را به شدت افزایش می دهند .این مسئله
متغیره است اهمیت بیشتری پیدا
متغیره که نیازمند مفروضات کرویت و نرمال بودن چند
میکند.
در برآورد اریب پارامترها است.
• سومین عامل مؤثر دادههای پرت
9
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل توجه به
دادههای پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد
دادههای
پرت
انواع دادههای پرت
-1دادههای پرت عمومی:
به دادههایی اطالق میگردد که با فاصله قابل توجهی از از سایر دادهها قرار دارند.
-2دادههای پرت زمینهای ( دادههای پرت مشروط) :
به دادههایی اطالق میگردد که بسته به شرایط آن دادهها میت وااند پرت باشند یا نباشند .برای مثال دمای هوای 40درجه سانتیگراد برای
شهر تهران در فصل زمستان داشته باشیم یک دادهی پرت محسوب میشود ،در صورتی که همین دما در تابستان یک دادهی معمولی است.
-3دادههای پرت جمعی:
به دادههایی اطالق میگردد که بصورت دسته جمعی منحرف از سایر دادهها قرار دارند .جالب آنکه ممکن است این دادهها انحراف نداشته
باشند.
10
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل
توجه به
دادههای
پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای
پرت
روشهای کشف دادههای پرت
معرفی مدل و نمادهای
استفاده شده:
11
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
کاربرد
دادههای
پرت
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
روش DFBETA
در مدل رگرسیونی در بیشتر مواقع برآورد ضرایب هدف اصلی ماست حال
(1
اگر ردیف iام ماتریس Xحذف شود ،در برآورد ضرایب رگرسیونی تغییر
ایجاد خواهد شد .که این تغییر را میتوان بصورت زیر حساب کرد.
𝑖𝑒 𝑖𝑥 (𝑋 𝑇 𝑋)−1
𝑖𝑖1− ℎ
= 𝑖𝛽DFBET𝐴𝑖 = 𝛽-
که 𝑖𝑥 ردیف iام از ماتریس Xاستi 𝑒𝑖 .امین باقیمانده و 𝑖𝑖i ℎامین عضو از
ماتریس قطری 𝑋(𝑋 𝑇 𝑋)−1 𝑋 𝑇 = Hاست.
DFBETA
اگر
12
outlier
≤
2
𝑛
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
فاصله D-COOK
)2کوک ( )COOKدر سال 1990آمارهای را بهصورت زیر برای شناسایی دادههای
پرت معرفی کرد.
)𝛽 𝑋 𝑇 𝑋 (𝛽𝑖 −
𝑝 𝑠2
𝛽 𝛽𝑖 −
= 𝑖𝐷
𝑖𝐷 نشان دهندهی مشاهدههایی است که در استنباط
مقادیر بزرگ
پارامترهای مدل تأثیر زیادی داشته است 𝐷𝑖 ،را میتوان بصورت زیر نیز
نشان داد.
توأم
.یک تفسیر از 𝑖𝐷 را میتوان جمع توان دوم
که
تغییرات در پیش بینیها ،هنگامی که مشاهده -iام در برآورد بتا استفاده
نشده 12
باشد،
سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
داده
هایپرت/کرد.
تعبیر
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
DFFIT
تفاوت بین پیشبینی متغیر وابسته یعنی Yمطابق مدل ساخته شده با استفاده
از همه دادهها و پیشبینی متغیر وابسته مطابق مدل ساخته شده با کنار
گذاشتن iامین مشاهده بدست میآید.که شبیه فاصله -Dکوک است .بر خالف فاصله
-Dکوک ،این معیار همهی مقادیر پیشبینی شده را با کنار گذاشتن iامین
مجموعه مشاهده در نظر نمیگیرد ،بلکه تنها مقادیر پیشبینی را برای iامین
بدست میدهد DFFI𝑇𝑖 .به صورت زیر محاسبه میشود.
outlier
اگر
14
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
ماتریس کوواریانس
یکی دیگر از معیارهای مهم در رگرسیون ،ماتریس کوواریانس برآورد ضرایب
است ،تأثیر حذف سطر iام از مشاهدات مستقل را با معیار زیر بدست میآوریم.
𝑃
اگر COVARTIOبزرگتر از (
𝑛
پرت به حساب میآید.
15
𝑃
𝑛
)1+3و یا کوچکتر از ( )1-3باشد آنگاه داده
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
ماتریس HAT
عالوە آمارههای کە گفته شده ،ماتریس HATدر برخی موارد برای آشکار
سازی نقاط اهرم گون استفادە میشود .کە بصورت
𝑇 𝑋 H=X(𝑋 𝑇 𝑋)−1محاسبه
میشود و در تعیین کردن مقادیر برازش شده یا پیشبینی شده بکار میرود
چون 𝑌 𝑇 =X β𝑇 =HYتأثیر مقادیر وابسته 𝑌𝑖 ،روی برازش در بیشتر مواقع در
برخورد با مقادیر برازش شدە مربوط 𝑖𝑌 بطور مستقیم منعکس میشود و 𝑖𝑖ℎ
شامل این اطالعات است .مشاهده iام یک مقدار اهرم گون است اگر
16
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
𝑃2
𝑛
> 𝑖𝑖ℎ
دالیل توجه به
دادههای پرت
روشهای
تشخیص
دادههای پرت
انواع دادههای
پرت
کاربرد دادههای
پرت
باقیماندههای استیودنت شده
باقیماندههای استیودنت شده بوسیله تقسیم باقیمانده استاندارد
شده بر انحراف معیار بدست میآید.
i=1, 2, …, n
که در این رابطه
𝑛
𝑖𝜀 2
𝑖=1
17
1
𝑝𝑛−
= 𝜎2
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
𝑖𝜀
) 𝑖𝑖𝑝𝜎 (1−
= 𝑖𝑟
دالیل
توجه به
دادههای
پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای
پرت
کاربرد
دادههای
پرت
نحوه برخورد با دادههای پرت
بعد از شناسایی داده های پرت باید در مورد نحوه ی برخورد با آنها
تصمیم گرفته شود .در صورتی که تعداد این داده ها زیاد نباشد می توان
آنها را از فرایند تحلیل کنار گذاشت .به این روش حذف گفته می شود .اگر
تعداد این داده ها زیاد باشد یا محقق به هر دلیلی بخواهد از اطالعات
موجود از آنها استفاده کند می تواند راههای زیر را انتخاب نمایید:
)1خالصه سازی :در این روش داده های پرت به آخرین داده ی قابل قبول
انتقال می یابند یعنی سر و ته داده های زده می شود و د اده های پرت به
آخرین داده ی قانونی تغییر می یابند.
)2استفاده از توزیع های دم کلفت
)3راه سوم استفاده از تکنیک های آماری است که نسبت به داده های پرت
حساس نیستند مثال استفاده از برآوردگر ، Mحداقل میانهی مجذورات،
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان/
18
دانشکدهریاضیشده( ،)Trimmed meanمیانگین
پیراسته
حداقل مجذورات پیرایش شده ،میانگین
ویندسورنر و ...
دالیل
توجه به
دادههای
پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای
پرت
کاربرد
دادههای
پرت
استفاده از توزیعهای دم
کلفت
در توزیع نرمال دادههایی که دور از میانگین قرار دارند و شانس کمی برای
توزیع tو یا
قابل قبول بودن دارند را میتوان با برازش دادن )(fit
پیرسون و ...برای همین داده ها شانس بیشتری برای مقبول بودن دادهها
ارائه می دهد.
19
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل
توجه به
دادههای
پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای
پرت
برآورد گرM-
در حالت کلی یک کالس از برآوردگرهای قوی ) (Robustیک تابع fاز
باقیماندهها را مینیمم میکند ،که بصورت زیر تعریف میشود.
که 𝑇 𝑖𝑋 نشان دهنده iامین ردیف از Xاست.
برآوردگر M-را بصورت زیر تعریف میکنیم.
20
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
کاربرد
دادههای
پرت
دالیل
توجه به
دادههای
پرت
انواع
دادههای
پرت
روشهای
تشخیص
دادههای
پرت
کاربرد
دادههای
پرت
که
آنگاه Sیک
برآورد تقریبا نااریب برای σاست ،اگر nبزرگ باشد و
توزیع خطا نرمال باشد
21
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
حداقل میانه مجذورات): (LMS
22
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
کاربرد دادههای
پرت
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
حداقل مجذورات پیرایش شده ):(LTS
𝑛+𝑝+1
]
2
[ =q
مزیت این روش نسبت به روشهای قبل:
-1کمتر تحت تاثیر تغییرات موضعی قرار میگیرد.
-2دارای کارایی بیشتری است ،چون برآوردگر LTSبطور
مجانبی نرمال است.
23
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
کاربردهای داده
پرت:
در یک مجموعه داده ،دادههای پرت نشان دهنده دادههای غیرمعمول هستند.
در کاربرد هایی ،این غیرمعمول بودن سبب استفاده و اهمیت خاص این داده-
ها میشود.
معرفی برخی از کابردهای داده
پرت:
کشف تقلب
یکی از کاربردهای مهم و شایع کشف دادههای پرت ،کشف تقلب و کالهبرداری
است .این کاربرد شامل یافتن اظهارات مالیاتی غلط ،پولشویی ،موارد
خرید و فروش غیر عادی مانند احتکار و تقلبهای دیگر میشود .در تمامی
این موارد نامعمول بودن این اقدامات سب شده است تا کشف داده پرت برای
یافتن استفاده گردد.
24
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
مشکالت عمده:
وجود دادههای بسیار زیاد
وجود مقادیر گم شده
کشف نفوذ
برای کشف نفوذ به شبکه میتوان از روشهای کشف دادههای پرت استفاده نمود یا میتوان الگوهای نفوذ را تعیین نمود و سپس در شبکه
به دنبال چنین الگوهایی بود .روشهای کشف نفوذ با استفاده از الگوکشف سوءاستفاده دارای نرخ هشدار اشتباه پایینی هستند ولی در
کشف انواع جدید نفوذ بسیار ضعیف عمل میکنند و در این زمینه موفق نیستند .برای نفوذ به شبکههایی که فقط از الگوی نفوذ استفاده
میکنند کافی است به روش ی متفاوت با الگوهای نفوذی که برای امنیت آن استفاده شده است ،به شبکه حمله شود .در چنین حالتی سیستم
ً
کامال بیدفاع خواهد بود .اما کشف نفوذ با استفاده از دادهپرت این مشکل را ندارد.
25
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
کاربرد دادههای
پرت
مشکالت کشف نفوذ با استفاده از کشف دادههای پرت:
حجم زیادی داده به صورت برخط وجود دارد
مشکالت محاسباتی :این سیستم برای کشف حمالت معمول ،به همان محاسباتی که
ً
برای کشف یک حمله کامال جدید لزم است ،نیاز دارد.
کاربردهای پزشکی
کشف دادهپرت را برای تشخیص تجویز نامعمول با توجه به سابقه بیمار و نوع بیماری و ایجاد یک هشدار در این مورد برای بیماران بستری در مراکز
درمانی استفاده نمود .اگرچه سیستمهایی برای این هدف با استفاده از روشهای مبتنی بر دانش وجود دارند اما با توجه به مشکالتی که در ساخت
چنین سیستم هایی وجود دارد و نیز ناتوانی این سیستمها در پوشش تمام موارد ،به نظر میرسد کشف دادهپرت برای این کاربرد راه حل مناسبی
باشد .برای آنکه از کشف دادهپرت بهره برده و برای بررس ی نتایج به جمع آوری داده از مراکز درمانی میتوان از روشهای آمشری استفاده کرد .پس
از کشف دادهپرت بر روی دادهها و مراجعه به متخصصان زمینههای پزشکی ،که نرخ هشدار این سیستم در زمینههای مختلف را بررس ی کرد.
26
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
دالیل توجه به
دادههای پرت
انواع دادههای
پرت
روشهای
تشخیص
دادههای پرت
سایر کاربردها
کشف دادهی پرت را برای تشخیص احتمال وقوع حوادث غیرمترقبه پیشنهاد مینماید.
میتوان با کشف دادهپرت به منظور تحلیل صحیحتر دادههای حاصل از ارزیابی نرمافزار استفاده کرد.
کشف دادهپرت را برای شناسایی رفتار غیرمتعارف برای محیطهای امنیتی ،دولتی.
استفاده از داده پرت برای تشخیص چهره.
از کشف دادهپرت برای یافتن زود هنگام بروز عیب در دستگاههای صنعتی و جلوگیری از افزایش خسارت به دستگاه و
محصولت استفاده نموده است
27
دادههای پرت/سمینار مدلهای خطی /1دانشگاه صنعتی اصفهان /دانشکده ریاض ی
کاربرد دادههای
پرت
از توجه شما متشکریم
دادههایپرت/سمینارمدلهایخطی /1دانشگاهصنعتیاصفهان /دانشکدهریاضی
زمستان ٩١سنندج