انواع داده‌های پرت - دانشگاه صنعتی اصفهان

Download Report

Transcript انواع داده‌های پرت - دانشگاه صنعتی اصفهان

‫دانشگاه صنعتی اصفهان‬
‫دانشکده علوم ریاض ی‬
‫سمینار کالس ی مدل‌های خطی ‪1‬‬
‫ارائه دهندگان‪-1:‬عبدالرحیم ستوده‬
‫‪-2‬ارسالن شیخی‬
‫استاد راهنما‪ :‬دکتر ریحانه ریخته گران‬
‫زمستان ‪93‬‬
‫فهرست مطالب‬
‫تعریف‬
‫دالیل ایجاد داده‌های پرت‬
‫دالیل توجه به داده‌های پرت‬
‫انواع داده‌های پرت‬
‫روش‌های تشخیص داده‌های پرت‬
‫روش‌های برخورد با داده‌های پرت‬
‫کاربرد داده‌های پرت‬
‫‪3‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫تعریف‬
‫غیر عادی یا اتفاقی ‌از وضعیت عمومی داده‌های‬
‫• یک داده پرت مشاهده‌ای است که به طور‌ ‌‬
‫آنالیز می‌شود انحراف داشته باشد‪.‬‬
‫تحت آزمایش ‌و نسبت به قاعده‌ای که بر اساس آن ‌‬
‫ادیر‬
‫در یک مجموعه داده نسبت به سایر مق ‌‬
‫• داده پرت به داد ‌های اطالق می‌گردد که معمو ‌ل ‌‬
‫‌تر است‪.‬‬
‫‌تر یا کوچک ‌‬
‫موجود بزرگ ‌‬
‫•‬
‫سایر دادهها تفاوت دارند ‌و این تفاوت به حدی است که به نظ ‌ر می‪-‬‬
‫دادههای پرت دادههایی هستند که با ‌‬
‫سایر دادهها تولید شدهاند‪.‬‬
‫رسد این دادهها توسط توزیع یا مکانیزم متفاوتی ‌از ‌‬
‫‪4‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫‪5‬‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫‪6‬‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫دلیل ایجاد داده‌های پرت‬
‫‪1‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪7‬‬
‫خطای داده‌ها‬
‫اشتباه در پرسیدن سؤال توسط پرسشگر‬
‫اشتباه در وارد کردن داد ‌هها در بانک‌های اطالعاتی‬
‫اشتباه پرسشگر در نوشتن پاسخ‬
‫خطای نمونه‌گیری‌‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫‪3‬‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫از بین رفتن استاندارد‌ها‬
‫• غیر صحیح بودن اندازه‌گیری داده‌های مشاهده‬
‫ی‬
‫• از کار افتادن وسیله اندازه‌گیر ‌‬
‫‪4‬‬
‫داده‌های پرت عمدی یا داشتن انگیزه از از گزارش اشتباه‬
‫• پاسخگو به هر دلیلی قادر به پاسخگویی نباشد‬
‫‪8‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع‬
‫داده‌های پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫دلیل توجه به داده‌های پرت‬
‫• او ‌ل آنها باعث افزایش واریانس خطا ‌و کاهش توان آزمون‌ می گردند‪.‬‬
‫اگر به طو ‌ر تصادفی توزیع نیافته باشند‪ ،‬باعث برهم زدن نرمال بودن دادهها‬
‫• دوم؛ ‌‬
‫میشوند ‌و ‌از این رو‌ مفروضهی نرمال بودن توزیع دادهها را ‌از بین میبرند و احتمال ‌وقوع‬
‫در مورد تحلیلهای چند‬
‫خطاهای نوع اول‌ ‌و دوم را به شدت افزایش می دهند‪ .‬این مسئله ‌‬
‫متغیره است اهمیت بیشتری‌ پیدا‬
‫‌‬
‫متغیره که نیازمند مفروضات کرویت ‌و نرمال بودن چند‬
‫‌‬
‫میکند‪.‬‬
‫در برآورد اریب پارامترها است‪.‬‬
‫• سومین عامل مؤثر دادههای پرت ‌‬
‫‪9‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع‬
‫داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد‬
‫داده‌های‬
‫پرت‬
‫انواع داده‌های پرت‬
‫‪-1‬داده‌های پرت عمومی‪:‬‬
‫به داده‌هایی اطالق می‌گردد که با فاصله قابل توجهی از از سایر داده‌ها قرار دارند‪.‬‬
‫‪-2‬داده‌های پرت زمینه‌ای ( داده‌های پرت مشروط) ‪:‬‬
‫به داده‌هایی اطالق می‌گردد که بسته به شرایط آن داده‌ها می‌ت ‌وااند پرت باشند یا نباشند ‪ .‬برای مثال دمای هوای ‪ 40‬درجه سانتیگراد برای‬
‫شهر تهران در فصل زمستان داشته باشیم یک داده‌ی پرت محسوب می‌شود‪ ،‬در صورتی که همین دما در تابستان یک داده‌ی معمولی است‪.‬‬
‫‪-3‬داده‌های پرت جمعی‪:‬‬
‫به داده‌هایی اطالق می‌گردد که بصورت دسته جمعی منحرف از سایر داده‌ها قرار دارند‪ .‬جالب آنکه ممکن است این داده‌ها انحراف نداشته‬
‫باشند‪.‬‬
‫‪10‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل‬
‫توجه به‬
‫دادههای‬
‫پرت‬
‫انواع‬
‫دادههای‬
‫پرت‬
‫روشهای‬
‫تشخیص‬
‫دادههای‬
‫پرت‬
‫روشهای کشف دادههای پرت‬
‫معرفی مدل و نمادهای‬
‫استفاده شده‪:‬‬
‫‪11‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫کاربرد‬
‫دادههای‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫روش ‪DFBETA‬‬
‫در مدل رگرسیونی در بیشتر مواقع برآورد ضرایب هدف اصلی ماست حال‬
‫‪(1‬‬
‫اگر ردیف ‪i‬ام ماتریس ‪ X‬حذف شود‪ ،‬در برآورد ضرایب رگرسیونی تغییر‬
‫ایجاد خواهد شد‪ .‬که این تغییر را میتوان بصورت زیر حساب کرد‪.‬‬
‫𝑖𝑒 𝑖𝑥 ‪(𝑋 𝑇 𝑋)−1‬‬
‫𝑖𝑖‪1− ℎ‬‬
‫= 𝑖𝛽‪DFBET𝐴𝑖 = 𝛽-‬‬
‫که 𝑖𝑥 ردیف ‪i‬ام از ماتریس ‪ X‬است‪i 𝑒𝑖 .‬امین باقیمانده و 𝑖𝑖‪i ℎ‬امین عضو از‬
‫ماتریس قطری ‪ 𝑋(𝑋 𝑇 𝑋)−1 𝑋 𝑇 = H‬است‪.‬‬
‫‪DFBETA‬‬
‫اگر‬
‫‪12‬‬
‫‪outlier‬‬
‫≤‬
‫‪2‬‬
‫𝑛‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫فاصله ‪D-COOK‬‬
‫‪ )2‬کوک (‪ )COOK‬در سال ‪ 1990‬آمارهای را بهصورت زیر برای شناسایی دادههای‬
‫پرت معرفی کرد‪.‬‬
‫)𝛽 ‪𝑋 𝑇 𝑋 (𝛽𝑖 −‬‬
‫‪𝑝 𝑠2‬‬
‫𝛽 ‪𝛽𝑖 −‬‬
‫= 𝑖𝐷‬
‫𝑖𝐷 نشان دهندهی مشاهدههایی است که در استنباط‬
‫مقادیر بزرگ‬
‫پارامترهای مدل تأثیر زیادی داشته است‪ 𝐷𝑖 ،‬را میتوان بصورت زیر نیز‬
‫نشان داد‪.‬‬
‫توأم‬
‫‪ .‬یک تفسیر از 𝑖𝐷 را میتوان جمع توان دوم‬
‫که‬
‫تغییرات در پیش بینیها‪ ،‬هنگامی که مشاهده ‪-i‬ام در برآورد بتا استفاده‬
‫نشده ‪12‬‬
‫باشد‪،‬‬
‫سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫داده‬
‫‌های‌پرت‪/‬کرد‪.‬‬
‫تعبیر‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫‪DFFIT‬‬
‫تفاوت بین پیشبینی متغیر وابسته یعنی ‪Y‬مطابق مدل ساخته شده با استفاده‬
‫از همه دادهها و پیشبینی متغیر وابسته مطابق مدل ساخته شده با کنار‬
‫گذاشتن ‪i‬امین مشاهده بدست میآید‪.‬که شبیه فاصله ‪ -D‬کوک است‪ .‬بر خالف فاصله‬
‫‪ -D‬کوک‪ ،‬این معیار همهی مقادیر پیشبینی شده را با کنار گذاشتن ‪i‬امین‬
‫مجموعه مشاهده در نظر نمیگیرد‪ ،‬بلکه تنها مقادیر پیشبینی را برای ‪ i‬امین‬
‫بدست میدهد‪ DFFI𝑇𝑖 .‬به صورت زیر محاسبه میشود‪.‬‬
‫‪outlier‬‬
‫اگر‬
‫‪14‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫ماتریس کوواریانس‬
‫یکی دیگر از معیارهای مهم در رگرسیون‪ ،‬ماتریس کوواریانس برآورد ضرایب‬
‫است‪ ،‬تأثیر حذف سطر ‪ i‬ام از مشاهدات مستقل را با معیار زیر بدست میآوریم‪.‬‬
‫𝑃‬
‫اگر ‪ COVARTIO‬بزرگتر از (‬
‫𝑛‬
‫پرت به حساب میآید‪.‬‬
‫‪15‬‬
‫𝑃‬
‫𝑛‬
‫‪ )1+3‬و یا کوچکتر از ( ‪ )1-3‬باشد آنگاه داده‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫ماتریس ‪HAT‬‬
‫عالوە آمارههای کە گفته شده‪ ،‬ماتریس ‪ HAT‬در برخی موارد برای آشکار‬
‫سازی نقاط اهرم گون استفادە میشود‪ .‬کە بصورت‬
‫𝑇 𝑋 ‪ H=X(𝑋 𝑇 𝑋)−1‬محاسبه‬
‫میشود و در تعیین کردن مقادیر برازش شده یا پیشبینی شده بکار میرود‬
‫چون ‪ 𝑌 𝑇 =X β𝑇 =HY‬تأثیر مقادیر وابسته‪ 𝑌𝑖 ،‬روی برازش در بیشتر مواقع در‬
‫برخورد با مقادیر برازش شدە مربوط 𝑖𝑌 بطور مستقیم منعکس میشود و 𝑖𝑖‪ℎ‬‬
‫شامل این اطالعات است‪ .‬مشاهده ‪i‬ام یک مقدار اهرم گون است اگر‬
‫‪16‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫𝑃‪2‬‬
‫𝑛‬
‫> 𝑖𝑖‪ℎ‬‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫باقیماندههای استیودنت شده‬
‫باقیماندههای استیودنت شده بوسیله تقسیم باقیمانده استاندارد‬
‫شده بر انحراف معیار بدست میآید‪.‬‬
‫‪i=1, 2, …, n‬‬
‫که در این رابطه‬
‫𝑛‬
‫𝑖‪𝜀 2‬‬
‫‪𝑖=1‬‬
‫‪17‬‬
‫‪1‬‬
‫𝑝‪𝑛−‬‬
‫= ‪𝜎2‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫𝑖𝜀‬
‫) 𝑖𝑖𝑝‪𝜎 (1−‬‬
‫= 𝑖𝑟‬
‫دالیل‬
‫توجه به‬
‫دادههای‬
‫پرت‬
‫انواع‬
‫دادههای‬
‫پرت‬
‫روشهای‬
‫تشخیص‬
‫دادههای‬
‫پرت‬
‫کاربرد‬
‫دادههای‬
‫پرت‬
‫نحوه برخورد با دادههای پرت‬
‫بعد از شناسایی داده های پرت باید در مورد نحوه ی برخورد با آنها‬
‫تصمیم گرفته شود‪ .‬در صورتی که تعداد این داده ها زیاد نباشد می توان‬
‫آنها را از فرایند تحلیل کنار گذاشت‪ .‬به این روش حذف گفته می شود‪ .‬اگر‬
‫تعداد این داده ها زیاد باشد یا محقق به هر دلیلی بخواهد از اطالعات‬
‫موجود از آنها استفاده کند می تواند راههای زیر را انتخاب نمایید‪:‬‬
‫‪ )1‬خالصه سازی‪ :‬در این روش داده های پرت به آخرین داده ی قابل قبول‬
‫انتقال می یابند یعنی سر و ته داده های زده می شود و د اده های پرت به‬
‫آخرین داده ی قانونی تغییر می یابند‪.‬‬
‫‪ )2‬استفاده از توزیع های دم کلفت‬
‫‪ )3‬راه سوم استفاده از تکنیک های آماری است که نسبت به داده های پرت‬
‫حساس نیستند مثال استفاده از برآوردگر ‪، M‬حداقل میانهی مجذورات‪،‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪/‬‬
‫‪18‬‬
‫دانشکده‌ریاضیشده(‪ ،)Trimmed mean‬میانگین‬
‫پیراسته‬
‫حداقل مجذورات پیرایش شده‪ ،‬میانگین‬
‫ویندسورنر و ‪...‬‬
‫دالیل‬
‫توجه به‬
‫دادههای‬
‫پرت‬
‫انواع‬
‫دادههای‬
‫پرت‬
‫روشهای‬
‫تشخیص‬
‫دادههای‬
‫پرت‬
‫کاربرد‬
‫دادههای‬
‫پرت‬
‫استفاده از توزیعهای دم‬
‫کلفت‬
‫در توزیع نرمال دادههایی که دور از میانگین قرار دارند و شانس کمی برای‬
‫توزیع ‪ t‬و یا‬
‫قابل قبول بودن دارند را میتوان با برازش دادن )‪(fit‬‬
‫پیرسون و ‪ ...‬برای همین داده ها شانس بیشتری برای مقبول بودن دادهها‬
‫ارائه می دهد‪.‬‬
‫‪19‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل‬
‫توجه به‬
‫دادههای‬
‫پرت‬
‫انواع‬
‫دادههای‬
‫پرت‬
‫روشهای‬
‫تشخیص‬
‫دادههای‬
‫پرت‬
‫برآورد گر‪M-‬‬
‫در حالت کلی یک کالس از برآوردگرهای قوی )‪ (Robust‬یک تابع ‪ f‬از‬
‫باقیماندهها را مینیمم میکند‪ ،‬که بصورت زیر تعریف میشود‪.‬‬
‫که 𝑇 𝑖𝑋 نشان دهنده ‪i‬امین ردیف از ‪ X‬است‪.‬‬
‫برآوردگر‪ M-‬را بصورت زیر تعریف میکنیم‪.‬‬
‫‪20‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫کاربرد‬
‫دادههای‬
‫پرت‬
‫دالیل‬
‫توجه به‬
‫دادههای‬
‫پرت‬
‫انواع‬
‫دادههای‬
‫پرت‬
‫روشهای‬
‫تشخیص‬
‫دادههای‬
‫پرت‬
‫کاربرد‬
‫دادههای‬
‫پرت‬
‫که‬
‫آنگاه ‪ S‬یک‬
‫برآورد تقریبا نااریب برای ‪ σ‬است‪ ،‬اگر ‪ n‬بزرگ باشد و‬
‫توزیع خطا نرمال باشد‬
‫‪21‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫حداقل میانه مجذورات)‪: (LMS‬‬
‫‪22‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫کاربرد داده‌های‬
‫پرت‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫حداقل مجذورات پیرایش شده )‪:(LTS‬‬
‫‪𝑛+𝑝+1‬‬
‫]‬
‫‪2‬‬
‫[ =‪q‬‬
‫مزیت این روش نسبت به روشهای قبل‪:‬‬
‫‪ -1‬کمتر تحت تاثیر تغییرات موضعی قرار میگیرد‪.‬‬
‫‪-2‬دارای کارایی بیشتری است‪ ،‬چون برآوردگر ‪ LTS‬بطور‬
‫مجانبی نرمال است‪.‬‬
‫‪23‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫کاربردهای داده‬
‫پرت‪:‬‬
‫در یک مجموعه داده‪ ،‬دادههای پرت نشان دهنده دادههای غیرمعمول هستند‪.‬‬
‫در کاربرد هایی‪ ،‬این غیرمعمول بودن سبب استفاده و اهمیت خاص این داده‪-‬‬
‫ها میشود‪.‬‬
‫معرفی برخی از کابردهای داده‬
‫پرت‪:‬‬
‫کشف تقلب‬
‫یکی از کاربردهای مهم و شایع کشف دادههای پرت‪ ،‬کشف تقلب و کالهبرداری‬
‫است‪ .‬این کاربرد شامل یافتن اظهارات مالیاتی غلط‪ ،‬پولشویی‪ ،‬موارد‬
‫خرید و فروش غیر عادی مانند احتکار و تقلبهای دیگر میشود‪ .‬در تمامی‬
‫این موارد نامعمول بودن این اقدامات سب شده است تا کشف داده پرت برای‬
‫یافتن استفاده گردد‪.‬‬
‫‪24‬‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫مشکالت عمده‪:‬‬
‫‪ ‬وجود داده‌های بسیار زیاد‬
‫‪ ‬وجود مقادیر گم شده‬
‫کشف نفوذ‬
‫برای کشف نفوذ به شبکه میتوان از روشهای کشف دادههای پرت استفاده نمود یا میتوان الگوهای نفوذ را تعیین نمود و سپس در شبکه‬
‫به دنبال چنین الگوهایی بود‪ .‬روشهای کشف نفوذ با استفاده از الگوکشف سوءاستفاده دارای نرخ هشدار اشتباه پایینی هستند ولی در‬
‫کشف انواع جدید نفوذ بسیار ضعیف عمل میکنند و در این زمینه موفق نیستند‪ .‬برای نفوذ به شبکههایی که فقط از الگوی نفوذ استفاده‬
‫میکنند کافی است به روش ی متفاوت با الگوهای نفوذی که برای امنیت آن استفاده شده است‪ ،‬به شبکه حمله شود‪ .‬در چنین حالتی سیستم‬
‫ً‬
‫کامال بیدفاع خواهد بود‪ .‬اما کشف نفوذ با استفاده از دادهپرت این مشکل را ندارد‪.‬‬
‫‪25‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫کاربرد داده‌های‬
‫پرت‬
‫مشکالت کشف نفوذ با استفاده از کشف دادههای پرت‪:‬‬
‫‪ ‬حجم زیادی داده به صورت برخط وجود دارد‬
‫‪ ‬مشکالت محاسباتی‪ :‬این سیستم برای کشف حمالت معمول‪ ،‬به همان محاسباتی که‬
‫ً‬
‫برای کشف یک حمله کامال جدید لزم است‪ ،‬نیاز دارد‪.‬‬
‫کاربردهای پزشکی‬
‫کشف دادهپرت را برای تشخیص تجویز نامعمول با توجه به سابقه بیمار و نوع بیماری و ایجاد یک هشدار در این مورد برای بیماران بستری در مراکز‬
‫درمانی استفاده نمود‪ .‬اگرچه سیستمهایی برای این هدف با استفاده از روشهای مبتنی بر دانش وجود دارند اما با توجه به مشکالتی که در ساخت‬
‫چنین سیستم هایی وجود دارد و نیز ناتوانی این سیستمها در پوشش تمام موارد‪ ،‬به نظر میرسد کشف دادهپرت برای این کاربرد راه حل مناسبی‬
‫باشد‪ .‬برای آن‌که از کشف دادهپرت بهره برده و برای بررس ی نتایج به جمع آوری داده از مراکز درمانی می‌توان از روش‌های آمشری استفاده کرد‪ .‬پس‬
‫از کشف دادهپرت بر روی دادهها و مراجعه به متخصصان زمینههای پزشکی ‪ ،‬که نرخ هشدار این سیستم در زمینههای مختلف را بررس ی کرد‪.‬‬
‫‪26‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫دالیل توجه به‬
‫داده‌های پرت‬
‫انواع داده‌های‬
‫پرت‬
‫روش‌های‬
‫تشخیص‬
‫داده‌های پرت‬
‫سایر کاربردها‬
‫‪ ‬کشف دادهی پرت را برای تشخیص احتمال وقوع حوادث غیرمترقبه پیشنهاد مینماید‪.‬‬
‫‪ ‬می‌توان با کشف دادهپرت به منظور تحلیل صحیحتر دادههای حاصل از ارزیابی نرمافزار استفاده کرد‪.‬‬
‫‪ ‬کشف دادهپرت را برای شناسایی رفتار غیرمتعارف برای محیطهای امنیتی‪ ،‬دولتی‪.‬‬
‫‪ ‬استفاده از داده پرت برای تشخیص چهره‪.‬‬
‫‪ ‬از کشف دادهپرت برای یافتن زود هنگام بروز عیب در دستگاههای صنعتی و جلوگیری از افزایش خسارت به دستگاه و‬
‫محصولت استفاده نموده است‬
‫‪27‬‬
‫داده‌های پرت‪/‬سمینار مدل‌های خطی ‪ /1‬دانشگاه صنعتی اصفهان ‪ /‬دانشکده ریاض ی‬
‫کاربرد داده‌های‬
‫پرت‬
‫از توجه شما متشکریم‬
‫داده‌های‌پرت‪/‬سمینار‌مدل‌های‌خطی‌‪ /1‬دانشگاه‌صنعتی‌اصفهان‌‪ /‬دانشکده‌ریاضی‬
‫زمستان ‪ ٩١‬سنندج‬