Transcript Slide 1

‫فاطمه بهمن زیاری ‪،‬‬
‫مریم امینی‬
‫مدل های خطی ‪1‬‬
‫بد مشخصه سازي‬
‫توزیع خطا‬
‫فرض هاي رگرسيون‬
‫• آنچه که در ابتدا براي انجام هر رگرسيون بايستي در نظر گرفته‬
‫شود فرض هاي زيربنايي است که تحليل ها براساس آن ها‬
‫انجام مي پذيرد‪ .‬فرض هاي زيربنايي براي يک الگوي رگرسيون‬
‫به صورت زير است ‪:‬‬
‫‪ )1‬جمله ي خطا ‪ ε‬داراي ميانگين صفر است ‪.‬‬
‫‪ )2‬جمله ي خطا ‪ ε‬داراي واريانس ثابت است ‪.‬‬
‫‪ )3‬جمله ي خطا ‪ ε‬ناهمبسته اند ‪.‬‬
‫‪ )4‬جمله ي خطا ‪ ε‬داراي توزيع نرمال است ‪.‬‬
‫راه هاي تشخيص نرمال بودن‬
‫ آزمون‬.1
Anderson-Darling test : ‫الف‬
Ryan-Joiner normality test : ‫ب‬
Kolmogorov-Smirnov normality test:‫ج‬
‫ نمودارها‬.2
‫ هيستوگرام‬:‫الف‬
q-q-plot:‫ب‬
p – p -plot :‫ج‬
‫تست هاي اندرسون و کلموگروف‬
‫• اين تست ها تابع توزيع تجربي که از روي داده ها به دست‬
‫• مي آيند را با تابع توزيع نرمال مقايسه مي کند‪.‬‬
‫• اگر تفاوت مشاهده شده از حد مطلوب (معين شده) بيشتر‬
‫باشد فرض ‪ H0‬يعني نرمال بودن رد خواهد شد‬
‫• هنگام بررسي نرمال بودن خطاها ما فرض صفر مبتني بر اينکه‬
‫توزيع خطاها نرمال است را در سطح خطاي ‪ %5‬تست‬
‫ميکنيم‪ .‬بنابراين اگر آماره آزمون بزرگتر مساوي ‪ 0.05‬بدست‬
‫آيد‪ ،‬در اين صورت دليلي براي رد فرض صفر مبتني بر اينکه‬
‫خطاها نرمال است‪ ،‬وجود نخواهد داشت‪ .‬به عبارت ديگر توزيع‬
‫خطاها نرمال خواهد بود‪.‬‬
‫کاربرد تست هاي معرفي شده‬
‫• آزمون هاي اندرسون ‪ -‬دارلينک و کلموگروف بر اساس تابع توزيع‬
‫تجربي ساخته مي شوند و آزمون ريان بر اساس رگرسيون و همبستگي‪.‬‬
‫• هر سه آزمون زماني که غير نرمال بودن به خاطر چولگي باشد به‬
‫خوبي کار مي کنند‪.‬‬
‫• اگر مشکل غيرنرمال بودن از کشيدگي باشد(دم توزيع‬
‫ضخيم تر يا باريک تر باشد)معمول در اولويت اول از‬
‫تست اندرسون استفاده مي شود‪.‬‬
‫دليلي که خطاها نرمال نمي شوند‪:‬‬
‫• الف –توزيع چند تکه اي باشد يعني توزيع چند تا‬
‫مد داشته باشد‪.‬‬
‫• ب‪ -‬داده ي پرت داشته باشيم ‪.‬‬
‫• ج‪ -‬بسته به ساختار داده ها هم مي تواند‬
‫توزيع نرمال نباشد و چوله به راست يا چپ‬
‫باشد‪.‬‬
‫مشکالتي که پيش مي آيد؟‬
‫• از آنجايي که در محاسبه ي آماره هاي ‪ t‬و‪ F‬براي آزمون هاي‬
‫رگرسيون و همچنين در محاسبه ي فواصل اطمينان‪ ،‬از فرض نرمال‬
‫بودن خطاها استفاده مي کنيم لذا انحراف هاي بزرگ از توزيع نرمال‬
‫مي تواند روي صحت و اعتبار نتايج بدست آمده تاثيرزيادي بگذارد‪.‬‬
‫عالوه بر اين در صورتي که خطاها از توزيع هاي با دنباله هاي باريک‬
‫تر يا پهن تر از توزيع نرمال پيروي کنند ‪ ،‬ممکن است برازش کمترين‬
‫توان هاي دوم نسبت به تغيير کوچکي در داده ها حساس باشد ‪.‬‬
‫اگر نرمال نبودن خطاها ناش ي از داده هاي پرت باشد دقت پايين مي‬
‫آيد توان آزمون کم و طول فاصله اطمينان زياد مي شود و به تبع آن‬
‫خطاي نوع دوم هم افزايش مي يابد‪.‬‬
‫در صورتي که متغيرهاي توصيفي يعني ‪X‬ها نرمال باشند مشکل زيادي در‬
‫برآوردها به وجود نمي آيد و اعتبار آزمون از بين نمي رود اما ديگر آزمون ما‬
‫‪ most power full‬نيست‪.‬‬
‫در اين صورت مي توانيم به آزمون ‪ most power full‬برسيم به شرط‬
‫اينکه يا از روش رگرسيون ناپارامتري استفاده کنيم يا از تبديالتي روي ‪X‬ها‬
‫استفاده کنيم که آزمون ما ‪ most power full‬شود‪.‬‬
‫ستفاده مي شه که بر اساس معياري که داره‪ ،‬تبديل بهينه يا همون المبدا و پيدا مي کنه و با به توان رسوندن داده ها به مقدار المبدا سعي در نرمال کردن توزيع داده ها داره‪ .‬گرچه اين روش بسيار ساده است و نتايج قابل‬
‫پيدا کند‬
‫رفع مشکل‬
‫• تبديل‬
‫• استفاده از آمارهاي ناپارامتري‬
‫• تشخيص توزيع پارامتري مناسب‬
‫تبديل‬
‫‪COX – BOX‬‬
‫اين تبديل بر اساس معياري که داره‪ ،‬تبديل‬
‫بهينه يا همون ‪ λ‬را پيدا مي کنه و با به توان‬
‫رسوندن داده ها به مقدار ‪ λ‬سعي در نرمال‬
‫کردن توزيع داده ها داره‪ .‬گرچه اين روش بسيار‬
‫ساده است و نتايج قابل فهمي داره اما اين‬
‫روش معايبي داره که عبارتند از‪:‬‬
‫‪ -1‬داده ها بايستي مثبت باشند (بزرگتر از‬
‫صفر)‬
‫‪ -2‬در برخي موارد نمي تواند تبديلي براي نرمال‬
‫کردن داده ها پيدا کند‪.‬‬
‫توزيع داده ها را ‪ Trancat‬ميکنيم تا به توزيع نرمال برسيم‪.‬‬
‫استفاده از تبديل معني دار (تبديل هاي لگاريتم و ريشه دوم و وارون)‬
‫• براي تست هاي آماري که در آن داده ها نرمال نيستند‪ .‬آمار هاي ناپارامتري‬
‫استفاده مي شود‪ .‬آزمون هاي ناپارامتري در مقايسه با آزمون هاي پارامتري از‬
‫توان تشخيص ي کمتري برخوردارند‪( .‬مانند آزمون من – ويتني و آزمون‬
‫کروسکال و واليس)‬
‫ناپارامتري‬
‫استفاده‬
‫ازطبق قضيه حد مرکزي‬
‫آمارهايحتي اگر جامعه نرمال نباشد‬
‫باشد‪،‬‬
‫• اگر نمونه بزرگ‬
‫مي توان از آزمون هاي پارامتريک استفاده نمود‬
‫• استفاده از ميانه در آزمون ها به جاي ميانگين‬
‫• توزيع هاي منعطف‬
‫‪: Skew‬توزيع پارامتري‬
‫تشخيص‬
‫‪ .1‬توزيع ‪Normal‬‬
‫منعطف تر هستند‪.‬‬
‫از توزيع نرمال‬
‫مناسب‬
‫‪ .2‬توزيع ‪:Skew t‬‬
‫هم از توزيع نرمال منعطف تراست هم از توزيع ‪.t‬‬
‫• براي اين که بدانيم کدام توزيع ها براي داده‬
‫هايي که داريم مناسب تر است از‬
‫معيارهاي ‪ BIC/AIC/DIC‬استفاده مي‬
‫کنيم‪.‬‬
‫‪• DIC)Deviance information criterion(= - 2 Iog L+ C‬‬
‫• ‪ AIC‬و ‪ BIC‬هم فقط در مقدار ‪ C‬با هم‬
‫متفاوت هستند به همين دليل هر چه کمتر‬
‫باشند بهتر است‪.‬‬
•
•
•
•
Normal
Skew-normal
Student t
Skew-t
DIC
2750.6
2658.1
2742.1
2387.4
QUESTION ?
• :‫منابع‬
•
A new class of multivariate skew distributions with applications to Bayesian regression
•
modelsSujit
•
Deviance information criterion
•
Normality test
K. SAHU, Dipak K. DEY and Marcia D. BRANCO
Wikipedia, the free encyclopedia
From Wikipedia, the free encyclopedia Jump