Transcript Slide 1
فاطمه بهمن زیاری ،
مریم امینی
مدل های خطی 1
بد مشخصه سازي
توزیع خطا
فرض هاي رگرسيون
• آنچه که در ابتدا براي انجام هر رگرسيون بايستي در نظر گرفته
شود فرض هاي زيربنايي است که تحليل ها براساس آن ها
انجام مي پذيرد .فرض هاي زيربنايي براي يک الگوي رگرسيون
به صورت زير است :
)1جمله ي خطا εداراي ميانگين صفر است .
)2جمله ي خطا εداراي واريانس ثابت است .
)3جمله ي خطا εناهمبسته اند .
)4جمله ي خطا εداراي توزيع نرمال است .
راه هاي تشخيص نرمال بودن
آزمون.1
Anderson-Darling test : الف
Ryan-Joiner normality test : ب
Kolmogorov-Smirnov normality test:ج
نمودارها.2
هيستوگرام:الف
q-q-plot:ب
p – p -plot :ج
تست هاي اندرسون و کلموگروف
• اين تست ها تابع توزيع تجربي که از روي داده ها به دست
• مي آيند را با تابع توزيع نرمال مقايسه مي کند.
• اگر تفاوت مشاهده شده از حد مطلوب (معين شده) بيشتر
باشد فرض H0يعني نرمال بودن رد خواهد شد
• هنگام بررسي نرمال بودن خطاها ما فرض صفر مبتني بر اينکه
توزيع خطاها نرمال است را در سطح خطاي %5تست
ميکنيم .بنابراين اگر آماره آزمون بزرگتر مساوي 0.05بدست
آيد ،در اين صورت دليلي براي رد فرض صفر مبتني بر اينکه
خطاها نرمال است ،وجود نخواهد داشت .به عبارت ديگر توزيع
خطاها نرمال خواهد بود.
کاربرد تست هاي معرفي شده
• آزمون هاي اندرسون -دارلينک و کلموگروف بر اساس تابع توزيع
تجربي ساخته مي شوند و آزمون ريان بر اساس رگرسيون و همبستگي.
• هر سه آزمون زماني که غير نرمال بودن به خاطر چولگي باشد به
خوبي کار مي کنند.
• اگر مشکل غيرنرمال بودن از کشيدگي باشد(دم توزيع
ضخيم تر يا باريک تر باشد)معمول در اولويت اول از
تست اندرسون استفاده مي شود.
دليلي که خطاها نرمال نمي شوند:
• الف –توزيع چند تکه اي باشد يعني توزيع چند تا
مد داشته باشد.
• ب -داده ي پرت داشته باشيم .
• ج -بسته به ساختار داده ها هم مي تواند
توزيع نرمال نباشد و چوله به راست يا چپ
باشد.
مشکالتي که پيش مي آيد؟
• از آنجايي که در محاسبه ي آماره هاي tو Fبراي آزمون هاي
رگرسيون و همچنين در محاسبه ي فواصل اطمينان ،از فرض نرمال
بودن خطاها استفاده مي کنيم لذا انحراف هاي بزرگ از توزيع نرمال
مي تواند روي صحت و اعتبار نتايج بدست آمده تاثيرزيادي بگذارد.
عالوه بر اين در صورتي که خطاها از توزيع هاي با دنباله هاي باريک
تر يا پهن تر از توزيع نرمال پيروي کنند ،ممکن است برازش کمترين
توان هاي دوم نسبت به تغيير کوچکي در داده ها حساس باشد .
اگر نرمال نبودن خطاها ناش ي از داده هاي پرت باشد دقت پايين مي
آيد توان آزمون کم و طول فاصله اطمينان زياد مي شود و به تبع آن
خطاي نوع دوم هم افزايش مي يابد.
در صورتي که متغيرهاي توصيفي يعني Xها نرمال باشند مشکل زيادي در
برآوردها به وجود نمي آيد و اعتبار آزمون از بين نمي رود اما ديگر آزمون ما
most power fullنيست.
در اين صورت مي توانيم به آزمون most power fullبرسيم به شرط
اينکه يا از روش رگرسيون ناپارامتري استفاده کنيم يا از تبديالتي روي Xها
استفاده کنيم که آزمون ما most power fullشود.
ستفاده مي شه که بر اساس معياري که داره ،تبديل بهينه يا همون المبدا و پيدا مي کنه و با به توان رسوندن داده ها به مقدار المبدا سعي در نرمال کردن توزيع داده ها داره .گرچه اين روش بسيار ساده است و نتايج قابل
پيدا کند
رفع مشکل
• تبديل
• استفاده از آمارهاي ناپارامتري
• تشخيص توزيع پارامتري مناسب
تبديل
COX – BOX
اين تبديل بر اساس معياري که داره ،تبديل
بهينه يا همون λرا پيدا مي کنه و با به توان
رسوندن داده ها به مقدار λسعي در نرمال
کردن توزيع داده ها داره .گرچه اين روش بسيار
ساده است و نتايج قابل فهمي داره اما اين
روش معايبي داره که عبارتند از:
-1داده ها بايستي مثبت باشند (بزرگتر از
صفر)
-2در برخي موارد نمي تواند تبديلي براي نرمال
کردن داده ها پيدا کند.
توزيع داده ها را Trancatميکنيم تا به توزيع نرمال برسيم.
استفاده از تبديل معني دار (تبديل هاي لگاريتم و ريشه دوم و وارون)
• براي تست هاي آماري که در آن داده ها نرمال نيستند .آمار هاي ناپارامتري
استفاده مي شود .آزمون هاي ناپارامتري در مقايسه با آزمون هاي پارامتري از
توان تشخيص ي کمتري برخوردارند( .مانند آزمون من – ويتني و آزمون
کروسکال و واليس)
ناپارامتري
استفاده
ازطبق قضيه حد مرکزي
آمارهايحتي اگر جامعه نرمال نباشد
باشد،
• اگر نمونه بزرگ
مي توان از آزمون هاي پارامتريک استفاده نمود
• استفاده از ميانه در آزمون ها به جاي ميانگين
• توزيع هاي منعطف
: Skewتوزيع پارامتري
تشخيص
.1توزيع Normal
منعطف تر هستند.
از توزيع نرمال
مناسب
.2توزيع :Skew t
هم از توزيع نرمال منعطف تراست هم از توزيع .t
• براي اين که بدانيم کدام توزيع ها براي داده
هايي که داريم مناسب تر است از
معيارهاي BIC/AIC/DICاستفاده مي
کنيم.
• DIC)Deviance information criterion(= - 2 Iog L+ C
• AICو BICهم فقط در مقدار Cبا هم
متفاوت هستند به همين دليل هر چه کمتر
باشند بهتر است.
•
•
•
•
Normal
Skew-normal
Student t
Skew-t
DIC
2750.6
2658.1
2742.1
2387.4
QUESTION ?
• :منابع
•
A new class of multivariate skew distributions with applications to Bayesian regression
•
modelsSujit
•
Deviance information criterion
•
Normality test
K. SAHU, Dipak K. DEY and Marcia D. BRANCO
Wikipedia, the free encyclopedia
From Wikipedia, the free encyclopedia Jump