Transcript y - y
همبستگی و رگرسیون Correlation and Regression موسوی ندوشنی پاییز 1386 1 دانشگاه صنعت آب و برق مقدمه (زوج دادهها) آیا این زوجها ارتباطی با هم دارند؟ اگر پاسخ مثبت است ،آیا میتوان معادلهای برای آنها منظور نمود؟ آیا با استفاده از این معادله میتوان درونیابی و یا برونیابی نمود؟ 2 دانشگاه صنعت آب و برق نمودار پراکنش در این نمودار زوجهای ) (x,yبه صورت نقاط مجزا از هم در صفحه مختصات ظاهر میشوند. 3 دانشگاه صنعت آب و برق همبستگی خطی مثبت y y y x (a) Positive x x (b) Strong positive دانشگاه صنعت آب و برق (c) Perfect positive 4 همبستگی خطی منفی y y y (d) Negative x x x (e) Strong negative دانشگاه صنعت آب و برق (f) Perfect negative 5 همبستگی غیر خطی y y x (g) No Correlation x (h) Nonlinear Correlation دانشگاه صنعت آب و برق 6 ضریب همبستگی خطی این ضریب میزان همبستگی خطی بین زوجهای x, yرا n در نمونه ،اندازه میگیرد. å ) (x i - x ) (y i - y i=1 n 2 n å ) (y i - y = r 2 ) (x i - x i=1 å i=1 ضریب همبستگی خطی جامعه را با عالمت نشان میدهند. ) C ov ( X , Y = r Y 7 دانشگاه صنعت آب و برق s X s تفسیر ضریب همبستگی n اگر قدر مطلق rبزرگتر از مقادیر جدول مربوط به این ضریب باشد .نتیجه میگیریم که همبستگی خطی معنیدار است. در غیر اینصورت به اندازه کافی معنیدار نیست. 8 دانشگاه صنعت آب و برق r آزمون فرض راجع به . آیا همبستگی خطی معنیداری بین دو متغیر وجود دارد H0: = (no significant linear correlation) H1: (significant linear correlation) Test statistic: r t = 1- r 2 n - 2 دانشگاه صنعت آب و برق 9 آماره آزمون ( tروش اول) 10 دانشگاه صنعت آب و برق آماره آزمون ( rروش دوم) آماره آزمون r استفاده از جدول معنیدار بودن r Reject =0 1 Fail to reject =0 r = 0.811 0 Sample data: r = 0.828 11 دانشگاه صنعت آب و برق Reject =0 r = - 0.811 -1 Is there a significant linear correlation? x Plastic (lb) 0.27 1.41 2.19 2.83 2.19 1.81 0.85 3.05 y Household 2 3 3 6 4 2 1 5 n=8 = 0.05 H0: = 0 H1 : 0 Test statistic is r = 0.842 دانشگاه صنعت آب و برق 12 n=8 = 0.05 =0 : 0 H0: H1 Test statistic is r = 0.842 Reject =0 -1 r = - 0.707 Fail to reject =0 0 Reject =0 r = 0.707 Sample data: r = 0.842 1 رگرسیون معادله رگرسیون • در حالت کلی (جامعه) معادله خط به صورت زیر است: Y = b 0 + b 1X + e • • با توجه به زوج دادههای اندازهگیری شده معادله رگرسیون عبارتست از: yˆ = b 0 + b 1 x خط رگرسیون 14 بهترین خط برازش یافته خط حاصل از روش حداقل مربعات )(least squares دانشگاه صنعت آب و برق 15 دانشگاه صنعت آب و برق روش حداقل مربعات برای بیان روش حداقل مربعات ،باقیمانده را در نظر استe i = Yˆ i -: بگیرید که به صورت زیر Y i واضح است که باید مجموع مربع خطا حداقل شود .یعنی n 2 ) (Yˆ i - Y i å F = m in i= 1 اگر معادله خط را در رابطه باال جایگذاری کنید ،نتیجه میشود که: ) F = å (b + b X - Y n 2 i i 1 0 i= 1 16 دانشگاه صنعت آب و برق دنباله روش حداقل مربعات برای حداقل نمودن عبارت Fباید از آن مشتق گرفت و مساوی صفر قرار داد. ¶F n - Y i) = 0 i - Y i )X i = 2 å (b 0 + b 1X i= 1 n = 0 i = 2 å (b 0 + b 1X i= 1 ¶ b0 ¶F ¶ b1 اگر طرفین معادالت را بر 2تقسیم کنید و جابجاییهای الزم صورت گیرد ،آنگاه به معادالت زیر میرسید که به معادالت نرمال شهرت دارند. nb + b å X = å Y b å X + b å X = å XY 1 0 2 1 17 دانشگاه صنعت آب و برق 0 روابط برای محاسبه ضرایب معادله : محاسبه شیب خط b1 = æn ö ç n çå x i y i ÷ ÷ çç ÷ ÷ è i= 1 ø æn öæ n ö çç ÷ç ÷ x y ÷ç ÷ i ÷ç å i ÷ çç å ÷ç ÷ è i= 1 øè i = 1 ø æ ö 2÷ ç n çå x i ÷ çç ÷ ÷ è i= 1 ø n 2 æ ö çç ÷ x ÷ i ÷ çç å ÷ è i= 1 ø n : محاسبه عرض از مبداء b 0 = y - b 1x دانشگاه صنعت آب و برق 18 نشانگذاریهای مهم در رگرسیون n xi å x = n i= 1 n y = yi å m e an x m e an y n i=1 n SSy = å (y i - y ) 2 su m of squ are s y (x i - x ) 2 su m of squ are s x i= 1 n SSx = å i= 1 n S xy = å (x i - x ) (y i - y ) su m of x ,y cross p rod u ct s i= 1 دانشگاه صنعت آب و برق 19 دنباله نشانگذاریهای مهم در رگرسیون b1 = S xy T he est im at e of b 1 ( slope) SSx b 0 = y - b 1x T h e e st im at e of b 0 ( in t e rce p t ) e i = y i - yˆ i T h e e st im at e d re sid u al ob s. i n å SSe = 2 ei su m of squ are s e rror i= 1 n 2 Se = å i= 1 2 ei T h e e st im at e of s n - 2 دانشگاه صنعت آب و برق 2 e 20 دنباله نشانگذاریهای مهم در رگرسیون S e (b 1) = S e (b 0) = Se st andard e rror of b 1 SSx 1 n + x 2 SSx st an d ard e rror of b 0 دانشگاه صنعت آب و برق 21 نمودار معادله رگرسیون 22 دانشگاه صنعت آب و برق برآوردها در برآورد مقدار yبر اساس xداده شده ،به موارد زیر توجه کنید. • همبستگی خطی معنیداری وجود ندارد .بنابراین بهترین • 23 برآورد yبرابر با میانگین yاست. اگر همبستگی خطی معنیداری وجود داشت ،آنگاه بهترین برآورد مقدار yبا جایگزین نمودن مقدار xدر داخل معادله رگرسیون بدست میآید. دانشگاه صنعت آب و برق مثال مقدار yبه ازای x=0.5را در مثال زیر بدست آورید. 3.05 0.85 1.81 2.19 2.83 2.19 1.41 0.27 )x Plastic (lb 5 1 2 4 6 3 3 2 y Household b0 = 0.549 b1= 1.48 )ŷ = 0.549 + 1.48 (0.50 ŷ = 1.3 24 دانشگاه صنعت آب و برق خاصیت باقیماندهها و حداقل مربعات باقیمانده • برای زوج ) (x,yاختالف y-ŷرا گویند ،که yمقدار مشاهده شده و ŷمقدار برآورد شده میباشند. حداقل مربعات • خط راست رگرسیون بر اساس حداقل مربع باقیماندهها ترسیم میشود. 25 دانشگاه صنعت آب و برق تعاریف انحراف کل • فاصله عمودی y-yیعنی فاصله بین نقطه ) (x,yو خط افقی که از میانگین نمونه میگذرد. انحراف تبیین شده • فاصله عمودی ŷ-yیعنی فاصله بین ŷو خطی که از میانگین نمونه yمیگذرد. انحراف تبیین نشده • فاصله عمودی y-ŷیعنی فاصله بین نقطه ) (x,yو خط رگرسیون 26 دانشگاه صنعت آب و برق شکل مربوط به تعاریف y 20 19 18 17 16 15 14 13 12 11 (5, 19) Unexplained deviation (5, 13) Total deviation (y - ŷ ) (y - y) 10 9 8 7 6 5 4 3 2 1 Explained deviation y=9 (5, 9) (ŷ - y ) ŷ= 3 + 2x 0 0 x 1 2 3 4 5 6 7 8 دانشگاه صنعت آب و برق 9 27 روابط بین ،yمیانگین yو ŷ انحراف تبیین نشده انحراف تبیین شده انحراف کل ) ˆ( y - y ) = ( yˆ - y ) + ( y - y تغییرات تبیین نشده تغییرات تبیین شده n n 2 ˆ ) (y - y å i= 1 S S res 28 å 2 ˆ (y - y ) + تغییرات کل n 2 = ) (y - y i= 1 S S reg دانشگاه صنعت آب و برق å i= 1 SSt تعریف ضریب تعیین n r 2 = e x p lain e d v ariat ion å = t ot al v ariat ion ( yˆ - y ) 2 (y - y ) 2 i= 1 n å i= 1 r 2 = S S reg S S reg + S S res r 2 = 13.83661 = 13.83661 + 5.663385 = 0.70957 دانشگاه صنعت آب و برق 13.83661 19.5 29 دو آزمون معنیدار بودن مقدار r=0.8423محاسبه شده است .مقدار rبا سطح معنیدار بودن 5%با استفاده از جدول مربوطه برابر با 0.707میباشد ،که 0.8423>0.707است .بنابراین همبستگی معنیدار می باشد. اگر nتعداد نمونهها و kتعداد متغیرهای مستقل باشد، نوشت. زیر صورت به را F آزمون توان می SS R 2 d f1 2 که در آن df1=kو df2=n-k-1است. 30 دانشگاه صنعت آب و برق 1- R d f2 reg = d f1 S S res d f2 = F دنباله دو آزمون معنیدار بودن اکنون اگر مقدار Fرا محاسبه کنید ،نتیجه میشود که: 13.83661 1 5.663385 6 = F = 14.659 اکنون F(0.95,1,6)=5.987با استفاده از جدول در سطح معنیدار 5%است .مالحظه میشود که 14.659>5.987است و مدل مذکور رد نمیشود. 31 دانشگاه صنعت آب و برق خطای استاندارد برآورد خطای استاندارد برآورد به صورت ریاضی برابر است: 2 ) (Yˆ i - Y i n å i= 1 = Se n که درجه آزادی است و برابر با تعداد نمونهها منهای تعداد پارامترهای برآورد شده است .اگر معادله خط را در نظر بگیرید =n-2است. اگر Seنزدیک Syباشد ،رگرسیون موفق نیست .اگر Se به اندازه کافی از Syکوچکتر باشد و نزدیک به صفر می1رسدS = .S باشد ،آنگاه رگرسیون مناسب بهنظر- R 2 y 32 دانشگاه صنعت آب و برق e فاصله اطمینان برآورد در مورد خط خطای استاندارد برآورد • اختالفات بین مقدار yمشاهده شده و ŷبرآورد شده ،یک خطای استاندارد را موجب میشود. n 2 ) ( y i - yˆ i å i= 1 n - 2 = Se فاصلهای که میتوان برای yدر نظر گرفت به صورت زیر است: yˆ - E < y < yˆ + E 33 دانشگاه صنعت آب و برق میزان E مقدار Eبه صورت زیر است: 2 ) (x 0 - x SSx + 1 1+ n E = t a / 2, n - 2S e که در آن x0مقداری است که به جای xدر معادله رگرسیون قرار میدهیم تا ŷحاصل گردد. 34 دانشگاه صنعت آب و برق میانگین به عنوان داده 2 ) (x g - x SSx + 1 n yˆ ± t a 2s e 1 + yˆ b 0 b 1x g x 35 دانشگاه صنعت آب و برق دادههای نزدیک به میانگین yˆ b 0 b 1x g yˆ ± t a 2s e 1 + yˆ ( x g x 1) yˆ ( x g x 1) 1 + (x g - x ) n yˆ ± t a 2s e 1 + SSx 1 + n 1 SSx x 1 x 1 x ( x 1) x 1 ( x 1) x 1 دانشگاه صنعت آب و برق 2 36 36 2 دادههای دورترنسبت به میانگین yˆ b 0 b 1x g yˆ ± t a 2s e 1 + 1 + n SSx 1 yˆ ± t a 2s e 1 + x2 x x2 yˆ ± t a 2s e 1 + ( x 2) x 2 ( x 2) x 2 (x g - x ) n 1 + n 2 + 2 SSx 2 2 SSx 37 دانشگاه صنعت آب و برق 37 2 فاصله اطمینان با استفاده از E با استفاده از مقدار Eمیتوان یک فاصله اطمینان برای خط رگرسیون ترسیم نمود. 10 data observed 9 regression line 8 confidence intervals %95 38 دانشگاه صنعت آب و برق Household 3.5 3 2.5 1.5 2 )plastic (lb 1 0.5 7 6 5 4 3 2 1 0 -1 -2 0 فاصله اطمینان برای شیب خط فاصلهای که میتوان برای 1در نظر گرفت به صورت زیر است: b1 - E < b 1 < b1 + E که مقدار Eدر آن عبارتست از: t a / 2, n - 2S e = E SSx 39 دانشگاه صنعت آب و برق فاصله اطمینان برای عرض از مبدا خط فاصلهای که میتوان برای 0در نظر گرفت به صورت زیر است: b0 - E < b 0 < b0 + E که مقدار Eدر آن عبارتست از: 2 x SSx 40 + 1 n E = t a / 2, n - 2S e دانشگاه صنعت آب و برق شرایط صحت رگرسیون فرضیاتی که تحت آن مدل رگرسیون صحت دارد. • باقیماندهها از یکدیگر مستقل باشند. • میانگین آنها صفر باشد. • واریانس آنها مقداری ثابت است. • باقیماندهها بهطور نرمال توزیع شدهاند. اگر یکی از مفروضات فوق برقرار نباشد ،میتوان مدعی شد که ساختار مدل مناسب نیست. اگر مدل را به صورت زیر در نظر گیرید .نتیجه میشود. Y = b + b X + e ) e : N ( 0, s = ct e 2 e 41 1 دانشگاه صنعت آب و برق 0