Transcript y - y

‫همبستگی و رگرسیون‬
‫‪Correlation and Regression‬‬
‫موسوی ندوشنی‬
‫پاییز ‪1386‬‬
‫‪1‬‬
‫دانشگاه صنعت آب و برق‬
‫مقدمه (زوج دادهها)‬
‫‪ ‬آیا این زوجها ارتباطی با هم دارند؟‬
‫‪ ‬اگر پاسخ مثبت است‪ ،‬آیا میتوان معادلهای برای آنها‬
‫منظور نمود؟‬
‫‪ ‬آیا با استفاده از این معادله میتوان درونیابی و یا‬
‫برونیابی نمود؟‬
‫‪2‬‬
‫دانشگاه صنعت آب و برق‬
‫نمودار پراکنش‬
‫‪ ‬در این نمودار زوجهای )‪ (x,y‬به صورت نقاط مجزا از‬
‫هم در صفحه مختصات ظاهر میشوند‪.‬‬
‫‪3‬‬
‫دانشگاه صنعت آب و برق‬
‫همبستگی خطی مثبت‬
y
y
y
x
(a) Positive
x
x
(b) Strong
positive
‫دانشگاه صنعت آب و برق‬
(c) Perfect
positive
4
‫همبستگی خطی منفی‬
y
y
y
(d) Negative
x
x
x
(e) Strong
negative
‫دانشگاه صنعت آب و برق‬
(f) Perfect
negative
5
‫همبستگی غیر خطی‬
y
y
x
(g) No Correlation
x
(h) Nonlinear Correlation
‫دانشگاه صنعت آب و برق‬
6
‫ضریب همبستگی خطی‬
‫‪ ‬این ضریب میزان همبستگی خطی بین زوجهای ‪ x, y‬را‬
‫‪n‬‬
‫در نمونه‪ ،‬اندازه میگیرد‪.‬‬
‫‪å‬‬
‫) ‪(x i - x ) (y i - y‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪2‬‬
‫‪n‬‬
‫‪å‬‬
‫) ‪(y i - y‬‬
‫= ‪r‬‬
‫‪2‬‬
‫) ‪(x i - x‬‬
‫‪i=1‬‬
‫‪å‬‬
‫‪i=1‬‬
‫‪ ‬ضریب همبستگی خطی جامعه را با عالمت ‪ ‬نشان‬
‫میدهند‪.‬‬
‫) ‪C ov ( X , Y‬‬
‫= ‪r‬‬
‫‪Y‬‬
‫‪7‬‬
‫دانشگاه صنعت آب و برق‬
‫‪s‬‬
‫‪X‬‬
‫‪s‬‬
‫تفسیر ضریب همبستگی‬
‫‪n‬‬
‫‪ ‬اگر قدر مطلق ‪ r‬بزرگتر از‬
‫مقادیر جدول مربوط به این‬
‫ضریب باشد‪ .‬نتیجه میگیریم‬
‫که همبستگی خطی معنیدار‬
‫است‪.‬‬
‫‪ ‬در غیر اینصورت به اندازه‬
‫کافی معنیدار نیست‪.‬‬
‫‪8‬‬
‫دانشگاه صنعت آب و برق‬
r ‫آزمون فرض راجع به‬
.‫ آیا همبستگی خطی معنیداری بین دو متغیر وجود دارد‬
H0:  =
(no significant linear correlation)
H1:  
(significant linear correlation)
 Test statistic:
r
t =
1- r
2
n - 2
‫دانشگاه صنعت آب و برق‬
9
‫آماره آزمون ‪( t‬روش اول)‬
‫‪10‬‬
‫دانشگاه صنعت آب و برق‬
‫آماره آزمون ‪( r‬روش دوم)‬
‫‪ ‬آماره آزمون ‪r‬‬
‫‪ ‬استفاده از جدول معنیدار بودن ‪r‬‬
‫‪Reject‬‬
‫‪ =0‬‬
‫‪1‬‬
‫‪Fail to reject‬‬
‫‪=0‬‬
‫‪r = 0.811‬‬
‫‪0‬‬
‫‪Sample data:‬‬
‫‪r = 0.828‬‬
‫‪11‬‬
‫دانشگاه صنعت آب و برق‬
‫‪Reject‬‬
‫‪ =0‬‬
‫‪r = - 0.811‬‬
‫‪-1‬‬
Is there a significant linear correlation?
x Plastic (lb)
0.27
1.41
2.19
2.83
2.19
1.81
0.85
3.05
y Household
2
3
3
6
4
2
1
5
n=8
 = 0.05
H0:  = 0
H1 :  0
Test statistic is r = 0.842
‫دانشگاه صنعت آب و برق‬
12
n=8
 = 0.05
=0
:  0
H0:
H1
Test statistic is r = 0.842
Reject
 =0
-1
r = - 0.707
Fail to reject
=0
0
Reject
 =0
r = 0.707
Sample data:
r = 0.842
1
‫رگرسیون‬
‫‪ ‬معادله رگرسیون‬
‫• در حالت کلی (جامعه) معادله خط به صورت زیر است‪:‬‬
‫‪Y = b 0 + b 1X + e‬‬
‫•‬
‫•‬
‫با توجه به زوج دادههای اندازهگیری شده معادله رگرسیون‬
‫عبارتست از‪:‬‬
‫‪yˆ = b 0 + b 1 x‬‬
‫خط رگرسیون‬
‫‪‬‬
‫‪‬‬
‫‪14‬‬
‫بهترین خط برازش یافته‬
‫خط حاصل از روش حداقل مربعات )‪(least squares‬‬
‫دانشگاه صنعت آب و برق‬
‫‪15‬‬
‫دانشگاه صنعت آب و برق‬
‫روش حداقل مربعات‬
‫‪ ‬برای بیان روش حداقل مربعات‪ ،‬باقیمانده را در نظر‬
‫است‪e i = Yˆ i -:‬‬
‫بگیرید که به صورت زیر ‪Y i‬‬
‫‪ ‬واضح است که باید مجموع مربع خطا حداقل شود‪ .‬یعنی‬
‫‪n‬‬
‫‪2‬‬
‫) ‪(Yˆ i - Y i‬‬
‫‪å‬‬
‫‪F = m in‬‬
‫‪i= 1‬‬
‫‪ ‬اگر معادله خط را در رابطه باال جایگذاری کنید‪ ،‬نتیجه‬
‫میشود که‪:‬‬
‫) ‪F = å (b + b X - Y‬‬
‫‪n‬‬
‫‪2‬‬
‫‪i‬‬
‫‪i‬‬
‫‪1‬‬
‫‪0‬‬
‫‪i= 1‬‬
‫‪16‬‬
‫دانشگاه صنعت آب و برق‬
‫دنباله روش حداقل مربعات‬
‫‪ ‬برای حداقل نمودن عبارت ‪ F‬باید از آن مشتق گرفت و‬
‫مساوی صفر قرار داد‪.‬‬
‫‪¶F‬‬
‫‪n‬‬
‫‪- Y i) = 0‬‬
‫‪i‬‬
‫‪- Y i )X‬‬
‫‪i‬‬
‫‪= 2 å (b 0 + b 1X‬‬
‫‪i= 1‬‬
‫‪n‬‬
‫‪= 0‬‬
‫‪i‬‬
‫‪= 2 å (b 0 + b 1X‬‬
‫‪i= 1‬‬
‫‪¶ b0‬‬
‫‪¶F‬‬
‫‪¶ b1‬‬
‫‪ ‬اگر طرفین معادالت را بر ‪ 2‬تقسیم کنید و جابجاییهای‬
‫الزم صورت گیرد‪ ،‬آنگاه به معادالت زیر میرسید که به‬
‫معادالت نرمال شهرت دارند‪.‬‬
‫‪nb + b å X = å Y‬‬
‫‪b å X + b å X = å XY‬‬
‫‪1‬‬
‫‪0‬‬
‫‪2‬‬
‫‪1‬‬
‫‪17‬‬
‫دانشگاه صنعت آب و برق‬
‫‪0‬‬
‫روابط برای محاسبه ضرایب معادله‬
:‫ محاسبه شیب خط‬
b1 =
æn
ö
ç
n çå x i y i ÷
÷
çç
÷
÷
è i= 1
ø
æn
öæ n
ö
çç
֍
÷
x
y
֍
÷
i ÷ç å
i ÷
çç å
֍
÷
è i= 1
øè i = 1 ø
æ
ö
2÷
ç
n çå x i ÷ çç
÷
÷
è i= 1
ø
n
2
æ
ö
çç
÷
x
÷
i ÷
çç å
÷
è i= 1
ø
n
:‫ محاسبه عرض از مبداء‬
b 0 = y - b 1x
‫دانشگاه صنعت آب و برق‬
18
‫نشانگذاریهای مهم در رگرسیون‬
n
xi
å
x =
n
i= 1
n
y =
yi
å
m e an x
m e an y
n
i=1
n
SSy =
å
(y i - y )
2
su m of squ are s y
(x i - x )
2
su m of squ are s x
i= 1
n
SSx =
å
i= 1
n
S xy =
å
(x i - x ) (y i - y )
su m of x ,y cross p rod u ct s
i= 1
‫دانشگاه صنعت آب و برق‬
19
‫دنباله نشانگذاریهای مهم در رگرسیون‬
b1 =
S xy
T he est im at e of b 1 ( slope)
SSx
b 0 = y - b 1x
T h e e st im at e of b 0 ( in t e rce p t )
e i = y i - yˆ i
T h e e st im at e d re sid u al ob s. i
n
å
SSe =
2
ei
su m of squ are s e rror
i= 1
n
2
Se =
å
i= 1
2
ei
T h e e st im at e of s
n - 2
‫دانشگاه صنعت آب و برق‬
2
e
20
‫دنباله نشانگذاریهای مهم در رگرسیون‬
S e (b 1) =
S e (b 0) =
Se
st andard e rror of b 1
SSx
1
n
+
x
2
SSx
st an d ard e rror of b 0
‫دانشگاه صنعت آب و برق‬
21
‫نمودار معادله رگرسیون‬
‫‪22‬‬
‫دانشگاه صنعت آب و برق‬
‫برآوردها‬
‫‪ ‬در برآورد مقدار ‪ y‬بر اساس ‪ x‬داده شده‪ ،‬به موارد زیر‬
‫توجه کنید‪.‬‬
‫• همبستگی خطی معنیداری وجود ندارد‪ .‬بنابراین بهترین‬
‫•‬
‫‪23‬‬
‫برآورد ‪ y‬برابر با میانگین ‪ y‬است‪.‬‬
‫اگر همبستگی خطی معنیداری وجود داشت‪ ،‬آنگاه بهترین‬
‫برآورد مقدار ‪ y‬با جایگزین نمودن مقدار ‪ x‬در داخل معادله‬
‫رگرسیون بدست میآید‪.‬‬
‫دانشگاه صنعت آب و برق‬
‫مثال‬
‫‪ ‬مقدار ‪ y‬به ازای ‪ x=0.5‬را در مثال زیر بدست آورید‪.‬‬
‫‪3.05‬‬
‫‪0.85‬‬
‫‪1.81‬‬
‫‪2.19‬‬
‫‪2.83‬‬
‫‪2.19‬‬
‫‪1.41‬‬
‫‪0.27‬‬
‫)‪x Plastic (lb‬‬
‫‪5‬‬
‫‪1‬‬
‫‪2‬‬
‫‪4‬‬
‫‪6‬‬
‫‪3‬‬
‫‪3‬‬
‫‪2‬‬
‫‪y Household‬‬
‫‪b0 = 0.549‬‬
‫‪b1= 1.48‬‬
‫)‪ŷ = 0.549 + 1.48 (0.50‬‬
‫‪ŷ = 1.3‬‬
‫‪24‬‬
‫دانشگاه صنعت آب و برق‬
‫خاصیت باقیماندهها و حداقل مربعات‬
‫‪ ‬باقیمانده‬
‫• برای زوج )‪ (x,y‬اختالف ‪ y-ŷ‬را گویند‪ ،‬که ‪ y‬مقدار مشاهده‬
‫شده و ‪ ŷ‬مقدار برآورد شده میباشند‪.‬‬
‫‪ ‬حداقل مربعات‬
‫• خط راست رگرسیون بر اساس حداقل مربع باقیماندهها ترسیم‬
‫میشود‪.‬‬
‫‪25‬‬
‫دانشگاه صنعت آب و برق‬
‫تعاریف‬
‫‪ ‬انحراف کل‬
‫• فاصله عمودی ‪ y-y‬یعنی فاصله بین نقطه )‪ (x,y‬و خط افقی‬
‫که از میانگین نمونه میگذرد‪.‬‬
‫‪ ‬انحراف تبیین شده‬
‫• فاصله عمودی ‪ ŷ-y‬یعنی فاصله بین ‪ ŷ‬و خطی که از میانگین‬
‫نمونه ‪ y‬میگذرد‪.‬‬
‫‪ ‬انحراف تبیین نشده‬
‫• فاصله عمودی ‪ y-ŷ‬یعنی فاصله بین نقطه )‪ (x,y‬و خط‬
‫رگرسیون‬
‫‪26‬‬
‫دانشگاه صنعت آب و برق‬
‫شکل مربوط به تعاریف‬
y
20
19
18
17
16
15
14
13
12
11
(5, 19)
Unexplained
deviation
(5, 13)
Total
deviation
(y - ŷ )
(y - y)
10
9
8
7
6
5
4
3
2
1
Explained
deviation
y=9
(5, 9)
(ŷ - y )
ŷ= 3 + 2x
0
0
x
1
2
3
4
5
6
7
8
‫دانشگاه صنعت آب و برق‬
9
27
‫روابط بین ‪ ،y‬میانگین ‪ y‬و ‪ŷ‬‬
‫انحراف تبیین‬
‫نشده‬
‫انحراف تبیین‬
‫شده‬
‫انحراف کل‬
‫) ˆ‪( y - y ) = ( yˆ - y ) + ( y - y‬‬
‫تغییرات تبیین نشده‬
‫تغییرات تبیین شده‬
‫‪n‬‬
‫‪n‬‬
‫‪2‬‬
‫ˆ‬
‫) ‪(y - y‬‬
‫‪å‬‬
‫‪i= 1‬‬
‫‪S S res‬‬
‫‪28‬‬
‫‪å‬‬
‫‪2‬‬
‫ˆ‬
‫‪(y - y ) +‬‬
‫تغییرات کل‬
‫‪n‬‬
‫‪2‬‬
‫= ) ‪(y - y‬‬
‫‪i= 1‬‬
‫‪S S reg‬‬
‫دانشگاه صنعت آب و برق‬
‫‪å‬‬
‫‪i= 1‬‬
‫‪SSt‬‬
‫تعریف ضریب تعیین‬
n
r
2
=
e x p lain e d v ariat ion
å
=
t ot al v ariat ion
( yˆ - y )
2
(y - y )
2
i= 1
n
å
i= 1
r
2
=
S S reg
S S reg + S S res
r
2
=
13.83661
=
13.83661 + 5.663385
= 0.70957
‫دانشگاه صنعت آب و برق‬
13.83661
19.5
29
‫دو آزمون معنیدار بودن‬
‫‪ ‬مقدار ‪ r=0.8423‬محاسبه شده است‪ .‬مقدار ‪ r‬با سطح‬
‫معنیدار بودن ‪ 5%‬با استفاده از جدول مربوطه برابر با‬
‫‪ 0.707‬میباشد‪ ،‬که ‪ 0.8423>0.707‬است‪ .‬بنابراین‬
‫همبستگی معنیدار می باشد‪.‬‬
‫‪ ‬اگر ‪ n‬تعداد نمونهها و ‪ k‬تعداد متغیرهای مستقل باشد‪،‬‬
‫نوشت‪.‬‬
‫زیر‬
‫صورت‬
‫به‬
‫را‬
‫‪F‬‬
‫آزمون‬
‫توان‬
‫می‬
‫‪SS‬‬
‫‪R‬‬
‫‪2‬‬
‫‪d f1‬‬
‫‪2‬‬
‫‪ ‬که در آن ‪ df1=k‬و ‪ df2=n-k-1‬است‪.‬‬
‫‪30‬‬
‫دانشگاه صنعت آب و برق‬
‫‪1- R‬‬
‫‪d f2‬‬
‫‪reg‬‬
‫=‬
‫‪d f1‬‬
‫‪S S res‬‬
‫‪d f2‬‬
‫= ‪F‬‬
‫دنباله دو آزمون معنیدار بودن‬
‫‪ ‬اکنون اگر مقدار ‪ F‬را محاسبه کنید‪ ،‬نتیجه میشود که‪:‬‬
‫‪13.83661‬‬
‫‪1‬‬
‫‪5.663385‬‬
‫‪6‬‬
‫= ‪F‬‬
‫‪= 14.659‬‬
‫‪ ‬اکنون ‪ F(0.95,1,6)=5.987‬با استفاده از جدول در‬
‫سطح معنیدار ‪ 5%‬است‪ .‬مالحظه میشود که‬
‫‪ 14.659>5.987‬است و مدل مذکور رد نمیشود‪.‬‬
‫‪31‬‬
‫دانشگاه صنعت آب و برق‬
‫خطای استاندارد برآورد‬
‫‪ ‬خطای استاندارد برآورد به صورت ریاضی برابر است‪:‬‬
‫‪2‬‬
‫) ‪(Yˆ i - Y i‬‬
‫‪n‬‬
‫‪å‬‬
‫‪i= 1‬‬
‫= ‪Se‬‬
‫‪n‬‬
‫‪ ‬که ‪ ‬درجه آزادی است و برابر با تعداد نمونهها منهای‬
‫تعداد پارامترهای برآورد شده است‪ .‬اگر معادله خط را‬
‫در نظر بگیرید ‪ =n-2‬است‪.‬‬
‫‪ ‬اگر ‪ Se‬نزدیک ‪ Sy‬باشد‪ ،‬رگرسیون موفق نیست‪ .‬اگر ‪Se‬‬
‫به اندازه کافی از ‪ Sy‬کوچکتر باشد و نزدیک به صفر‬
‫می‪1‬رسد‪S = .S‬‬
‫باشد‪ ،‬آنگاه رگرسیون مناسب بهنظر‪- R‬‬
‫‪2‬‬
‫‪y‬‬
‫‪32‬‬
‫دانشگاه صنعت آب و برق‬
‫‪e‬‬
‫فاصله اطمینان برآورد در مورد خط‬
‫‪ ‬خطای استاندارد برآورد‬
‫• اختالفات بین مقدار ‪ y‬مشاهده شده و ‪ ŷ‬برآورد شده‪ ،‬یک‬
‫خطای استاندارد را موجب میشود‪.‬‬
‫‪n‬‬
‫‪2‬‬
‫) ‪( y i - yˆ i‬‬
‫‪å‬‬
‫‪i= 1‬‬
‫‪n - 2‬‬
‫= ‪Se‬‬
‫‪ ‬فاصلهای که میتوان برای ‪ y‬در نظر گرفت به صورت‬
‫زیر است‪:‬‬
‫‪yˆ - E < y < yˆ + E‬‬
‫‪33‬‬
‫دانشگاه صنعت آب و برق‬
‫میزان ‪E‬‬
‫‪ ‬مقدار ‪ E‬به صورت زیر است‪:‬‬
‫‪2‬‬
‫) ‪(x 0 - x‬‬
‫‪SSx‬‬
‫‪+‬‬
‫‪1‬‬
‫‪1+‬‬
‫‪n‬‬
‫‪E = t a / 2, n - 2S e‬‬
‫‪ ‬که در آن ‪ x0‬مقداری است که به جای ‪ x‬در معادله‬
‫رگرسیون قرار میدهیم تا ‪ ŷ‬حاصل گردد‪.‬‬
‫‪34‬‬
‫دانشگاه صنعت آب و برق‬
‫میانگین به عنوان داده‬
‫‪2‬‬
‫) ‪(x g - x‬‬
‫‪SSx‬‬
‫‪+‬‬
‫‪1‬‬
‫‪n‬‬
‫‪yˆ ± t a 2s e 1 +‬‬
‫‪yˆ  b 0  b 1x g‬‬
‫‪x‬‬
‫‪35‬‬
‫دانشگاه صنعت آب و برق‬
‫دادههای نزدیک به میانگین‬
yˆ  b 0  b 1x g
yˆ ± t a 2s e 1 +
yˆ ( x g  x  1)
yˆ ( x g  x  1)
1
+
(x g - x )
n
yˆ ± t a 2s e 1 +
SSx
1
+
n
1
SSx
x 1 x 1
x
( x  1)  x   1 ( x  1)  x  1
‫دانشگاه صنعت آب و برق‬
2
36
36
2
‫دادههای دورترنسبت به میانگین‬
yˆ  b 0  b 1x g
yˆ ± t a 2s e 1 +
1
+
n
SSx
1
yˆ ± t a 2s e 1 +
x2
x
x2
yˆ ± t a 2s e 1 +
( x  2)  x  2 ( x  2)  x  2
(x g - x )
n
1
+
n
2
+
2
SSx
2
2
SSx
37
‫دانشگاه صنعت آب و برق‬
37
2
‫فاصله اطمینان با استفاده از ‪E‬‬
‫‪ ‬با استفاده از مقدار ‪ E‬میتوان یک فاصله اطمینان برای‬
‫خط رگرسیون ترسیم نمود‪.‬‬
‫‪10‬‬
‫‪data observed‬‬
‫‪9‬‬
‫‪‬‬
‫‪regression‬‬
‫‪line‬‬
‫‪8‬‬
‫‪confidence intervals %95‬‬
‫‪38‬‬
‫دانشگاه صنعت آب و برق‬
‫‪Household‬‬
‫‪3.5‬‬
‫‪3‬‬
‫‪2.5‬‬
‫‪1.5‬‬
‫‪2‬‬
‫)‪plastic (lb‬‬
‫‪1‬‬
‫‪0.5‬‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪-1‬‬
‫‪-2‬‬
‫‪0‬‬
‫فاصله اطمینان برای شیب خط‬
‫‪ ‬فاصلهای که میتوان برای ‪ 1‬در نظر گرفت به صورت‬
‫زیر است‪:‬‬
‫‪b1 - E < b 1 < b1 + E‬‬
‫‪ ‬که مقدار ‪ E‬در آن عبارتست از‪:‬‬
‫‪t a / 2, n - 2S e‬‬
‫= ‪E‬‬
‫‪SSx‬‬
‫‪39‬‬
‫دانشگاه صنعت آب و برق‬
‫فاصله اطمینان برای عرض از مبدا خط‬
‫‪ ‬فاصلهای که میتوان برای ‪ 0‬در نظر گرفت به صورت‬
‫زیر است‪:‬‬
‫‪b0 - E < b 0 < b0 + E‬‬
‫‪ ‬که مقدار ‪ E‬در آن عبارتست از‪:‬‬
‫‪2‬‬
‫‪x‬‬
‫‪SSx‬‬
‫‪40‬‬
‫‪+‬‬
‫‪1‬‬
‫‪n‬‬
‫‪E = t a / 2, n - 2S e‬‬
‫دانشگاه صنعت آب و برق‬
‫شرایط صحت رگرسیون‬
‫‪ ‬فرضیاتی که تحت آن مدل رگرسیون صحت دارد‪.‬‬
‫• باقیماندهها از یکدیگر مستقل باشند‪.‬‬
‫• میانگین آنها صفر باشد‪.‬‬
‫• واریانس آنها مقداری ثابت است‪.‬‬
‫• باقیماندهها بهطور نرمال توزیع شدهاند‪.‬‬
‫‪ ‬اگر یکی از مفروضات فوق برقرار نباشد‪ ،‬میتوان‬
‫مدعی شد که ساختار مدل مناسب نیست‪.‬‬
‫‪ ‬اگر مدل را به صورت زیر در نظر گیرید‪ .‬نتیجه‬
‫میشود‪.‬‬
‫‪Y = b + b X + e‬‬
‫) ‪e : N ( 0, s = ct e‬‬
‫‪2‬‬
‫‪e‬‬
‫‪41‬‬
‫‪1‬‬
‫دانشگاه صنعت آب و برق‬
‫‪0‬‬