Transcript y - y
همبستگی و رگرسیون
Correlation and Regression
موسوی ندوشنی
پاییز 1386
1
دانشگاه صنعت آب و برق
مقدمه (زوج دادهها)
آیا این زوجها ارتباطی با هم دارند؟
اگر پاسخ مثبت است ،آیا میتوان معادلهای برای آنها
منظور نمود؟
آیا با استفاده از این معادله میتوان درونیابی و یا
برونیابی نمود؟
2
دانشگاه صنعت آب و برق
نمودار پراکنش
در این نمودار زوجهای ) (x,yبه صورت نقاط مجزا از
هم در صفحه مختصات ظاهر میشوند.
3
دانشگاه صنعت آب و برق
همبستگی خطی مثبت
y
y
y
x
(a) Positive
x
x
(b) Strong
positive
دانشگاه صنعت آب و برق
(c) Perfect
positive
4
همبستگی خطی منفی
y
y
y
(d) Negative
x
x
x
(e) Strong
negative
دانشگاه صنعت آب و برق
(f) Perfect
negative
5
همبستگی غیر خطی
y
y
x
(g) No Correlation
x
(h) Nonlinear Correlation
دانشگاه صنعت آب و برق
6
ضریب همبستگی خطی
این ضریب میزان همبستگی خطی بین زوجهای x, yرا
n
در نمونه ،اندازه میگیرد.
å
) (x i - x ) (y i - y
i=1
n
2
n
å
) (y i - y
= r
2
) (x i - x
i=1
å
i=1
ضریب همبستگی خطی جامعه را با عالمت نشان
میدهند.
) C ov ( X , Y
= r
Y
7
دانشگاه صنعت آب و برق
s
X
s
تفسیر ضریب همبستگی
n
اگر قدر مطلق rبزرگتر از
مقادیر جدول مربوط به این
ضریب باشد .نتیجه میگیریم
که همبستگی خطی معنیدار
است.
در غیر اینصورت به اندازه
کافی معنیدار نیست.
8
دانشگاه صنعت آب و برق
r آزمون فرض راجع به
. آیا همبستگی خطی معنیداری بین دو متغیر وجود دارد
H0: =
(no significant linear correlation)
H1:
(significant linear correlation)
Test statistic:
r
t =
1- r
2
n - 2
دانشگاه صنعت آب و برق
9
آماره آزمون ( tروش اول)
10
دانشگاه صنعت آب و برق
آماره آزمون ( rروش دوم)
آماره آزمون r
استفاده از جدول معنیدار بودن r
Reject
=0
1
Fail to reject
=0
r = 0.811
0
Sample data:
r = 0.828
11
دانشگاه صنعت آب و برق
Reject
=0
r = - 0.811
-1
Is there a significant linear correlation?
x Plastic (lb)
0.27
1.41
2.19
2.83
2.19
1.81
0.85
3.05
y Household
2
3
3
6
4
2
1
5
n=8
= 0.05
H0: = 0
H1 : 0
Test statistic is r = 0.842
دانشگاه صنعت آب و برق
12
n=8
= 0.05
=0
: 0
H0:
H1
Test statistic is r = 0.842
Reject
=0
-1
r = - 0.707
Fail to reject
=0
0
Reject
=0
r = 0.707
Sample data:
r = 0.842
1
رگرسیون
معادله رگرسیون
• در حالت کلی (جامعه) معادله خط به صورت زیر است:
Y = b 0 + b 1X + e
•
•
با توجه به زوج دادههای اندازهگیری شده معادله رگرسیون
عبارتست از:
yˆ = b 0 + b 1 x
خط رگرسیون
14
بهترین خط برازش یافته
خط حاصل از روش حداقل مربعات )(least squares
دانشگاه صنعت آب و برق
15
دانشگاه صنعت آب و برق
روش حداقل مربعات
برای بیان روش حداقل مربعات ،باقیمانده را در نظر
استe i = Yˆ i -:
بگیرید که به صورت زیر Y i
واضح است که باید مجموع مربع خطا حداقل شود .یعنی
n
2
) (Yˆ i - Y i
å
F = m in
i= 1
اگر معادله خط را در رابطه باال جایگذاری کنید ،نتیجه
میشود که:
) F = å (b + b X - Y
n
2
i
i
1
0
i= 1
16
دانشگاه صنعت آب و برق
دنباله روش حداقل مربعات
برای حداقل نمودن عبارت Fباید از آن مشتق گرفت و
مساوی صفر قرار داد.
¶F
n
- Y i) = 0
i
- Y i )X
i
= 2 å (b 0 + b 1X
i= 1
n
= 0
i
= 2 å (b 0 + b 1X
i= 1
¶ b0
¶F
¶ b1
اگر طرفین معادالت را بر 2تقسیم کنید و جابجاییهای
الزم صورت گیرد ،آنگاه به معادالت زیر میرسید که به
معادالت نرمال شهرت دارند.
nb + b å X = å Y
b å X + b å X = å XY
1
0
2
1
17
دانشگاه صنعت آب و برق
0
روابط برای محاسبه ضرایب معادله
: محاسبه شیب خط
b1 =
æn
ö
ç
n çå x i y i ÷
÷
çç
÷
÷
è i= 1
ø
æn
öæ n
ö
çç
֍
÷
x
y
֍
÷
i ÷ç å
i ÷
çç å
֍
÷
è i= 1
øè i = 1 ø
æ
ö
2÷
ç
n çå x i ÷ çç
÷
÷
è i= 1
ø
n
2
æ
ö
çç
÷
x
÷
i ÷
çç å
÷
è i= 1
ø
n
: محاسبه عرض از مبداء
b 0 = y - b 1x
دانشگاه صنعت آب و برق
18
نشانگذاریهای مهم در رگرسیون
n
xi
å
x =
n
i= 1
n
y =
yi
å
m e an x
m e an y
n
i=1
n
SSy =
å
(y i - y )
2
su m of squ are s y
(x i - x )
2
su m of squ are s x
i= 1
n
SSx =
å
i= 1
n
S xy =
å
(x i - x ) (y i - y )
su m of x ,y cross p rod u ct s
i= 1
دانشگاه صنعت آب و برق
19
دنباله نشانگذاریهای مهم در رگرسیون
b1 =
S xy
T he est im at e of b 1 ( slope)
SSx
b 0 = y - b 1x
T h e e st im at e of b 0 ( in t e rce p t )
e i = y i - yˆ i
T h e e st im at e d re sid u al ob s. i
n
å
SSe =
2
ei
su m of squ are s e rror
i= 1
n
2
Se =
å
i= 1
2
ei
T h e e st im at e of s
n - 2
دانشگاه صنعت آب و برق
2
e
20
دنباله نشانگذاریهای مهم در رگرسیون
S e (b 1) =
S e (b 0) =
Se
st andard e rror of b 1
SSx
1
n
+
x
2
SSx
st an d ard e rror of b 0
دانشگاه صنعت آب و برق
21
نمودار معادله رگرسیون
22
دانشگاه صنعت آب و برق
برآوردها
در برآورد مقدار yبر اساس xداده شده ،به موارد زیر
توجه کنید.
• همبستگی خطی معنیداری وجود ندارد .بنابراین بهترین
•
23
برآورد yبرابر با میانگین yاست.
اگر همبستگی خطی معنیداری وجود داشت ،آنگاه بهترین
برآورد مقدار yبا جایگزین نمودن مقدار xدر داخل معادله
رگرسیون بدست میآید.
دانشگاه صنعت آب و برق
مثال
مقدار yبه ازای x=0.5را در مثال زیر بدست آورید.
3.05
0.85
1.81
2.19
2.83
2.19
1.41
0.27
)x Plastic (lb
5
1
2
4
6
3
3
2
y Household
b0 = 0.549
b1= 1.48
)ŷ = 0.549 + 1.48 (0.50
ŷ = 1.3
24
دانشگاه صنعت آب و برق
خاصیت باقیماندهها و حداقل مربعات
باقیمانده
• برای زوج ) (x,yاختالف y-ŷرا گویند ،که yمقدار مشاهده
شده و ŷمقدار برآورد شده میباشند.
حداقل مربعات
• خط راست رگرسیون بر اساس حداقل مربع باقیماندهها ترسیم
میشود.
25
دانشگاه صنعت آب و برق
تعاریف
انحراف کل
• فاصله عمودی y-yیعنی فاصله بین نقطه ) (x,yو خط افقی
که از میانگین نمونه میگذرد.
انحراف تبیین شده
• فاصله عمودی ŷ-yیعنی فاصله بین ŷو خطی که از میانگین
نمونه yمیگذرد.
انحراف تبیین نشده
• فاصله عمودی y-ŷیعنی فاصله بین نقطه ) (x,yو خط
رگرسیون
26
دانشگاه صنعت آب و برق
شکل مربوط به تعاریف
y
20
19
18
17
16
15
14
13
12
11
(5, 19)
Unexplained
deviation
(5, 13)
Total
deviation
(y - ŷ )
(y - y)
10
9
8
7
6
5
4
3
2
1
Explained
deviation
y=9
(5, 9)
(ŷ - y )
ŷ= 3 + 2x
0
0
x
1
2
3
4
5
6
7
8
دانشگاه صنعت آب و برق
9
27
روابط بین ،yمیانگین yو ŷ
انحراف تبیین
نشده
انحراف تبیین
شده
انحراف کل
) ˆ( y - y ) = ( yˆ - y ) + ( y - y
تغییرات تبیین نشده
تغییرات تبیین شده
n
n
2
ˆ
) (y - y
å
i= 1
S S res
28
å
2
ˆ
(y - y ) +
تغییرات کل
n
2
= ) (y - y
i= 1
S S reg
دانشگاه صنعت آب و برق
å
i= 1
SSt
تعریف ضریب تعیین
n
r
2
=
e x p lain e d v ariat ion
å
=
t ot al v ariat ion
( yˆ - y )
2
(y - y )
2
i= 1
n
å
i= 1
r
2
=
S S reg
S S reg + S S res
r
2
=
13.83661
=
13.83661 + 5.663385
= 0.70957
دانشگاه صنعت آب و برق
13.83661
19.5
29
دو آزمون معنیدار بودن
مقدار r=0.8423محاسبه شده است .مقدار rبا سطح
معنیدار بودن 5%با استفاده از جدول مربوطه برابر با
0.707میباشد ،که 0.8423>0.707است .بنابراین
همبستگی معنیدار می باشد.
اگر nتعداد نمونهها و kتعداد متغیرهای مستقل باشد،
نوشت.
زیر
صورت
به
را
F
آزمون
توان
می
SS
R
2
d f1
2
که در آن df1=kو df2=n-k-1است.
30
دانشگاه صنعت آب و برق
1- R
d f2
reg
=
d f1
S S res
d f2
= F
دنباله دو آزمون معنیدار بودن
اکنون اگر مقدار Fرا محاسبه کنید ،نتیجه میشود که:
13.83661
1
5.663385
6
= F
= 14.659
اکنون F(0.95,1,6)=5.987با استفاده از جدول در
سطح معنیدار 5%است .مالحظه میشود که
14.659>5.987است و مدل مذکور رد نمیشود.
31
دانشگاه صنعت آب و برق
خطای استاندارد برآورد
خطای استاندارد برآورد به صورت ریاضی برابر است:
2
) (Yˆ i - Y i
n
å
i= 1
= Se
n
که درجه آزادی است و برابر با تعداد نمونهها منهای
تعداد پارامترهای برآورد شده است .اگر معادله خط را
در نظر بگیرید =n-2است.
اگر Seنزدیک Syباشد ،رگرسیون موفق نیست .اگر Se
به اندازه کافی از Syکوچکتر باشد و نزدیک به صفر
می1رسدS = .S
باشد ،آنگاه رگرسیون مناسب بهنظر- R
2
y
32
دانشگاه صنعت آب و برق
e
فاصله اطمینان برآورد در مورد خط
خطای استاندارد برآورد
• اختالفات بین مقدار yمشاهده شده و ŷبرآورد شده ،یک
خطای استاندارد را موجب میشود.
n
2
) ( y i - yˆ i
å
i= 1
n - 2
= Se
فاصلهای که میتوان برای yدر نظر گرفت به صورت
زیر است:
yˆ - E < y < yˆ + E
33
دانشگاه صنعت آب و برق
میزان E
مقدار Eبه صورت زیر است:
2
) (x 0 - x
SSx
+
1
1+
n
E = t a / 2, n - 2S e
که در آن x0مقداری است که به جای xدر معادله
رگرسیون قرار میدهیم تا ŷحاصل گردد.
34
دانشگاه صنعت آب و برق
میانگین به عنوان داده
2
) (x g - x
SSx
+
1
n
yˆ ± t a 2s e 1 +
yˆ b 0 b 1x g
x
35
دانشگاه صنعت آب و برق
دادههای نزدیک به میانگین
yˆ b 0 b 1x g
yˆ ± t a 2s e 1 +
yˆ ( x g x 1)
yˆ ( x g x 1)
1
+
(x g - x )
n
yˆ ± t a 2s e 1 +
SSx
1
+
n
1
SSx
x 1 x 1
x
( x 1) x 1 ( x 1) x 1
دانشگاه صنعت آب و برق
2
36
36
2
دادههای دورترنسبت به میانگین
yˆ b 0 b 1x g
yˆ ± t a 2s e 1 +
1
+
n
SSx
1
yˆ ± t a 2s e 1 +
x2
x
x2
yˆ ± t a 2s e 1 +
( x 2) x 2 ( x 2) x 2
(x g - x )
n
1
+
n
2
+
2
SSx
2
2
SSx
37
دانشگاه صنعت آب و برق
37
2
فاصله اطمینان با استفاده از E
با استفاده از مقدار Eمیتوان یک فاصله اطمینان برای
خط رگرسیون ترسیم نمود.
10
data observed
9
regression
line
8
confidence intervals %95
38
دانشگاه صنعت آب و برق
Household
3.5
3
2.5
1.5
2
)plastic (lb
1
0.5
7
6
5
4
3
2
1
0
-1
-2
0
فاصله اطمینان برای شیب خط
فاصلهای که میتوان برای 1در نظر گرفت به صورت
زیر است:
b1 - E < b 1 < b1 + E
که مقدار Eدر آن عبارتست از:
t a / 2, n - 2S e
= E
SSx
39
دانشگاه صنعت آب و برق
فاصله اطمینان برای عرض از مبدا خط
فاصلهای که میتوان برای 0در نظر گرفت به صورت
زیر است:
b0 - E < b 0 < b0 + E
که مقدار Eدر آن عبارتست از:
2
x
SSx
40
+
1
n
E = t a / 2, n - 2S e
دانشگاه صنعت آب و برق
شرایط صحت رگرسیون
فرضیاتی که تحت آن مدل رگرسیون صحت دارد.
• باقیماندهها از یکدیگر مستقل باشند.
• میانگین آنها صفر باشد.
• واریانس آنها مقداری ثابت است.
• باقیماندهها بهطور نرمال توزیع شدهاند.
اگر یکی از مفروضات فوق برقرار نباشد ،میتوان
مدعی شد که ساختار مدل مناسب نیست.
اگر مدل را به صورت زیر در نظر گیرید .نتیجه
میشود.
Y = b + b X + e
) e : N ( 0, s = ct e
2
e
41
1
دانشگاه صنعت آب و برق
0