19 ******* **** ** * *** دنباله تحلیل رگرسیون در مثال 2
Download
Report
Transcript 19 ******* **** ** * *** دنباله تحلیل رگرسیون در مثال 2
رگرسیون چندگانه
Multiple Regression
موسوی ندوشنی
بهار 1387
1
دانشگاه صنعت آب و برق
مدل چند متغیره
در رگرسیون چند متغیره رابطه به شرح زیر است:
y = b 0 + b 1x 1 + b 2 x 2 + L + b m x m + e
که میتوان آن را مانند یک متغیره برای حالت چند
متغیره نوشت:
m
+ L + bm ´ X
2
+ b2 ´ X
1
Yˆ = b 0 ´ 1 + b 1 ´ X
که در ŷبرآورد مقدار yاست .اگر مشاهده اول برابر
واحد فرض شود ،مقدار b0همان مقدار ثابت (در حالت
خطی برابر عرض از مبداء) است.
2
دانشگاه صنعت آب و برق
عملیات رگرسیون با نشانگذاری ماتریسی
معادله رگرسیون را میتوان بهصورت زیر نوشت:
1
´b m
n´ m
= X
n´ 1
Y
که نمایش ماتریسی آن بهصورت زیر است:
ù
ú
ú
ú
ú
ú
ú
ú
ú
ú
û
3
1m
2m
3m
nm
X
L
X
L
X
L
M
O
X
L
13
23
33
X
X
X
12
22
32
M
n3
X
X
X
X
11
21
31
M
n2
X
دانشگاه صنعت آب و برق
X
X
X
M
n1
X
é1
ê
ê1
ê
ê
X = ê1
ê
êM
ê
ê1
ë
ماتریس واریانس-کوواریانس
در این ماتریس متقارن ،عناصر قطری واریانس و بقیه
عناصر کوواریانس هستند.
ù
1m ú
C 2m ú
ú
C 3m ú
ú
ú
Mú
ú
Vm ú
û
C
4
L
L
L
O
L
C
13
C
23
3
V
M
m 3
C
12
2
V
32
C
M
C
m 2
دانشگاه صنعت آب و برق
C
éV
ê 1
êC
ê 21
ê
T
X X = êC 31
ê
ê M
ê
êC m 1
ë
دنباله عملیات رگرسیون با نشانگذاری ماتریسی
فرم ماتریسی CiYیعنی کوواریانس بین Xiو Y
بهصورت زیر است.
ù
ú
ú
ú
ú
ú
ú
ú
ú
ú
û
éC
ê 1Y
êC
ê 2Y
ê
T
X Y = êC 3Y
ê
ê M
ê
êC m Y
ë
بنابراین برآورد مقادیر بهصورت زیر است.
)
5
Y
T
- 1
) (X
دانشگاه صنعت آب و برق
X
T
(X
= ˆb = b
عملیات رگرسیون با نشانگذاری ماتریسی روش دوم
اگر معادله رگرسیون به صورت زیر باشد.
k
+ L + bk X
2
+ b 2X
1
Yˆ = b 0 + b 1X
اگر ماتریس دادههای خام به صورت زیر باشد.
ù
1k ú
X 2k ú
ú
Mú
ú
ú
X nk ú
û
X
L
L
O
L
13
23
X
X
M
n3
12
22
X
X
M
X
n2
X
éX
ê 11
êX
ê 21
ê M
ê
ê
êX n 1
ë
معادله فوق را میتوان با استفاده از ضرایب همبستگی
حل نمود.
6
دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم
دستگاه معادالت زیر را میتوان به صورت زیر داشت.
= ry 1
k
+ L + r 1k a
3
+ r 13 a
2
= ry 2
k
+ L + r 2k a
3
+ r 23 a
2
= ryk
k
+ r 12 a
+ a
1
1
a
r 21 a
M
+ L + a
3
+ rk 3a
2
+ r k 2a
1
r k 1a
که در آن αiضرایب rij ،همبستگیهای میان متغیرهای
مستقل و ryjهمبستگیهای بین متغیرهای مستقل و متغیر
وابسته یعنی Yاست.
7
دانشگاه صنعت آب و برق
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم
اگر دستگاه معادالت را به فرم ماتریسی بنویسید نتیجه
میشود R α =Ryj .و
öæ ö æ ö ij j
- 1
= R ij R y j
j
÷ ççr y 1
÷ ççr
÷
÷ çç y 2
÷
Þ a
÷çç M
÷
÷ çç
÷
÷ ççr
÷
÷
è yk ø
÷ r 1 k ÷ç a 1
֍
÷
֍
÷ r 2 k ÷ç a 2
÷
֍
÷
=
֍
÷
֍
÷
÷L ÷ç M
֍
÷
֍
÷
÷
r k k ֍
a
֍
÷
øè k ø
L
r 13
r 12
L
r 23
r 22
O
L
L
L
rk 3
rk 2
برای محاسبه bjاز فرمول زیر استفاده میشود.
bjضرایب رگرسیون
syانحراف معیار متغیر وابسته
sy
aj
sjانحراف معیار متغیرهای مستقل
sj
ضمنا رابطه 2
r
و
R
ها a 1r y 1 + a 2 r y 2 + L + a k r
y k yk
8
دانشگاه صنعت آب و برق
ær
çç 11
ççr
çç 21
çç L
çç
ççr
è k1
= bj
2
= R y .123 L k
دنباله عملیات رگرسیون با نشانگذاری ماتریسی روش دوم
و سرانجام مقدار ثابت معادله به صورت زیر است.
k
- L - bk X
2
- b 2X
1
b 0 = Y - b 1X
همانطور که قبال نیز مشاهده شد ،ضریب تعیین به شرح
زیر است.
s s reg
sst
9
=
s s reg
s s reg + s s res
دانشگاه صنعت آب و برق
=
2
R
دنباله عملیات رگرسیون با نشانگذاری ماتریسی
باقیمانده به صورت e=y- ŷاست.
متوسط خطاها یعنی E(e)ē=0و واریانس خطا برابر با
Var(e)=eTeاست.
واریانس ضرایب ( )عبارتست از:
- 1
) X
T
T
V ar( bˆ ) = ( e e ) ( X
به ازاء یک Xخاص میتوان یک مقدار برای Y
پیشگویی نمود.
ˆ= X p b
10
دانشگاه صنعت آب و برق
p
Y
فاصله اطمینان برای ضرایب معادله
فاصله اطمینان 100(1-) برای ضرایب j
عبارتست از:
jj
Se C
) m
Î b j ± t ( a / 2, n -
j
b
که در آن Cjjعناصر قطری (XTX)-1است وS Sواریانس
= S
خطای برآورد برابر است باS S = å :e
n - m
n
2
e
e
i
i= 1
که mتعداد ضرایب برآورد شده است.
11
دانشگاه صنعت آب و برق
2
e
فاصله اطمینان برای مقادیر برآورد شده
فاصله اطمینان 100(1-)برای یک مقدار y0که
توسط یک نقطه x0در فضای چند بعدی تولید شده و
مقدار برآورد شده آن ŷ0است که عبارتست از:
x0
12
- 1
) X
T
T
1 + x 0 (X
S
m ) e
دانشگاه صنعت آب و برق
y 0 Î yˆ 0 ± t ( a / 2, n -
مثال 1
به دادههای زیر توجه کنید.
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4
X2: 4,4,4,3,6,6,3,4,3,3,5,5,9,8,6,7,5,5,7,7
Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10
معادله رگرسیون حاصل از دادهها به شرح زیر است:
2
+ 0.3934 X
1
Yˆ = 0.1027 + 0.6771X
ضریب تعیین برابر R2=0.5054است.
= 8.685
آزمون :F
13
دانشگاه صنعت آب و برق
2
2
R
k
1- R
n - k- 1
s s reg
=
d f1
s s res
d f2
= F
تحلیل رگرسیون در مثال 1
وقتی بیش از یک متغیر در معادله رگرسیون قرار دارد،
آنگاه تحلیل رگرسیون پیچیدهتر میشود.
اولین بررسی آنچه را که X1و ( X2با هم و جدا از هم)
به رگرسیون میافزایند به وضوح نشان میدهد.
آیا اضافه کردن X2به معادله رگرسیون پیشبینی Yرا
به طرز معنیداری باال میبرد؟
اکنون فقط متغیر X1در نظر گرفته میشود.
F = 1 4 .9 4 3
که معنی دار است.
14
2
R y .1 = 0 .4 5 4
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 1
اکنون فقط متغیر X2در نظر گرفته میشود.
F = 3.320
R y .2 = 0.156
در سطح مرسوم 0.05معنیدار نمیشود .اما در سطح حدود 0.08
معنیدار است .بنابراین میتوان موضوع را دنبال نمود.
با بررسی جداگانه X1و X2معلوم شد که X1بسیار بهتر از X2متغیر
وابسته یعنی Yرا پیشبینی میکند.
اما یک سوال را میتوان مطرح کرد و راجع به آن تامل نمود .سوال این
است :آیا اضافه کردن X2بر X1پیشبینی را باال میبرد .قبال مالحظه
شد که R2y.1=0.45و R2y.12=0.51است .بنابراین ،با اضافه کردن X2
بر R2 ،X1به مقدار 0.0518باال میرود .با این وجود این مشارکت
اضافی در رگرسیون به لحاظ آماری معنیدار نیست.
اما به تفاوت دقت کنید .در رگرسیون Yتنها بر R2 ،X2به مقدار 0.16
به دست میآید .در حالی که اضافه کردن X2بر R2ٔ ،X1را فقط 0.05
باال برد .این تفاوت یکی از خصوصیات مهم رگرسیون چندگانه را نشان
میدهد.
15
دانشگاه صنعت آب و برق
2
بیان بعضی از مالحظات درباره رگرسیون چندگانه
اگر همبستگی بین X1و X2معادل صفر باشد r2 ،بین
X1و Yرا میتوان بر r2بین X2و Yافزود و R2y.12
را بدست آورد.
R
= r + r
ولی ،این حالت کمتر رخ میدهد.که همبستگی بین دو
متغیر ،معادل صفر باشد.
16
2
2
y .2
y .1
دانشگاه صنعت آب و برق
2
y .12
تجزیه و تحلیل مدل رگرسیون stepwise
همانطور که قبال نیز اشاره شد در رگرسیون از مدل زیر
استفاده میشود.
m
+ L + bm ´ X
2
+ b2 ´ X
1
Yˆ = b 0 ´ 1 + b 1 ´ X
اما این که کدامیک از Xiها مهمتر هستند معلوم نیست .البته
در یک سیستم علت و معلولی کامال معین ،این سوال مطرح
نیست .ولی در هیدرولوژی قضیه همیشه روش نیست.
جریان ماهانه در یک ایستگاه را در نظر بگیرید ،این جریان
میتواند متاثر از بارندگی این ماه باشد اما با توجه به سیستم
تاخیر بارندگی-رواناب ،بارندگی ماه قبل نیز میتواند در
ایجاد رواناب موثر واقع شود.
هدف از رگرسیون stepwiseاین است که معادله پیشگویی
را بر اساس متغیرهای موثرتر بسط دهیم.
17
دانشگاه صنعت آب و برق
مثال 2
به دادههای زیر توجه کنید.
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4
X2: 5,4,5,3,6,4,6,4,3,3,3,6,9,8,9,6,4,5,8,9
X3: 1,2,4,4,5,6,3,3,7,7,8,9,5,4,5,5,7,8,8,7
Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10
معادله رگرسیون حاصل از دادهها به شرح زیر است:
3
+ 0.1873 X
2
+ 0.6240 X
1
Yˆ = - 2.0045 + 0.6184 X
ضریب تعیین برابر R2=0.6637است.
با آزمون F=10.526<3.239رگرسیون معنیدار است.
18
دانشگاه صنعت آب و برق
تحلیل رگرسیون در مثال 2
در آزمون آماری معنیدار بودن دو شیوه ذکر میشود.
• اولین روش از نسبتهای ( tیا نسبتهای )Fاستفاده میکند.
• دومین روش از R2ها و نسبتهای Fسود میجوید.
در باره کاربرد نسبت tبرای آزمون معنیدار بودن
آماری وزنهای رگرسیون سوال مهمی پیش میآید :آیا
رگرسیون متغیر وابسته بر یک متغیر مستقل معین ،پس
از به حساب آوردن تاثیرات متغیرهای مستقل دیگر ،به
لحاظ آماری معنیدار است؟
19
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2
خطای استاندارد برآورد
= 1.823
55.4866
20 - 3 - 1
s s res
=
n - k - 1
= S E est
خطای استاندارد ضریبهای bرا میتوان به چند روش محاسبه
نمود که یکی از آنها به شرح زیر است.
2
S E est
2
) s s x j (1 - R
= S E bj
که SEbjخطای استاندارد jامین وزن bاست.
SE2estمجذور خطای استاندارد است.
ssxjمجموع مجذورات متغیر jاست.
R2مجذور همبستگی چند متغیری بین متغیر ( jمتغیر وابسته) و
بقیه متغیرهای مستقل است.
20
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2
در مورد ضریب اول میتوان نوشت:
2
S E est
2
) s s x 1 (1 - R 1.23
= S E b1
برای بدست آوردن ( R2jمجذور همبستگی چند متغیری
بین jامین متغیر مستقل و متغیرهای مستقل دیگر است).
1
R = 1میتوان نوشت.
r
rjj مقادیر واقع روی قطر وارون ماتریس همبستگی میان
متغیرهای مستقل است.
b
= t
نسبت tدارای n-k-1درجه آزادی
SE
2
j
jj
j
j
bj
21
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2
R2 های الزم به صورت زیر محاسبه میشوند.
= 0.1427
= 0.0218
= 0.1248
1
2
1.1665
1
2
1.0223
1
2
R 1 = R 1.23 = 1= 1= 1-
1.1426
2.13
2
3.12
= R
= R
2
2
2
3
R
R
اکنون SEbjبه صورت زیر محاسبه میشوند.
2
= 0.1732
1.8622
) 134.95(1 - 0.1427
22
دانشگاه صنعت آب و برق
= S E b1
دنباله تحلیل رگرسیون در مثال 2
اولین نسبت tعبارتست از:
= 3.5719
0.6184
=
0.1732
2
= 0.2042
دومین نسبت tعبارتست از:
S E b1
1.8622
)85(1 - 0.0218
= 3.0555
0.6240
=
0.2042
2
= 0.2066
1.8622
)92.8(1 - 0.1248
23
b1
دانشگاه صنعت آب و برق
= t1
= S E b2
b2
S E b2
= t2
= S E b3
دنباله تحلیل رگرسیون در مثال 2
سومین نسبت tعبارتست از:
= 0.907
0.1874
0.2066
=
b3
S E b3
= t3
ضریبهای b1و b2با درجه آزادی 16در سطح 0.05
معنیدار هستند ولی b3در این سطح معنیدار نیست.
معنیدار بودن آماری متغیرهای اضافه شده به معادله
رگرسیون
• فرض کنید که فقط X1و X2یعنی اولین و دومین متغیر مستقل و
متغیر وابسته Y ،مورد نظر قرار گیرد و یک تحلیل رگرسیون
برای دادهها انجام شود .در این صورت شاخصهای آماری
ضروری به شرح زیر است.
24
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2
معادله رگرسیون
مقدار Fو R2y.12عبارتست از:
2
+ 0.6183 X
1
Yˆ = - 1.2356 + 0.6737 X
F = 10.526
2
R y .1 2 = 0.6464
با توجه به Fبا درجه آزادیهای 2و 17در سطح 0.05
معنیدار است.
وقتی هر سه متغیر مستقل در معادله بودند R2و Fبه
R
= 0.6637
F = 10.526
قرار زیر بدست آمدند.
اکنون باید به این سوال پاسخ داد :آیا اضافه کردن X3
دقت پیشبینی را به طرز معنیداری باال میبرد؟ برای
پاسخ به این سوال باید یک نسبت Fدیگر محاسبه شود.
2
y .123
25
دانشگاه صنعت آب و برق
دنباله تحلیل رگرسیون در مثال 2
فرمول نسبت Fچنین است:
= 0.824
0.6637 - 0.6464
3- 2
1- 0.6637
20 - 3 - 1
2
2
R y .123 - R y .12
=
k1- k2
2
y .123
= F
1- R
n - k- 1
نسبت Fحاصله معنیدار نیست .بنابراین ،متغیر X3
پیشبینی Yرا به طرز معنیداری باال نمیبرد.
برای نشاندادن تعمیمپذیری آزمون مزبور ،که حایز
R
R
است .-
اهمیت است ،معادله دارای شکل زیر
2
y .1 2 L k 1
2
y .1 2 L k 2
k1- k2
2
.1 2 L k 1
1- R y
n - k1- 1
26
دانشگاه صنعت آب و برق
= F
دنباله تحلیل رگرسیون در مثال 2
اکنون اضافه شدن متغیر X2را بر X1آزموده میشود.
نسبت Fبه شرح زیر است:
2
= 9.269
0.6464 - 0.4536
2- 1
1- 0.6464
20 - 2 - 1
2
R y .12 - R y .1
=
k1- k2
2
= F
1- R y .12
n - k1- 1
نسبت Fحاصله ،با 1و 17درجه آزادی ،در سطح
0.05معنیدار است .بنابراین ،متغیر ،2رگرسیون را به
طرز معنیداری باال میبرد.
27
دانشگاه صنعت آب و برق