دنباله تجزیه و تحلیل مولفهها
Download
Report
Transcript دنباله تجزیه و تحلیل مولفهها
تحلیل مولفههای اصلی
Principal Components Analysis
)(PCA
موسوی ندوشنی
پاییز 1390
1
دانشگاه صنعت آب و برق
مقدمه
در رگرسیون چندگانه ،در پارهای از موارد مالحظه میشود
که بین متغیرهای مستقل که برای پیشگویی متغیر وابسته
بهکار میروند ،همبستگی معنیداری وجود دارد.
در مورد فوق دیگر نمیتوان از روش معمول (رگرسیون
چندگانه) استفاده نمود.
در اینجا الزم است که با تکنیکی متغیرهای وابسته را به
سیستم مستقلی تبدیل نمود.
اگر یک تعبیر هندسی را در نظر آورید .متغیرهای مشاهده
شده حول محورهایی قرار میگیرند که شرط استقالل را
برقرار میکنند .این محورها حاصل چرخش محورهای قبلی
است.
به این تکنیک اصطالحا تحلیل مولفههای اصلی گویند.
2
دانشگاه صنعت آب و برق
مقدار و بردار ویژه )(Eigenvalve & Eigenvector
یک ماتریس
قبل از شروع تحلیل الزم است که قدری با مقادیر و
بردارهای ویژه )(eigen vaues & eigen vectors
ماتریسها آشنا شد.
اگر رابطه زیر برای ماتریس Aبرقرار باشد ،آنگاه میتوان
مقادیر ( اسکالر) و بردار Xمشخص نمودAX=λX .
در این معادله باید λو Xرا محاسبه نمود .برای حل معادله
باال میتوان λXرا بهصورت λIXنوشت که Iماتریس
واحد است .بنابراین AX-λIX=0 → (A-λI)X=0است.
معادله اخیر وقتی برابر صفر است که یا X=0و یا A-
I=0باشد .اکنون اگر X=0باشد یک جواب کامال خاص
است ،بنابراین الزم است که A-I=0باشد.
3
دانشگاه صنعت آب و برق
دنباله مقدار و بردار ویژه
اگر معادله صفحه قبل برای مرتبه سه بنویسیم چنین
شد(A 11 - l )X 1 + A 12X 2 + A 13X 3 = .
خواهد 0
A 21X 1 + (A 22 - l )X 2 + A 23X 3 = 0
A 31X 1 + A 32X 2 + (A 33 - l )X 3 = 0
اگر معادله باال بدون Xiنوشته شود ،الزم است که
دترمینان ) (A-Iبرابر صفر گردد ،که معادله مشخصه
نام دارد.
A 13
A 23
= 0
A 33 - l
4
A 12
A 22 - l
A 32
A 11 - l
A - l I = A 21
A 31
دانشگاه صنعت آب و برق
دنباله مقدار و بردار ویژه
بسط معادله مشخصه یک معادله درجه سوم ایجاد میکند،
که ریشههای معادله باال مقادیر ویژه را بدست میدهد.
بنابراین تعداد ریشهها بستگی به مرتبه ماتریس دارد.
برای ماتریسهای متقارن ریشههای معادله حقیقی است.
با جایگزینی هر مقدار در دستگاه معادالت قبل میتوان
آن را حل نمود و برای X2 ،X1و X3جوابها را یافت.
هر دسته از متغیرهای مذکور بردارهای ویژه را معین
میکنند.
5
دانشگاه صنعت آب و برق
مثال
ماتریس 3×3زیر را در نظر بگیرید.
0.13 0.18
1
0.13
1
0.95
0.18 0.95
1
معادله بر حسب λزیر است.
1 0.13 0.18 1 0.13 0.18
0.13 1 0.95 0.13 1 0.95 0
0.18 0.95 1 0.18 0.95 1
با حل این دترمینان معادله زیر حاصل میگردد.
λ3-3λ2+2.0482λ-0.09266=0
با حل این معادله داریم.
λ1=1.9982, λ2=0.9532, λ3=0.0486
6
دانشگاه صنعت آب و برق
دنباله مثال
با جایگزینی مقدار λ1 = 1.9982داریم.
0.9982X 1 0.13X 2 0.18X 3 0
0.13X 1 0.9982X 2 0.95X 3 0
0.18X 1 0.95X 2 0.9982X 3 0
با حل معادالت فوق داریم:
X 1 0.21461
X
0.68786
2
X 0.69339
3
7
دانشگاه صنعت آب و برق
دنباله مثال
با جایگزینی مقدار λ2 = 0.9532داریم.
0.0468X 1 0.13X 2 0.18X 3 0
0.13X 1 0.0468X 2 0.95X 3 0
0.18X 1 0.95X 2 0.0468X 3 0
با حل معادالت فوق داریم:
X 1 0.97598
X
0.17862
2
X 0.12475
3
8
دانشگاه صنعت آب و برق
دنباله مثال
با جایگزینی مقدار λ3 = 0.0486داریم.
0.9514X 1 0.13X 2 0.18X 3 0
0.13X 1 0.9514X 2 0.95X 3 0
0.18X 1 0.95X 2 0.9514X 3 0
با حل معادالت فوق داریم:
9
X 1 0.03815
X
0.70348
2
X 0.70969
3
دانشگاه صنعت آب و برق
R محاسبه مقادیر و بردارهای ویژه در
> a=matrix(c(1,.13,.18,.13,1,.95,.18,.95,1),3,3, byrow=T)
>a
[,1] [,2] [,3]
[1,] 1.00 0.13 0.18
[2,] 0.13 1.00 0.95
[3,] 0.18 0.95 1.00
> eigen(a,symmetric = FALSE)
$values
[1] 1.99816910 0.95318068 0.04865022
$vectors
[,1]
[,2]
[,3]
[1,] 0.2146239 0.9759514 -0.03814932
[2,] 0.6878692 -0.1787694 -0.70347523
[3,] 0.6933776 -0.1247409 0.70969517
دانشگاه صنعت آب و برق
10
خاصیت نرمالیزه و تعامد بردارهای ویژه
اگر جمع مربع درایههای بردارهای ویژه را محاسبه کنیم
برابر واحد است .به عنوان مثال برای اولین مورد به صورت
زیر است:
0.214612+0.687862+0.693392=1
این مطلب نشان میدهد که بردارهای ویژه نرمالیزه شدهاند.
حاصلجمع ضرب هر یک از بردارهای ویژه برابر صفر
است .بهعنوان مثال
0.21461*0.97598-0.68786*0.178620.69339*0.12475=0
این مطلب نشان میدهد که بردارهای ویژه دوبدو متعامد
هستند.
دانشگاه صنعت آب و برق
11
دوران محورها
مقدار و بردار ویژه میتواند محورها را از یک سیستم
مختصات به سیستم مختصات بچرخاند .میتوان بردار را در
یک سیستم بر حسب سیستم مختصات دیگر و کسینوس بین
محورها محاسبه نمود .معادالت خرجش برای سیستم 3تایی
به صورت زیر است.
Y 1 = l 11X 1 + l 12X 2 + l 13X 3
Y 2 = l 21X 1 + l 22X 2 + l 23X 3
Y 3 = l 31X 1 + l 32X 2 + l 33X 3
در دستگاه باال ،Xiبردار در سیستم مختصات اصلی و ،Yi
بردار در سیستم دوران یافته میباشد .کسینوس جهت بین
محورهای اصلی و محورهای دوران یافته را با lijنشان
میدهند .اندیس iمربوط به سیستم جدید و اندیس jمربوط به
دانشگاه صنعت آب و برق
12
سیستم قدیم است.
دنباله چرخش محورها
در فرم ماتریسی داریم Y=RX
که در آن Rماتریس دوران میباشد ،که از عناصر lijتشکیل شده است R .را
ماتریس متعامد میگویند .زیرا محورها با هم زاویه 90درجه میسازند.
فرض کنید که رابطهی بین دو بردار درسیستم اولیه به صورت زیر است.
AX1=X2
اکنون ميخواهیم رابطهی این دو بردار در سیستم خرجش یافته چگونه خواهد بود.
دو بردار بهصورت زیر در سیستم دوران یافته بیان میشوند.
Y1=RX1, Y2=RX2
اکنون طرفین رابطه دو بردار سیستم اولیه در Rضرب میکنیم.
RAX1=RX2
در رابطه اخیر R-1Rوارد میشود .لذا داریم.
RAR-1RX1=RX2
اگر B=RAR-1فرض گردد ،آنگاه داریم BY1=Y2
13
دانشگاه صنعت آب و برق
دنباله چرخش محورها
اکنون میتوان بیان نمود که ما ماتریس روابط تبدیل شده را داریم.
سیستم اصلی یا اولیه برابر Aاست و ماتریس Bسیستم دوران یافته
میباشد.
بردارهای X1و Y1یکسان هستند منتها بردار X1در سیستم قدیم و
بردار Y1در سیستم جدید است .برای X2و Y2نیز به همین
صورت است .عملیات RAR-1ماتریس روابط را به سیستم جدید
تبدیل میکند.
میتوان نشان داد که هر ماتریس Aبه یک ماتریس قطری Sاست،
اگر داشته باشیم.
S=Q-1AQ
که ماتریس Sرا ماتریس طیفی گویند که عناصر قطری آن مقادیر
ویژه و بقیه عناصر آن برابر صفر هستند .ماتریس ،Qماتریس
نرمال شده بردارهای ویژه ماتریس Aاست.
14
دانشگاه صنعت آب و برق
دنباله چرخش محورها
اکنون از معادله Sمیتوان دو فرم نوشت ،زیرا معکوس و
ترانهاده ماتریسهای متعامد نرمالیزه برابر هستند.
B=RAR-1, S=Q-1AQ
بهطور خالصه معادله AX1=X2به صورت BY1=Y2
تبدیل شد .در این دوران محورهای جدیدی ایجاد شد که
محورهای اصلی نامیده میشود ،که Bماتریس جدید و برابر
ماتریس Sاست .بنابراین کافی است که مقادیر و بردارهای
ویژه Aمحاسبه گردد و در معادالت Sو Bاستفاده شود.
برای نمایش مناسبتر بجای محورهای اصلی Y1و Y2از
P1و P2استفاده می کنیم.
P1=(p11,p12,p13)T, P2=(p21,p22,p23)T
15
دانشگاه صنعت آب و برق
طول و زاویه بردارها
اگر xRpباشدع نرم یا طول بردار( xنسبت به
ماتریس )Ipبه صورت زیر تعریف می شود.
اگر ||x||=1باشد .بردار یکه استx d (0, x ) x T x .
زاویه بین دو بردار x,yRpکه است به صورت زیر
تعریف می شود.
T
x y
cos
x y
اگر p=2باشد ،داریم
16
دانشگاه صنعت آب و برق
x1
y1
x , y
x 2
y2
دنباله طول و زاویه بردارها
آنگاه روابط زیر برقرار است.
اکنون داریم.
x 1y 1 x 2 y 2
x y
y cos 2 y 1
x cos 1 x 1
y sin 2 y 2
x sin 1 x 2
cos cos 1 cos 2 sin 1 sin 2
xT y
x y
17
دانشگاه صنعت آب و برق
تجزیه و تحلیل مولفهها
مالحظه شد که محورهای دوران یافته که ناشی از مقادیر
و بردارهای ویژه است ،مبنای تحلیل محورهای اصلی
است .با توجه به شکل زیر میتوان نوشت.
d
x
اگر کسینوس زاویه را برابر l=d/xفرض کنید ،آنگاه
میتوان نوشت که:
2
2
2
2
2
) e = x - d = x - (lx
18
دانشگاه صنعت آب و برق
دنباله تجزیه و تحلیل مولفهها
رابطه صفحه قبل را برای مجموع Pمولفه ،میتوان
2
نوشت.
P
æP
ö
2
÷ çç l x
x
å i ççèå i i ÷÷÷ø
i=1
i=1
å
= e2
2ù
انجام شودn é P،
روی nöداده P
æ
آنگاه انحراف کل
ê
اگر این عمل ú
2
ç
÷
÷ S = å êå x ij - ççå l i x ij
عبارتست ازú :
÷
ç
÷
èi=1
øú
j = 1 êi = 1
û
ë
اگر از معادله باال از liها مشتق گرفته شود و معادالت را
زیر
برابر صفر قرار گیرد .معادله
صورت(r -
به l I )L
ماتریسی =
0
است.
دانشگاه صنعت آب و برق
19
دنباله تجزیه و تحلیل مولفهها
که در آن:
• :rماتریس ضرایب همبستگی متغیر xiاست.
• :Lبردار کسینوس جهتها است.
بنابراین با داشتن ماتریس ضرایب همبستگی و بردار
ویژه سیستم جدید نتیجه میشود.
P
k = 1, 2, L , P
lkj x j
å
j=1
20
دانشگاه صنعت آب و برق
= zk
رگرسیون مولفهها
اکنون بجای استفاده از مجموعه Xiها که همبستهاند ،از
مجموعه متغیرهای متعامد kکه kiاست ،استفاده میشود.
اکنون میتوان نگاه جدیدی به مساله رگرسیون چندگانه افکند.
حاال به جای استفاده Yنسبت به Xiمیتوان Yنسبت به k
را در نظر گرفت .بنابراین معادله به صورت زیر در میآید.
y = a 1z 1 + a 2z 2 + L + a kz k
استفاده از حروف کوچک به منزله این است که دادهها
استاندارد شدهاند .یعنی میانگین آنها صفر و انحراف
معیارشان برابر یک است.
در واقع ضرایب kبه مثابه biدر معادله رگرسیون تلقی
میشود.
21
دانشگاه صنعت آب و برق
دنباله رگرسیون مولفهها
معادله قبل را میتوان بر حسب xiاستاندارد شده بیان
z 1 = l 11x 1 + l 21 + l 31x 3 + L + l i 1x i
نمود.
z 2 = l 12x 1 + l 22x 2+ l 32x 3 + L + l i 2x i
M
z k = l 1k x 1 + l 2k + l 3k x 3 + L + l ik x i
تاثیر 1در yبرابر 11است .اکنون مقادیر متاثر شده
y = a 1l 11x 1 + a 1l 21x 2 + a 1l 31x 3 + L + a 1l i 1x i
1
به شرح زیر تنظیم میشود.
y = a 2l 12x 1 + a 2l 22x 2 + a 2l 32x 3 + L + a 2l i 2x i
2
M
y = a kl 1k x 1 + a kl 2k x 2 + a kl 3k x 3 + L + a kl ik x i
22
دانشگاه صنعت آب و برق
k
دنباله رگرسیون مولفهها
در دستگاه قبل 1yپشتیبان مستقل 1است و 2yپشتیبان
مستقل 2است و الخ .نظر به اینکه مجموع yها مستقل
از مجموع xiمیتوان نوشت.
y + 2 y = y 12 = ( a 1l 11 + a 2l 12 )x 1
+ ( a 1l 21 + a 2l 22 )x 2
+ ( a 1l 31 + a 2l 32 )x 3 + L
+ ( a 1l i 1 + a 2l i 2 )x i
23
دانشگاه صنعت آب و برق
1
دنباله رگرسیون مولفهها
. این رابطه برای سه مولفه به شرح زیر است
1
y + 2 y + 3 y = y 123 = ( a 1l 11 + a 2l 12 + a l 13 )x 1
+ ( a 1l 21 + a 2l 22 + a 3l 23 )x 2
+ ( a 1l 31 + a 2l 32 + a 3l 33 )x 3 + L
+ ( a 1l i 1 + a 2l i 2 + a 3l i 3 )x i
: اکنون دستگاه معادالت نرمال به شرح زیر است
a 1 å z 12 + a 2 å z 1z 2 + a 3 å z 1z 3 + L + a k å z 1z k =
a 1 å z 1z 2 + a 2 å z 22 + a 3 å z 2z 3 + L + a k å z 2z k
å
= å
z 1y
z 2y
M
a 1 å z 1z k + a 2 å z 2z k + a 3 å z 3z k + L + a k å z k2 =
دانشگاه صنعت آب و برق
å
24
z ky
دنباله رگرسیون مولفهها
در معادالت نرمال تمام جمالت ikبه ازای i≠k
برابر صفر است ،چون iها متعامد هستند .نظر به جمل
صفر نتیجه میشود که å z 1y å z 1y
1
l
å
z 2y
2
l
å
z 3y
3
=
l
=
=
å z
å zy
å z
å zy
å z
2
1
2
2
2
3
2
3
= a1
= a2
= a3
M
å
z ky
k
25
l
=
دانشگاه صنعت آب و برق
å zy
å z
k
2
k
= ak
دنباله رگرسیون مولفهها
کندال در 1957نشان داد که ضریب همبستگی در
معادله yبر حسب iبرابر مجموع همبستگیها است.
2
صورت
به
مجزا
همبستگی
ضرایب
هستندR 12.
زیر= l 1a
1
R 22 = l 2a 22
M
R k2 = l k a k2
بنابراین همبستگی کل برای اولین jدسته متغیرهای
متعامد برابر است با:
j
å
l k a k2
k= 1
26
دانشگاه صنعت آب و برق
= R j2
مثال
Y
3.23
4.22
4.01
2.40
4.56
2.37
4.07
3.71
1.94
3.71
4.59
3.98
1.15
1.54
3.66
27
X4
6.90
9.90
8.50
3.30
9.40
2.80
7.60
5.90
1.20
4.80
8.60
5.70
1.00
0.10
3.40
X3
8.30
7.00
7.00
5.50
6.50
4.50
3.00
5.00
2.50
3.30
1.50
1.80
8.50
6.50
7.30
دانشگاه صنعت آب و برق
X2
1.00
1.00
2.00
1.80
2.50
2.30
1.80
3.00
2.50
3.30
2.80
3.30
2.00
2.80
2.50
X1
1.00
2.00
2.30
3.00
3.50
4.00
4.50
4.50
5.80
5.80
7.00
7.00
1.00
3.00
1.80
دنباله مثال
ماتریس همبستگی Xiها با هم و همبستگی Xiو Yبه
شرح زیر است:
Y
0.30626
0.05274
-0.27059
0.90627
X4
0.07752
-0.27669
-0.05899
1
X3
-0.97035
-0.57484
1
-0.05899
X2
0.70648
1
-0.57484
-0.27669
X1
1
0.70648
-0.97035
0.07752
X1
X2
X3
X4
همانطور که مالحظه میشود ،متغیرهای X1و X3با
ضریب همبستگی -0.970قویا به هم وابستهاند .همچنین
متغیرهای X1و X2دارای ضریب همبستگی 0.706
هستند.
28
دانشگاه صنعت آب و برق
دنباله مثال
مقادیر ویژه و بردارهای ویژه به شرح جدول زیر هستند.
2
3
4
Eigenvalues
1.12177 0.35279 0.00920
Eigenvectors
0.15702 -0.15268 0.75562
-0.32094 0.76620 -0.20224
-0.18016 0.48718 0.61800
0.91645 0.39025 -0.07880
1
2.51623
0.61731
0.51869
-0.59015
-0.04013
X1
X2
X3
X4
همانطور که در جدول باال مالحظه میشود ،مولفه چهارم
قابل اغماض است ،زیرا مقدار ویژه آن ناچیز است .بنابراین
سه مولفه اصلی باقی میماند که مجموع مقادیر ویژه آنها
برابر 3.99است.
29
دانشگاه صنعت آب و برق
دنباله مثال
ها با استفاده از مولفه اصلیbi چگونگی محاسبه ضرایب
a = 1 (l r + l r + l r + l r ) اول
1
l
a2 =
a3 =
a4 =
a1 =
1
2.5162
1
1
l
2
1
l
3
1
l
4
11 x 1y
21 x 2y
31 x 3y
41 x 4y
(l 12r x y + l 22r x y + l 32r x y + l 42r x y )
1
2
3
4
(l 13r x y + l 23r x y + l 33r x y + l 43r x y )
1
2
3
4
(l 14rx y + l 24r x y + l 34r x y + l 44r x y )
1
2
3
4
[(0.30626 * 0.61731) + (0.51869 * 0.05275) +
(- 0.59015 * - 0.27059) + (- 0.04013 * 0.90625)]
1
= 2.5162
(0.3397)
= 0.13503
دانشگاه صنعت آب و برق
30
دنباله مثال
[(0.1570 * 0.3063) + (- 0.3209 * 0.0527) +
1
1.1218
= a2
])(- 0.1802 * - 0.2706) + (- 0.9165 * 0.9063
1
)(0.9106
= 1.1218
= 0.8116
[(- 0.1527 * 0.3063) + (- 0.7662 * 0.0527) +
1
0.3528
= a3
])(0.4872 * - 0.2706) + (- 0.3902 * 0.9063
1
= 0.3528
)(0.2155
= 0.6108
31
دانشگاه صنعت آب و برق
دنباله مثال
برای مولفه اول ،ضرایب به شرح زیر است.
b1 = 0.13502 ´ 0.61731 = 0.08335
b2 = 0.13502 ´ 0.51869 = 0.07003
b3 = 0.13502 ´ (- 0.59015) = - 0.07968
b 4 = 0.13502 ´ (- 0.4013) = - 0.00542
برای مولفه دوم ،ضرایب به شرح زیر است.
b1 = 0.81164 ´ 0.15702 = 0.12744
b2 = 0.81164 ´ (- 0.32094) = - 0.26049
b3 = 0.81164 ´ (- 0.18016) = - 0.14623
b 4 = 0.81164 ´ (0.91645) = 0.7438
32
دانشگاه صنعت آب و برق
دنباله مثال
برای مولفه سوم ،ضرایب به شرح زیر است.
b1 = 0.61082 ´ (- 0.15268) = - 0.09326
b2 = 0.61082 ´ 0.76620 = 0.46802
b3 = 0.61082 ´ 0.48718 = 0.29758
b 4 = 0.61082 ´ 0.39025 = 0.23838
33
دانشگاه صنعت آب و برق
دنباله مثال
اکنون در جدول زیر ضرایب biها را برای مولفههای
گوناگون مالحظه میکنید.
Correlation R2 X Variance
b4
-0.00542
0.0459
2.51623
0.74383
0.7390
1.12177
0.23838
0.1316
0.35279
0.73841
0.7849
3.63800
0.97679
0.9165
3.99079
Regression Coefficient
b2
b3
0.07003 -0.07968
-0.26049 -0.14623
0.46802 0.29758
-0.19046 -0.22591
0.27756 0.07167
b1
0.08335
0.12744
-0.09326
0.21079
0.11753
Component
1
2
3
1+2
1+2+3
اگر معادله را به روش حداقل مربعات (رگرسیون
چندگانه معمولی) در نظر بگیرید به صورت زیر است.
Y = 4.42650 - 0.75260X 1 + 1.04386X 2 - 0.53870X 3 + 0.39251X 4
34
دانشگاه صنعت آب و برق
دنباله مثال
اکنون اگر بخواهید معادله رگرسیون را با دادههای اصلی
و سه مولفه مورد اشاره داشته باشید ،به صورت زیر
æ
ö
S
S
S
S
çç
÷
.
کنید
عمل
y
y
y
y
ˆ
Y = Y - b
X - b
X - b
X - b
÷ X
÷
÷
÷
ø
4
4
3
3
2
2
1
Sx
Sx
Sx
2
3
4
æ S ö
æ S ö
æ S ö
çç
çç
çç
÷ y
÷ y
÷ y
÷
÷
÷
X 2 + çb3
X 3 + çb4
X4
ççb2
÷
÷
÷
÷ çç S
÷ çç S
÷ çè S x 2
÷
÷
x3 ø
÷ x4
ø
è
è
ø
çç
1
Sx
çè
1
æ S ö
çç
÷ y
÷
+ çb1
X1 +
÷
÷ çç S
÷ x1
è
ø
اکنون پس از محاسبات ضرایب معادله فوق (با در نظر
شود0.06705 + 0.06544.
میX 1 +
0.43195
+ 0.03418
+ 0.33930X 4
اصلی) Xنتیجه
سهXمولفه
2
گرفتن 3
35
دانشگاه صنعت آب و برق
= ˆY