Principal Components Analysis
Download
Report
Transcript Principal Components Analysis
การวิเคราะห์สว่ นประกอบสาคัญ
PRINCIPAL COMPONENTS ANALYSIS
จุดมุ่งหมายของการวิเคราะห์
คือการอธิบายเมตริกซ์สหสัมพันธ์ ( Correlation matrix ) ให้
ง่ายขึ้น โดยการอธิบายในรูปของตัวแปรทีล่ ดลง หลายปี ต่อมาหลังจาก
Spearman ได้ให้พ้นื ฐานการคานวณอย่างง่ายไว้เมือ่ ค.ศ. 1904 มี
การใช้การคานวณโดยคอมพิวเตอร์ทม่ี ปี ระสิทธิภาพมาก แต่การวิเคราะห์
โดยคอมพิวเตอร์ไม่ช่วยให้ผูศ้ ึกษาเห็นภาพ และเข้าใจเท่าทีค่ วร การแสดง
การวิเคราะห์ทอ่ี ธิบายอย่างง่ายโดยค่าสถิตทิ ไ่ี ม่ซบั ซ้อน จะช่วยแก้ปญั หาได้
จุดมุง่ หมายของการวิเคราะห์ส่วนประกอบสาคัญ คือการทีส่ ามารถกะประมาณ
( Estimate ) เมตริกซ์ สหสัมพันธ์ และสามารถหาสมการลักษณะ
เมตริกซ์สหสัมพันธ์ 2 กลุม่ ค่า ( Sets of values ) คือ
1. ไอเกนเวคเตอร์ใช้สญั ลักษณ์ V a , V b … ตามลาดับ ซึง่ เป็ นคอลัมน์
หรือแถวของนา้ หนักของแต่ละตัวแปรในเมตริกซ์ ถ้ามี 6 ตัวแปรก็จะมีค่า
นา้ หนัก 6 ค่า ( Elements ) ในแต่ละเวคเตอร์ และมีจานวน 6 เวคเตอร์
( V a , V b … Vf ) และค่านา้ หนักองค์ประกอบทีส่ อดคล ้องกับ
องค์ประกอบต่างๆ คือ Fa , Fb… Ff จะได้มาจากแต่ละค่าของเวคเตอร์
คูณด้วยรากทีส่ องของค่าไอเกน ( Eigenvalue ) ขององค์ประกอบนัน้
2. ค่าไอเกนใช้สญั ลักษณ์ la คือ ผลรวมกาลังสองของค่านา้ หนักองค์ประกอบ
แต่ละองค์ประกอบ ซีง่ ถ้านามาหาค่าเฉลีย่ จะบอกสัดส่วนของความแปรปรวนที่
อธิบายโดยองค์ประกอบนัน้ ผลรวมเฉลีย่ ดังกล่าวในองค์ประกอบใดมีค่าสูง
องค์ประกอบนัน้ นัน้ ก็อธิบายได้มาก องค์ประกอบหรือส่วนประกอบแรกทีถ่ กู
สกัดออกมาจะมีค่านี้สูงทีส่ ุด
เมือ่ ค.ศ. 1933 Hotelling. ได้อธิบายวิธกี ารวิเคราะห์ไว้ โดยการคานวณ
ค่าสองค่านี้ตามวิธกี ารขัน้ ตอนดังนี้
1. หาเมตริกซ์สหสัมพันธ์ และรวมค่าสัมประสิทธ์ในเมตริกซ์
( Elements ) ของแต่ละคอลัมน์ จากตาราง 1 รวมค่าได้ 4 ค่า เป็ น
เวคเตอร์ คือ Ua1 ดังนัน้ Ua1 = ( 1.9, 1.7, 1.8, 1.6 )
2. ปรับค่า Ua1 ( Normalize Ua1 ) โดยการยกกาลังสอง แต่ละ
ค่าใน Ua1 แล ้วนามารวมกัน ได้ผลลัพท์เท่าไรแล ้วจึงถอดรากทีส่ องของค่า
นัน้ จากนัน้ นาค่าทีไ่ ด้ไปหารค่าแต่ละค่าใน Ua1 จะได้ค่าในเวคเตอร์แรก คือ
V a1 ดังนี้
3. หาเวคเตอร์ท่ี 2 คือ V a2 โดยนาค่าแต่ละค่าใน V a1 คูณกับค่าในแต่
ละคอลัมน์ในเมตริกซ์สหสัมพันธ์ แล ้วนามารวมกันจะได้ค่าแต่ละค่าในเวคเตอร์
U a2
4. ปรับค่า U a2 โดยคานวณตามวิธใี นข้อ 2 ได้ค่า V a2 ดังนี้
5. เปรียบเทียบค่าแต่ละค่าของ V a1 กับ V a2 ในตาแหน่งเดียวกันนามา
เปรียบเข ้าคู่กนั คือ 0.54 กับ 0.55, 0.48 กับ 0.49, 0.51 กับ 0.51, 0.46 กับ
0.44 จะเห็นได้ว่าค่าคล ้ายกันมาก แต่ไม่เหมือนกัน หมายความว่าการ
เปรียบเทียบนี้ถอื เอาความสอดคล ้องกัน ( Convergence ) เป็ นเกณฑ์
คือ ความสอดคล ้องนี้พจิ ารณาจากค่าผลรวมกาลังสองของความแตกต่าง
ระหว่างค่าแต่ละคู่ ของสองเวคเตอร์น้ ีให้ค่าเข ้าใกล ้ 0 มากทีส่ ุด ทัง้ นี้ตอ้ งน้อย
กว่า 0.00001 ถ้าไม่สอดคล ้องต้องหา U a3 ต่อไป
6. หาเวคเตอร์ท่ี 3 คือ V a3 ตามวิธใี นข้อ 3
7. ปรับค่า U a3 โดยคานวณเหมือนกับข้อ 2 หรือ ข้อ 4
8. เปรียบเทียบค่าแต่ละค่าของ V a2 กับ V a3 ตามวีธใี นข้อ 5 อย่างไรก็
ตามตัวอย่างการอธิบายนี้ จะสมมติว่า V a2 กับ V a3 มีความสอดคล ้อง
กันแล ้ว ในการคานวณจริงจะต้องเปรียบเทียบเวคเตอร์กนั อย่างนี้ไปจนกว่าจะมี
ความสอดคล ้องกัน การทาอย่างนี้เรียกว่า “Iterative approach
characteristic vectors” หรือ “Iterative solution”
9. เมือ่ พบความสอดคล ้องกันระหว่าง V a2 กับ V a3 แล ้ว V a3 จะ
เป็ นเวคเตอร์แรก ( The first characteristic vector or
Successive vector ) ของเมตริกซ์ ส่วน V a1 กับ V a2
เรียกว่า Trial vectors เมือ่ คานวณรากทีส่ องของผลรวมกาลังสองของค่า
ใน U a3 ค่าทีไ่ ด้นนั้ คือ ค่าไอเกน
( Eigenvalue : la : The First characteristic root
= 1.75 ) ค่าไอเกนนี้จะมีค่าตัง้ แต่ 0 ขึ้นไป ไม่มคี ่าเป็ นลบ
และจะคานวณค่านา้ หนักองค์ประกอบ(Factor loading values)
ได้โดยการนาค่าใน V a3 คูณกับรากทีส่ องของค่าไอเกน ดังนัน้ ส่วนประกอบ
สาคัญส่วนแรกจะถูกสกัดออกมา ดังตาราง 2 ซึง่ แสดงให้เห็นองค์ประกอบ
ทัวไป
่ ทีอ่ ธิบายความแปรปรวนได้มากทีส่ ุดในเมตริกซ์กล่าวคือ กาลังสองของ
ค่านา้ หนักองค์ประกอบเมือ่ นามาเฉลีย่
จะเป็ นค่าทีอ่ ธิบายความแปรปรวนขององค์ประกอบที่ 1 ในเมตริกซ์สหสัมพันธ์
คือ 1.74/4=43% ( 43.5% ) และแปลความหมายได้ว่า องค์ประกอบที่ 1
อธิบายความแปรปรวนในเมตริกซ์สหสัมพันธ์ ได้ 43 % โดยทัวไปเมื
่ อ่ สกัด
องค์ประกอบสาคัญจนครบแล ้วจะเรียกตาราง 2 นี้ว่าตารางเมตริกซ์
องค์ประกอบดัง้ เดิม หรือ เมตริกซ์องค์ประกอบทีย่ งั ไม่ได้ทาการหมุนแกน
10. การหาส่วนประกอบสาคัญที่ 2 ดาเนินการเหมือน ข้อ1-9 คือการหา
ไอเกนเวคเตอร์ ค่าไอเกน และค่านา้ หนักองค์ประกอบ ทาให้ Vb มีความ
สอดคล ้องกันในทีส่ ุด อย่างไรก็ตาม ไอเกนเวคเตอร์ และค่าไอเกน เหล่านี้ไม่ได้
สกัดมาจากเมตริกซ์สหสัมพันธ์เดิม ( ตาราง 1 ) แต่จะสกัดมาจากเมตริกซ์เศษ
เหลือจากการสกัดองค์ประกอบแรกแล ้ว นัน่ คือสิง่ ทีแ่ สดงให้เห็นความหมาย
ขององค์ประกอบทีส่ ามารถอธิบายความแปรปรวนต่างๆในเมตริกซ์สหสัมพันธ์
11. การหาเมตริกซ์เศษเหลือนัน้ ค่าสัมประสิทธิ์ทเ่ี ป็ นเศษเหลือ จะมีความ
สอดคล ้องกับค่าในเมตริกซ์เดิม กล่าวคือ เมือ่ เรานาค่านา้ หนักองค์ประกอบของ
ตัวแปรแต่ละคู่เท่าทีเ่ ป็ นไปได้ทงั้ หมดคูณกัน จะได้ค่าทัง้ หมด 16 ค่า คือ
เมตริกซ์คนื รูป ( ตาราง 4 ) และค่าในแนวทแยง ก็คอื ค่ากาลังสองของค่า
นา้ หนักองค์ประกอบ หรือค่าการร่วม ( h2 )หลังจากสกัดองค์ประกอบแรก
เมือ่ ได้ค่าในเมตริกซ์คนื รูปแล ้วให้นาเอาค่าทีไ่ ด้ไปลบออกจากค่าในเมตริกซ์
สหสัมพันธ์เดิม จากนัน้ นาผลทีไ่ ด้สร้างเมตริกซ์เศษเหลือ ( ตาราง 5 ) แสดง
การคานวณดังนี้
แต่ละค่าในแนวทแยงเป็ นความแปรปรวน(Variance)ทีเ่ หลือจากที่
องค์ประกอบแรกแบ่งออกไป ดังนัน้ ถ้าเราตรวจสอบเมตริกซ์เศษเหลือจะพบว่า องค์ประกอบ
แรกถูกอธิบายได้ดว้ ยความแปรปรวนของ IQ=55%, V=43%, M=45%,
S=32% หรือตัวแปรเหล่านี้มสี ่วนอยู่ในความแปรปรวนขององค์ประกอบแรกเป็ นจานวน
ร้อยละเท่านัน้ ๆ ลักษณะดังกล่าวแสดงให้เห็นความหมายขององค์ประกอบอธิบายความ
แปรปรวนในเมตริกซ์สหสัมพันธ์ องค์ประกอบแรกนี้เรียกว่า ความสามารถทัวไป
่
(General ability or Intelligence Factor) ซึง่ อธิบายความแปรปรวน
ได้มากทีส่ ุด ดังนัน้ องค์ประกอบทีเ่ หลือจึงอธิบายความแปรปรวนได้นอ้ ยลงไปเพราะจะ
อธิบายในส่วนทีเ่ ป็ นค่าเศษเหลือจากองค์ประกอบแรกเท่านัน้
จากตาราง 5 ค่าผลรวมของตัวแปรในคอลัมน์ IQ, V, M,และ S เป็ น –0.05,
-0.59,-0.36, -0.57 ตามลาดับ คอลัมน์ทต่ี อ้ งกลับเครื่องหมายคือคอลัมน์ของตัว
แปร V
จากตาราง 7 จะเห็นว่าค่าผลรวมไม่มคี ่าใดเป็ นลบ จึงยุตกิ ารกลับ
เครื่องหมาย และตาราง 7 นี้จะใช้ในการคานวณหาองค์ประกอบที่ 2 ต่อไป
จากขัน้ ตอนนี้ทาการคานวณตามข้อที3่ -9 จนกระทังได้
่ องค์ประกอบที่ 2 จากนัน้ จึง
หาองค์ประกอบที่ 3 และ 4 เป็ นองค์ประกอบสุดท้าย ตามกระบวนการเดิมเป็ นอัน
เสร็จสิ้นการสกัดองค์ประกอบโดยการวิเคราะห์ส่วนประกอบสาคัญ และความ
แปรปรวนในเมตริกซ์สหสัมพันธ์ ทัง้ หมดจะอธิบายได้ดว้ ยผลรวมค่าเฉลีย่ ของค่า
นา้ หนักองค์ประกอบกาลังสองในแต่ละ ส่วนประกอบ
สรุป
ในทางปฏิบตั แิ ล ้วการวิเคราะห์องค์ประกอบจะใช้โปรแกรมคอมพิวเตอร์ช่วยในการ
คานวณ เพราะหากตัวแปรมีจานวนมาก เช่น 20 หรือ 30 ตัวแปร และอีกทัง้ การวิเคราะห์
องค์ประกอบต้องอาศัยกลุม่ ตัวอย่างเป็ นจานวนมากเท่าทีจ่ ะเป็ นไปได้ อย่างน้อย 10 เท่าของ
ตัวแปร (Kerlinger,1992 p.593) ย่อมทาให้การคานวณโดยไม่ใช้โปรแกรม
คอมพิวเตอร์เป็ นไปได้ยากการเสนอตัวอย่างการวิเคราะห์ในบทความนี้มคี วามมุ่งหมายทีจ่ ะ
แสดงให้เห็นว่า การวิเคราะห์องค์ประกอบทีใ่ ช้การวิเคราะห์ส่วนประกอบสาคัญนัน้ แสดงการ
อธิบายความแปรปรวนขององค์ประกอบในเมตริกซ์สหสัมพันธ์อย่างไร โดยการใช้วธิ กี าร
คานวณทีไ่ ม่ยุ่งยากซับซ้อนมากนักในการนาเสนอ ซึง่ จะทาให้เห็นมโนทัศน์เบื้องต้นบาง
ประการ สาหรับการศึกษาการวิเคราะห์องค์ประกอบด้วยวิธกี ารอืน่ ๆต่อไป
เอกสารอ้างอิง
Kline,P. (1994). An Easey Guide to Factor Analysis. London:
Routledge.
Nunnally,J.C. (1994). Psychometric Theory.(3rd ed.). New
York: Mcgraw-Hill.
Kerlinger,F.N. (1992). Foundations of Behavioral
Research.(3rd ed.). USA: Holt, Rinehart
and Winston.
Rancher,A.C. (1995). Method of Multivariate Analysis. New
York: John wiley&sons.
Ferketich,S.,&Muller,M. (1990). Factor Analysis Revisited.
Nursing Research, 10 (1),
59-62.