Principal Components Analysis

Download Report

Transcript Principal Components Analysis

การวิเคราะห์สว่ นประกอบสาคัญ
PRINCIPAL COMPONENTS ANALYSIS
จุดมุ่งหมายของการวิเคราะห์
 คือการอธิบายเมตริกซ์สหสัมพันธ์ ( Correlation matrix ) ให้
ง่ายขึ้น โดยการอธิบายในรูปของตัวแปรทีล่ ดลง หลายปี ต่อมาหลังจาก
Spearman ได้ให้พ้นื ฐานการคานวณอย่างง่ายไว้เมือ่ ค.ศ. 1904 มี
การใช้การคานวณโดยคอมพิวเตอร์ทม่ี ปี ระสิทธิภาพมาก แต่การวิเคราะห์
โดยคอมพิวเตอร์ไม่ช่วยให้ผูศ้ ึกษาเห็นภาพ และเข้าใจเท่าทีค่ วร การแสดง
การวิเคราะห์ทอ่ี ธิบายอย่างง่ายโดยค่าสถิตทิ ไ่ี ม่ซบั ซ้อน จะช่วยแก้ปญั หาได้
 จุดมุง่ หมายของการวิเคราะห์ส่วนประกอบสาคัญ คือการทีส่ ามารถกะประมาณ
( Estimate ) เมตริกซ์ สหสัมพันธ์ และสามารถหาสมการลักษณะ
เมตริกซ์สหสัมพันธ์ 2 กลุม่ ค่า ( Sets of values ) คือ
 1. ไอเกนเวคเตอร์ใช้สญั ลักษณ์ V a , V b … ตามลาดับ ซึง่ เป็ นคอลัมน์
หรือแถวของนา้ หนักของแต่ละตัวแปรในเมตริกซ์ ถ้ามี 6 ตัวแปรก็จะมีค่า
นา้ หนัก 6 ค่า ( Elements ) ในแต่ละเวคเตอร์ และมีจานวน 6 เวคเตอร์
( V a , V b … Vf ) และค่านา้ หนักองค์ประกอบทีส่ อดคล ้องกับ
องค์ประกอบต่างๆ คือ Fa , Fb… Ff จะได้มาจากแต่ละค่าของเวคเตอร์
คูณด้วยรากทีส่ องของค่าไอเกน ( Eigenvalue ) ขององค์ประกอบนัน้
 2. ค่าไอเกนใช้สญั ลักษณ์ la คือ ผลรวมกาลังสองของค่านา้ หนักองค์ประกอบ
แต่ละองค์ประกอบ ซีง่ ถ้านามาหาค่าเฉลีย่ จะบอกสัดส่วนของความแปรปรวนที่
อธิบายโดยองค์ประกอบนัน้ ผลรวมเฉลีย่ ดังกล่าวในองค์ประกอบใดมีค่าสูง
องค์ประกอบนัน้ นัน้ ก็อธิบายได้มาก องค์ประกอบหรือส่วนประกอบแรกทีถ่ กู
สกัดออกมาจะมีค่านี้สูงทีส่ ุด
 เมือ่ ค.ศ. 1933 Hotelling. ได้อธิบายวิธกี ารวิเคราะห์ไว้ โดยการคานวณ
ค่าสองค่านี้ตามวิธกี ารขัน้ ตอนดังนี้
 1. หาเมตริกซ์สหสัมพันธ์ และรวมค่าสัมประสิทธ์ในเมตริกซ์
( Elements ) ของแต่ละคอลัมน์ จากตาราง 1 รวมค่าได้ 4 ค่า เป็ น
เวคเตอร์ คือ Ua1 ดังนัน้ Ua1 = ( 1.9, 1.7, 1.8, 1.6 )
 2. ปรับค่า Ua1 ( Normalize Ua1 ) โดยการยกกาลังสอง แต่ละ
ค่าใน Ua1 แล ้วนามารวมกัน ได้ผลลัพท์เท่าไรแล ้วจึงถอดรากทีส่ องของค่า
นัน้ จากนัน้ นาค่าทีไ่ ด้ไปหารค่าแต่ละค่าใน Ua1 จะได้ค่าในเวคเตอร์แรก คือ
V a1 ดังนี้
 3. หาเวคเตอร์ท่ี 2 คือ V a2 โดยนาค่าแต่ละค่าใน V a1 คูณกับค่าในแต่
ละคอลัมน์ในเมตริกซ์สหสัมพันธ์ แล ้วนามารวมกันจะได้ค่าแต่ละค่าในเวคเตอร์
U a2
 4. ปรับค่า U a2 โดยคานวณตามวิธใี นข้อ 2 ได้ค่า V a2 ดังนี้
 5. เปรียบเทียบค่าแต่ละค่าของ V a1 กับ V a2 ในตาแหน่งเดียวกันนามา
เปรียบเข ้าคู่กนั คือ 0.54 กับ 0.55, 0.48 กับ 0.49, 0.51 กับ 0.51, 0.46 กับ
0.44 จะเห็นได้ว่าค่าคล ้ายกันมาก แต่ไม่เหมือนกัน หมายความว่าการ
เปรียบเทียบนี้ถอื เอาความสอดคล ้องกัน ( Convergence ) เป็ นเกณฑ์
คือ ความสอดคล ้องนี้พจิ ารณาจากค่าผลรวมกาลังสองของความแตกต่าง
ระหว่างค่าแต่ละคู่ ของสองเวคเตอร์น้ ีให้ค่าเข ้าใกล ้ 0 มากทีส่ ุด ทัง้ นี้ตอ้ งน้อย
กว่า 0.00001 ถ้าไม่สอดคล ้องต้องหา U a3 ต่อไป
 6. หาเวคเตอร์ท่ี 3 คือ V a3 ตามวิธใี นข้อ 3
 7. ปรับค่า U a3 โดยคานวณเหมือนกับข้อ 2 หรือ ข้อ 4
 8. เปรียบเทียบค่าแต่ละค่าของ V a2 กับ V a3 ตามวีธใี นข้อ 5 อย่างไรก็
ตามตัวอย่างการอธิบายนี้ จะสมมติว่า V a2 กับ V a3 มีความสอดคล ้อง
กันแล ้ว ในการคานวณจริงจะต้องเปรียบเทียบเวคเตอร์กนั อย่างนี้ไปจนกว่าจะมี
ความสอดคล ้องกัน การทาอย่างนี้เรียกว่า “Iterative approach
characteristic vectors” หรือ “Iterative solution”
 9. เมือ่ พบความสอดคล ้องกันระหว่าง V a2 กับ V a3 แล ้ว V a3 จะ
เป็ นเวคเตอร์แรก ( The first characteristic vector or
Successive vector ) ของเมตริกซ์ ส่วน V a1 กับ V a2
เรียกว่า Trial vectors เมือ่ คานวณรากทีส่ องของผลรวมกาลังสองของค่า
ใน U a3 ค่าทีไ่ ด้นนั้ คือ ค่าไอเกน
( Eigenvalue : la : The First characteristic root
= 1.75 ) ค่าไอเกนนี้จะมีค่าตัง้ แต่ 0 ขึ้นไป ไม่มคี ่าเป็ นลบ
 และจะคานวณค่านา้ หนักองค์ประกอบ(Factor loading values)
ได้โดยการนาค่าใน V a3 คูณกับรากทีส่ องของค่าไอเกน ดังนัน้ ส่วนประกอบ
สาคัญส่วนแรกจะถูกสกัดออกมา ดังตาราง 2 ซึง่ แสดงให้เห็นองค์ประกอบ
ทัวไป
่ ทีอ่ ธิบายความแปรปรวนได้มากทีส่ ุดในเมตริกซ์กล่าวคือ กาลังสองของ
ค่านา้ หนักองค์ประกอบเมือ่ นามาเฉลีย่
 จะเป็ นค่าทีอ่ ธิบายความแปรปรวนขององค์ประกอบที่ 1 ในเมตริกซ์สหสัมพันธ์
คือ 1.74/4=43% ( 43.5% ) และแปลความหมายได้ว่า องค์ประกอบที่ 1
อธิบายความแปรปรวนในเมตริกซ์สหสัมพันธ์ ได้ 43 % โดยทัวไปเมื
่ อ่ สกัด
องค์ประกอบสาคัญจนครบแล ้วจะเรียกตาราง 2 นี้ว่าตารางเมตริกซ์
องค์ประกอบดัง้ เดิม หรือ เมตริกซ์องค์ประกอบทีย่ งั ไม่ได้ทาการหมุนแกน
 10. การหาส่วนประกอบสาคัญที่ 2 ดาเนินการเหมือน ข้อ1-9 คือการหา
ไอเกนเวคเตอร์ ค่าไอเกน และค่านา้ หนักองค์ประกอบ ทาให้ Vb มีความ
สอดคล ้องกันในทีส่ ุด อย่างไรก็ตาม ไอเกนเวคเตอร์ และค่าไอเกน เหล่านี้ไม่ได้
สกัดมาจากเมตริกซ์สหสัมพันธ์เดิม ( ตาราง 1 ) แต่จะสกัดมาจากเมตริกซ์เศษ
เหลือจากการสกัดองค์ประกอบแรกแล ้ว นัน่ คือสิง่ ทีแ่ สดงให้เห็นความหมาย
ขององค์ประกอบทีส่ ามารถอธิบายความแปรปรวนต่างๆในเมตริกซ์สหสัมพันธ์
 11. การหาเมตริกซ์เศษเหลือนัน้ ค่าสัมประสิทธิ์ทเ่ี ป็ นเศษเหลือ จะมีความ
สอดคล ้องกับค่าในเมตริกซ์เดิม กล่าวคือ เมือ่ เรานาค่านา้ หนักองค์ประกอบของ
ตัวแปรแต่ละคู่เท่าทีเ่ ป็ นไปได้ทงั้ หมดคูณกัน จะได้ค่าทัง้ หมด 16 ค่า คือ
เมตริกซ์คนื รูป ( ตาราง 4 ) และค่าในแนวทแยง ก็คอื ค่ากาลังสองของค่า
นา้ หนักองค์ประกอบ หรือค่าการร่วม ( h2 )หลังจากสกัดองค์ประกอบแรก
เมือ่ ได้ค่าในเมตริกซ์คนื รูปแล ้วให้นาเอาค่าทีไ่ ด้ไปลบออกจากค่าในเมตริกซ์
สหสัมพันธ์เดิม จากนัน้ นาผลทีไ่ ด้สร้างเมตริกซ์เศษเหลือ ( ตาราง 5 ) แสดง
การคานวณดังนี้
แต่ละค่าในแนวทแยงเป็ นความแปรปรวน(Variance)ทีเ่ หลือจากที่
องค์ประกอบแรกแบ่งออกไป ดังนัน้ ถ้าเราตรวจสอบเมตริกซ์เศษเหลือจะพบว่า องค์ประกอบ
แรกถูกอธิบายได้ดว้ ยความแปรปรวนของ IQ=55%, V=43%, M=45%,
S=32% หรือตัวแปรเหล่านี้มสี ่วนอยู่ในความแปรปรวนขององค์ประกอบแรกเป็ นจานวน
ร้อยละเท่านัน้ ๆ ลักษณะดังกล่าวแสดงให้เห็นความหมายขององค์ประกอบอธิบายความ
แปรปรวนในเมตริกซ์สหสัมพันธ์ องค์ประกอบแรกนี้เรียกว่า ความสามารถทัวไป
่
(General ability or Intelligence Factor) ซึง่ อธิบายความแปรปรวน
ได้มากทีส่ ุด ดังนัน้ องค์ประกอบทีเ่ หลือจึงอธิบายความแปรปรวนได้นอ้ ยลงไปเพราะจะ
อธิบายในส่วนทีเ่ ป็ นค่าเศษเหลือจากองค์ประกอบแรกเท่านัน้
จากตาราง 5 ค่าผลรวมของตัวแปรในคอลัมน์ IQ, V, M,และ S เป็ น –0.05,
-0.59,-0.36, -0.57 ตามลาดับ คอลัมน์ทต่ี อ้ งกลับเครื่องหมายคือคอลัมน์ของตัว
แปร V
จากตาราง 7 จะเห็นว่าค่าผลรวมไม่มคี ่าใดเป็ นลบ จึงยุตกิ ารกลับ
เครื่องหมาย และตาราง 7 นี้จะใช้ในการคานวณหาองค์ประกอบที่ 2 ต่อไป
จากขัน้ ตอนนี้ทาการคานวณตามข้อที3่ -9 จนกระทังได้
่ องค์ประกอบที่ 2 จากนัน้ จึง
หาองค์ประกอบที่ 3 และ 4 เป็ นองค์ประกอบสุดท้าย ตามกระบวนการเดิมเป็ นอัน
เสร็จสิ้นการสกัดองค์ประกอบโดยการวิเคราะห์ส่วนประกอบสาคัญ และความ
แปรปรวนในเมตริกซ์สหสัมพันธ์ ทัง้ หมดจะอธิบายได้ดว้ ยผลรวมค่าเฉลีย่ ของค่า
นา้ หนักองค์ประกอบกาลังสองในแต่ละ ส่วนประกอบ
สรุป
ในทางปฏิบตั แิ ล ้วการวิเคราะห์องค์ประกอบจะใช้โปรแกรมคอมพิวเตอร์ช่วยในการ
คานวณ เพราะหากตัวแปรมีจานวนมาก เช่น 20 หรือ 30 ตัวแปร และอีกทัง้ การวิเคราะห์
องค์ประกอบต้องอาศัยกลุม่ ตัวอย่างเป็ นจานวนมากเท่าทีจ่ ะเป็ นไปได้ อย่างน้อย 10 เท่าของ
ตัวแปร (Kerlinger,1992 p.593) ย่อมทาให้การคานวณโดยไม่ใช้โปรแกรม
คอมพิวเตอร์เป็ นไปได้ยากการเสนอตัวอย่างการวิเคราะห์ในบทความนี้มคี วามมุ่งหมายทีจ่ ะ
แสดงให้เห็นว่า การวิเคราะห์องค์ประกอบทีใ่ ช้การวิเคราะห์ส่วนประกอบสาคัญนัน้ แสดงการ
อธิบายความแปรปรวนขององค์ประกอบในเมตริกซ์สหสัมพันธ์อย่างไร โดยการใช้วธิ กี าร
คานวณทีไ่ ม่ยุ่งยากซับซ้อนมากนักในการนาเสนอ ซึง่ จะทาให้เห็นมโนทัศน์เบื้องต้นบาง
ประการ สาหรับการศึกษาการวิเคราะห์องค์ประกอบด้วยวิธกี ารอืน่ ๆต่อไป
เอกสารอ้างอิง
 Kline,P. (1994). An Easey Guide to Factor Analysis. London:






Routledge.
Nunnally,J.C. (1994). Psychometric Theory.(3rd ed.). New
York: Mcgraw-Hill.
Kerlinger,F.N. (1992). Foundations of Behavioral
Research.(3rd ed.). USA: Holt, Rinehart
and Winston.
Rancher,A.C. (1995). Method of Multivariate Analysis. New
York: John wiley&sons.
Ferketich,S.,&Muller,M. (1990). Factor Analysis Revisited.
Nursing Research, 10 (1),
59-62.