Regression (การถดถอย) - คณะเกษตรศาสตร์ มหาวิทยาลัยขอนแก่น
Download
Report
Transcript Regression (การถดถอย) - คณะเกษตรศาสตร์ มหาวิทยาลัยขอนแก่น
การวิเคราะห์การถดถอย
Regression Analysis
โดย
วุฒิไกร บุญคุ้ม
ภาควิชาสั ตวศาสตร์ คณะเกษตรศาสตร์
มหาวิทยาลัยขอนแก่น
เราใช้ Regression ไปทาไม ?
เพื่อต้องการหาสมการความสัมพันธ์ระหว่างตัวแปร 2 ตัว เพื่อที่จะนาไปสู่
การคาดการณ์หรื อประมาณค่า…
ชนิดของการถดถอย
Simple Regression
Multiple Regression
Simple Linear Regression
ตัวอย่างของการถดถอย
ความหมายของการถดถอยอย่างง่าย
เป็นการศึกษาหาอิทธิพลของตัวแปร 2 ตัวแปร โดยตัวแปรตาม
Y มีความสัมพันธ์เชิงสถิติกบั ตัวแปรอิสระ X เพียงตัวแปรเดียว
และลักษณะความสัมพันธ์จะเป็นแบบเส้นตรง
เป็นการศึกษาเกี่ยวกับการหาฟังก์ชนั หรือร ูปแบบความสัมพันธ์
เพื่อใช้ทานายค่าของตัวแปรที่ตอ้ งการศึกษา
หมายเหต ุ: ตัวแปรทัง้ สองต้องมีลกั ษณะเป็นตัวแปรต่อเนื่อง (continuous variables) เช่น
ปริมาณน้านม, น้าหนักตัวที่เพิ่มขึ้น, ส่วนสูง
คาศัพท์ที่ควรร ้ ู
ตัวแปรที่ใช้ในการศึกษาการถดถอยมี 2 ชนิด ได้แก่
1. ตัวแปรอิสระ (Independent variable :X) คือตัวแปรที่กาหนดการ
เปลี่ยนแปลงของตัวแปรตาม
2. ตัวแปรตาม (Dependent variable :Y) คือตัวแปรที่เปลี่ยนแปลงไป
ตามผลของตัวแปนอิสระ
Tip: หากอยากรูว้ ่าตัวแปรใดเป็นตัวแปรตามให้ด ูที่ผถ้ ู าม หรือโจทย์อยากทราบอะไร เช่น
หากอยากทราบว่าน้านมของโคนมตัวนี้ควรมีกี่กิโลกรัม หมายความว่า น้านม เป็นตัวแปรตาม
วัตถ ุประสงค์ในการวิเคราะห์การถดถอย
1. เป็นการทดสอบทางสถิติว่าตัวแปร X มีอิทธิพลต่อตัวแปร Y
หรือไม่
2. หากพบว่าอิทธิพลมีนยั สาคัญทางสถิติแล้ว X มีผลต่อ Y ในระดับ
และทิศทางอย่างไร เช่น หาก X เพิ่มขึ้น 1 หน่วย Y จะเพิ่มขึ้นหรือ
ลดลงในปริมาณเท่าใด
3. ผูว้ ิจยั ต้องการสร้างสมการทานายอย่างง่ายเพื่อนาไปใช้ในประชา
กร ซึ่งอยูใ่ นร ูป Y = a+bX
ข้อมูลดิบ
Y
ค่าสังเกต
X
ร ูปกราฟของการถดถอย
Y
Regression line; Y = a + bX
X,Y
Y-intercept
b or slope
Regression coefficient
X
Simple Linear Regression
ร ูปแบบสมการทานายการถดถอยอย่างง่าย
Y a bX
Yˆ a bX
เมื่อ
Y = ตัวแปรตาม หรือลักษณะที่ตอ้ งการทานาย
a = จุดตัดบนแกน Y
b = ค่าสัมประสิทธิ์การถดถอย ค่าประมาณการเปลี่ยนแปลงของ Y เมื่อ X
เพิ่มขึ้นหรือลดลง 1 หน่วย
X = ตัวแปรอิสระ
Tip: ค่าของ a สามารถเป็นได้ทงั้ + และ a เป็น + จุดตัดบนแกน Y จะอยูเ่ หนือจุด origin
a เป็น - จุดตัดบนแกน Y จะอยูต่ ่ากว่าจุด origin
ค่าของ b สามารถเป็นได้ทงั้ + และ b เป็น + ความชันของเส้นสมการถดถอยจะเพิ่มขึ้นเมื่อ X มีค่าเพิ่มขึ้น
b เป็น - ความชันของเส้นสมการถดถอยจะลดลงเมื่อ X มีค่าเพิ่มขึ้น
Yˆ a bX
Y
ร ูปกราฟของการถดถอยแบบต่างๆ
Y
a=+
b=+
Yˆ a bX
1
a=b=+
X
0
Y
2
X
0
Y
a=+
b=-
a=b=-
3
X
0
Yˆ a bX
0
4
X
Yˆ a bX
ร ูปแบบสมการทานายการถดถอยอย่างง่าย
Y a bX
Yˆ a bX
ดังนัน้ เราสามารถหาสมการทานายอย่างง่ายได้ดงั นี้
a=
Y bX
SS XY
b=
SS XX
สมมุติให้สมการทานายที่หามาได้มีค่าเท่ากับ Y 354 .70 5.26 X
โดยกาหนดให้ X = ความสูง Y = น้าหนักตัวที่เพิ่มขึ้น หมายความว่า เมื่อความ
สูงเพิ่มขึ้น 1 ซม. จะทาให้น้าหนักตัวเพิ่มขึ้น 5.26 กิโลกรัม
รูปแบบสมการทานายการถดถอยอย่างง่าย
Y a bX
Y 50 0.5 X
หมายความว่าอย่างไร ?
การตัง้ สมมุติฐานของการวิเคราะห์การถดถอย
สมมุติฐาน
Ho : β = 0
HA : β ≠ 0
Tip: ปกติงานทดลองที่เกี่ยวข้องกับการวิเคราะห์การถดถอยมักจะมีลก
ั ษณะ
ของ b หรือ slope ไม่เท่ากับ 0 แต่โอกาสที่ slope จะมีค่าเป็น 0
คือ การจาลองข้อมูลขึ้นมาเพื่อทาการวิเคราะห์ (simulation data)
ตาราง ANOVA
SOV
df
SS
MS
F
Reg
Error
1
n-2
SSR
SSE
MSR
MSE
MSR/M
SE
Total
n-1
SST
SOV
df
SS
MS
Reg
Error
1
10
5,835.97
441.03
5,835.97
44.10
Total
11
6,277
F
132.33**
การอ่านผล
ให้ด ูที่ค่า F ของ Reg ถ้า FReg > 0.05 แสดงว่าปัจจัย X ไม่มีอิทธิพลต่อปัจจัย Y
หากค่า FReg < 0.05 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญทางสถิติ
หากค่า FReg < 0.01 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญยิ่งทางสถิติ
การสร ุปผลการทดลอง
การอ่านผล
ให้ด ูที่ค่า F ของ Reg ถ้า FReg > 0.05 แสดงว่าปัจจัย X ไม่มีอิทธิพลต่อปัจจัย Y
หากค่า FReg < 0.05 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญทางสถิติ
หากค่า FReg < 0.01 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญยิ่งทางสถิติ
สมมุติให้ X = เปอร์เซ็นต์ไขมันในนม และ Y = ปริมาณน้านมเป็นกิโลกรัม พบว่า FReg=0.03
แสดงว่า เปอร์เซ็นต์ไขมันในนม มีอิทธิพลต่อ ปริมาณน้านมเป็นกิโลกรัม ที่ได้
ตาราง ANOVA
SOV
df
SS
MS
F
Reg
Error
1
n-2
SSR
SSE
MSR
MSE
MSR/M
SE
Total
n-1
SST
SOV
df
SS
MS
Reg
Error
1
10
5,835.97
441.03
5,835.97
44.10
Total
11
6,277
F
132.33**
ทาไมค่า degree of freedom จึงมีค่าเท่า 1 เสมอในการวิเคราะห์การถดถอยอย่างง่าย ?
เพราะเป็นการหาอิทธิพลของปัจจัยเชิงเส้นตรง (linear) ซึ่งมีค่ากาลัง 1 เสมอ
การใช้ประโยชน์จากสมการถดถอย
1. สร้างสมการทานายอย่างง่าย Y = a + bX
2. ใช้คานวณหาค่าความคลาดเคลื่อน และช่วงความเชื่อมัน่
S e2 MSE 44.10
SEb
S e MSE 6.64
Se
SS XX
6.64
0.457
210 .92
3. ใช้คานวณหาค่า standard error of prediction และช่วง
ความเชื่อมัน่ ของค่าที่ทานาย
SE ˆ
Yi
Se
1 (X i X )2
1
n
SS XX
1 (118 113 .92 ) 2
6.64 1
10
210 .92
7.21
CI (Yˆi )
Yˆi t / 2,df Err * SEYˆi
265 .98 2.228 * 7.21
265 .98 16 .06
[249 .92 , 282 .04 ]
การเลือกสมการถดถอยที่ดีที่ส ุด
พิจารณาจากค่าสัมประสิทธิ์การตัดสินใจ (coefficient of determination, R2)
SSE
R 1
SST
2
441 .03
R 1
0.9297
6,277
2
หมายความว่า 92.97 % ความผันแปรของตัวแปร Y สามารถทานายได้ดว้ ยตัวแปร X ซึ่งมี
ความแม่นยาสูงมาก
ค่าที่ยอมรับได้คือ > 85 % ขึ้นไป
สร ุป
การวิเคราะห์การถดถอยจึงเป็ นการศึกษาหาอิทธิพลของตัวแปร 2
ตัวแปร
เพื่อดูว่าหาก X เพิ่มขึน้ 1 หน่วย Y จะเพิ่มขึน้ หรือลดลงเป็ นเท่าไร
เพื่อนาไปสร้างเป็ นสมการทานาย สาหรับทานายผลผลิตในอนาคต
เพื่อพิจารณาดูว่าตัวแปรทัง้ 2 มีความสัมพันธ์กนั หรือไม่