Regression (การถดถอย) - คณะเกษตรศาสตร์ มหาวิทยาลัยขอนแก่น

Download Report

Transcript Regression (การถดถอย) - คณะเกษตรศาสตร์ มหาวิทยาลัยขอนแก่น

การวิเคราะห์การถดถอย
Regression Analysis
โดย
วุฒิไกร บุญคุ้ม
ภาควิชาสั ตวศาสตร์ คณะเกษตรศาสตร์
มหาวิทยาลัยขอนแก่น
เราใช้ Regression ไปทาไม ?
เพื่อต้องการหาสมการความสัมพันธ์ระหว่างตัวแปร 2 ตัว เพื่อที่จะนาไปสู่
การคาดการณ์หรื อประมาณค่า…
ชนิดของการถดถอย
Simple Regression
Multiple Regression
Simple Linear Regression
ตัวอย่างของการถดถอย
ความหมายของการถดถอยอย่างง่าย
เป็นการศึกษาหาอิทธิพลของตัวแปร 2 ตัวแปร โดยตัวแปรตาม
Y มีความสัมพันธ์เชิงสถิติกบั ตัวแปรอิสระ X เพียงตัวแปรเดียว
และลักษณะความสัมพันธ์จะเป็นแบบเส้นตรง
เป็นการศึกษาเกี่ยวกับการหาฟังก์ชนั หรือร ูปแบบความสัมพันธ์
เพื่อใช้ทานายค่าของตัวแปรที่ตอ้ งการศึกษา
หมายเหต ุ: ตัวแปรทัง้ สองต้องมีลกั ษณะเป็นตัวแปรต่อเนื่อง (continuous variables) เช่น
ปริมาณน้านม, น้าหนักตัวที่เพิ่มขึ้น, ส่วนสูง
คาศัพท์ที่ควรร ้ ู
ตัวแปรที่ใช้ในการศึกษาการถดถอยมี 2 ชนิด ได้แก่
1. ตัวแปรอิสระ (Independent variable :X) คือตัวแปรที่กาหนดการ
เปลี่ยนแปลงของตัวแปรตาม
2. ตัวแปรตาม (Dependent variable :Y) คือตัวแปรที่เปลี่ยนแปลงไป
ตามผลของตัวแปนอิสระ
Tip: หากอยากรูว้ ่าตัวแปรใดเป็นตัวแปรตามให้ด ูที่ผถ้ ู าม หรือโจทย์อยากทราบอะไร เช่น
หากอยากทราบว่าน้านมของโคนมตัวนี้ควรมีกี่กิโลกรัม หมายความว่า น้านม เป็นตัวแปรตาม
วัตถ ุประสงค์ในการวิเคราะห์การถดถอย
1. เป็นการทดสอบทางสถิติว่าตัวแปร X มีอิทธิพลต่อตัวแปร Y
หรือไม่
2. หากพบว่าอิทธิพลมีนยั สาคัญทางสถิติแล้ว X มีผลต่อ Y ในระดับ
และทิศทางอย่างไร เช่น หาก X เพิ่มขึ้น 1 หน่วย Y จะเพิ่มขึ้นหรือ
ลดลงในปริมาณเท่าใด
3. ผูว้ ิจยั ต้องการสร้างสมการทานายอย่างง่ายเพื่อนาไปใช้ในประชา
กร ซึ่งอยูใ่ นร ูป Y = a+bX
ข้อมูลดิบ
Y
ค่าสังเกต
X
ร ูปกราฟของการถดถอย
Y
Regression line; Y = a + bX
X,Y
Y-intercept
b or slope
Regression coefficient
X
Simple Linear Regression
ร ูปแบบสมการทานายการถดถอยอย่างง่าย
Y  a  bX
Yˆ  a  bX
เมื่อ
Y = ตัวแปรตาม หรือลักษณะที่ตอ้ งการทานาย
a = จุดตัดบนแกน Y
b = ค่าสัมประสิทธิ์การถดถอย ค่าประมาณการเปลี่ยนแปลงของ Y เมื่อ X
เพิ่มขึ้นหรือลดลง 1 หน่วย
X = ตัวแปรอิสระ
Tip: ค่าของ a สามารถเป็นได้ทงั้ + และ a เป็น + จุดตัดบนแกน Y จะอยูเ่ หนือจุด origin
a เป็น - จุดตัดบนแกน Y จะอยูต่ ่ากว่าจุด origin
ค่าของ b สามารถเป็นได้ทงั้ + และ b เป็น + ความชันของเส้นสมการถดถอยจะเพิ่มขึ้นเมื่อ X มีค่าเพิ่มขึ้น
b เป็น - ความชันของเส้นสมการถดถอยจะลดลงเมื่อ X มีค่าเพิ่มขึ้น
Yˆ  a  bX
Y
ร ูปกราฟของการถดถอยแบบต่างๆ
Y
a=+
b=+
Yˆ  a  bX
1
a=b=+
X
0
Y
2
X
0
Y
a=+
b=-
a=b=-
3
X
0
Yˆ  a  bX
0
4
X
Yˆ  a  bX
ร ูปแบบสมการทานายการถดถอยอย่างง่าย
Y  a  bX
Yˆ  a  bX
ดังนัน้ เราสามารถหาสมการทานายอย่างง่ายได้ดงั นี้
a=
Y  bX
SS XY
b=
SS XX
สมมุติให้สมการทานายที่หามาได้มีค่าเท่ากับ Y  354 .70  5.26 X
โดยกาหนดให้ X = ความสูง Y = น้าหนักตัวที่เพิ่มขึ้น หมายความว่า เมื่อความ
สูงเพิ่มขึ้น 1 ซม. จะทาให้น้าหนักตัวเพิ่มขึ้น 5.26 กิโลกรัม
รูปแบบสมการทานายการถดถอยอย่างง่าย
Y  a  bX
Y  50  0.5 X
หมายความว่าอย่างไร ?
การตัง้ สมมุติฐานของการวิเคราะห์การถดถอย
สมมุติฐาน
Ho : β = 0
HA : β ≠ 0
Tip: ปกติงานทดลองที่เกี่ยวข้องกับการวิเคราะห์การถดถอยมักจะมีลก
ั ษณะ
ของ b หรือ slope ไม่เท่ากับ 0 แต่โอกาสที่ slope จะมีค่าเป็น 0
คือ การจาลองข้อมูลขึ้นมาเพื่อทาการวิเคราะห์ (simulation data)
ตาราง ANOVA
SOV
df
SS
MS
F
Reg
Error
1
n-2
SSR
SSE
MSR
MSE
MSR/M
SE
Total
n-1
SST
SOV
df
SS
MS
Reg
Error
1
10
5,835.97
441.03
5,835.97
44.10
Total
11
6,277
F
132.33**
การอ่านผล
ให้ด ูที่ค่า F ของ Reg ถ้า FReg > 0.05 แสดงว่าปัจจัย X ไม่มีอิทธิพลต่อปัจจัย Y
หากค่า FReg < 0.05 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญทางสถิติ
หากค่า FReg < 0.01 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญยิ่งทางสถิติ
การสร ุปผลการทดลอง
การอ่านผล
ให้ด ูที่ค่า F ของ Reg ถ้า FReg > 0.05 แสดงว่าปัจจัย X ไม่มีอิทธิพลต่อปัจจัย Y
หากค่า FReg < 0.05 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญทางสถิติ
หากค่า FReg < 0.01 แสดงว่าปัจจัย X มีอิทธิพลต่อปัจจัย Y
อย่างมีนยั สาคัญยิ่งทางสถิติ
สมมุติให้ X = เปอร์เซ็นต์ไขมันในนม และ Y = ปริมาณน้านมเป็นกิโลกรัม พบว่า FReg=0.03
แสดงว่า เปอร์เซ็นต์ไขมันในนม มีอิทธิพลต่อ ปริมาณน้านมเป็นกิโลกรัม ที่ได้
ตาราง ANOVA
SOV
df
SS
MS
F
Reg
Error
1
n-2
SSR
SSE
MSR
MSE
MSR/M
SE
Total
n-1
SST
SOV
df
SS
MS
Reg
Error
1
10
5,835.97
441.03
5,835.97
44.10
Total
11
6,277
F
132.33**
ทาไมค่า degree of freedom จึงมีค่าเท่า 1 เสมอในการวิเคราะห์การถดถอยอย่างง่าย ?
 เพราะเป็นการหาอิทธิพลของปัจจัยเชิงเส้นตรง (linear) ซึ่งมีค่ากาลัง 1 เสมอ
การใช้ประโยชน์จากสมการถดถอย
1. สร้างสมการทานายอย่างง่าย Y = a + bX
2. ใช้คานวณหาค่าความคลาดเคลื่อน และช่วงความเชื่อมัน่
S e2  MSE  44.10
SEb
S e  MSE  6.64

Se
SS XX

6.64
 0.457
210 .92
3. ใช้คานวณหาค่า standard error of prediction และช่วง
ความเชื่อมัน่ ของค่าที่ทานาย
SE ˆ
Yi
 Se
1 (X i  X )2
1 
n
SS XX
1 (118  113 .92 ) 2
 6.64 1 

10
210 .92
 7.21
CI (Yˆi )
 Yˆi  t / 2,df Err * SEYˆi
 265 .98  2.228 * 7.21
 265 .98  16 .06
 [249 .92 , 282 .04 ]
การเลือกสมการถดถอยที่ดีที่ส ุด
พิจารณาจากค่าสัมประสิทธิ์การตัดสินใจ (coefficient of determination, R2)
SSE
R  1
SST
2
441 .03
R  1
 0.9297
6,277
2
หมายความว่า 92.97 % ความผันแปรของตัวแปร Y สามารถทานายได้ดว้ ยตัวแปร X ซึ่งมี
ความแม่นยาสูงมาก
ค่าที่ยอมรับได้คือ > 85 % ขึ้นไป
สร ุป
การวิเคราะห์การถดถอยจึงเป็ นการศึกษาหาอิทธิพลของตัวแปร 2
ตัวแปร
เพื่อดูว่าหาก X เพิ่มขึน้ 1 หน่วย Y จะเพิ่มขึน้ หรือลดลงเป็ นเท่าไร
เพื่อนาไปสร้างเป็ นสมการทานาย สาหรับทานายผลผลิตในอนาคต
เพื่อพิจารณาดูว่าตัวแปรทัง้ 2 มีความสัมพันธ์กนั หรือไม่