- ภาควิชาคณิตศาสตร์และคอมพิวเตอร์

Download Report

Transcript - ภาควิชาคณิตศาสตร์และคอมพิวเตอร์

1
บทที่ 6 สถิตเิ ชิงพรรณนา
4122608A โปรแกรมประยุกต์ ด้านวิทยาศาสตร์
อ.ชาณิภา ซ่ อนกลิ่น
2
ประเภทของสถิตทิ ่ ใี ช้ วเิ คราะห์ ข้อมูล
ในการวิเคราะห์ข้อมูลของงานวิจยั โดยส่วนใหญ่จะใช้ สถิติเป็ น
เครื่ องมือในการวิเคราะห์ ผู้วิจยั ต้ องเลือกใช้ สถิติตามวัตถุประสงค์ของงานวิจยั
ลักษณะของข้ อมูล และข้ อตกลงเบื ้องต้ นของสถิตินนๆ
ั ้ ซึง่ จะทาให้ ผลวิจยั มี
ความถูกต้ อง มีคณ
ุ ภาพและเป็ นที่น่าเชื่อถือ
3
ประเภทของสถิตทิ ่ ใี ช้ วเิ คราะห์ ข้อมูล
แบ่งเป็ น 2 ประเภท คือ
1.สถิตเิ ชิงพรรณนา(Descriptive Statistics)
คือ สถิติที่ใช้ เพื่ออธิบาย บรรยาย หรื อสรุปลักษณะของกลุ่มข้ อมูลที่
เป็ นตัวเลขที่เก็บรวบรวมมา ซึง่ จะไม่สามารถอ้ างอิงลักษณะของประชากรได้
(ยกเว้ นมีการเก็บข้ อมูลของประชากรทังหมด)
้
ตัวอย่ างสถิตเิ ชิงพรรณนา เช่ น
- การแจกแจงความถี่(Frequencies Distribution)
- การวัดค่ากลางของข้ อมูล(Measures Central Tendency)
- การวัดการกระจายของข้ อมูล(Measures of Dispersion)
4
ประเภทของสถิตทิ ่ ใี ช้ วเิ คราะห์ ข้อมูล
แบ่งเป็ น 2 ประเภท คือ
2.สถิตเิ ชิงอนุมาน(Inferential Statistics)
คือ สถิติที่ใช้ ในการวิเคราะห์ข้อมูลกลุม่ ตัวอย่างที่เป็ นตัวแทนของ
ประชากร ซึง่ สามารถนาผลการวิเคราะห์นนไปสรุ
ั้
ปอ้ างอิงถึงประชากรได้ โดย
ใช้ ทฤษฎีความน่าจะเป็ น(Probability Concepts)
ตัวอย่ างสถิตเิ ชิงอนุมาน เช่ น
- การประมาณค่า(Estimation)
- การทดสอบสมมติฐาน(Hypothesis Test)
5
สถิติเชิงพรรณนา(Descriptive Statistics)
1. การแจกแจงความถี่(Frequencies Distribution) เป็ นการจัดเรี ยงข้ อมูล
เป็ นกลุม่ (Grouping Data) เพื่อหาความถี่(หรื อจานวน) แยกตามค่าของตัว
แปรที่ต้องการจาแนก เช่น การจาแนกจานวนและร้ อยละของนักศึกษาแยก
ตามคณะ
คณะ
ครุศาสตร์
วิทยาศาสตร์
เกษตรศาสตร์
จานวน
60
8
12
ร้ อยละ
75
10
15
รวม
80
100
ความถี่(Frequencies) หมายถึง
การเกิดขึน
้ ของขอมู
้
้ ลใดขอมู
้ ลหนึ่งทีเ่ กิดขึน
ตารางแจก
แจงความถี่
แบบทาง
เดียว
6
สถิติเชิงพรรณนา(Descriptive Statistics)
1. การแจกแจงความถี่(Frequencies Distribution)
ตารางแจกแจงความถี่แบบ 2 ทาง เช่น ตารางแสดงจานวนนักศึกษา
แยกตามคณะและเพศ
ตารางแจกแจงความถี่แบบ 3 ทาง เช่น ตารางแสดงจานวนนักศึกษา
แยกตามคณะ สาขาวิชา และเพศ
7
สถิติเชิงพรรณนา(Descriptive Statistics)
1. การแจกแจงความถี่(Frequencies Distribution)
ตารางแจกแจงความถี่สะสม คือ ตารางที่แสดงผลรวมของความถี่
ของอันตรภาคชันนั
้ นกั
้ บความถี่ของอันตรภาคชันที
้ ่มีคา่ ต่ากว่าทังหมด
้
เช่น
ตารางแสดงความถี่สะสมของนักเรี ยนระดับชันมั
้ ธยมศึกษาปี ที่ 1 ถึง ปี 3
ชัน้ ปี ที่
1
2
3
ความถี่
400
350
250
ความถี่สะสม
400
750
1000
8
สถิติเชิงพรรณนา(Descriptive Statistics)
1. การแจกแจงความถี่(Frequencies Distribution)
การแจกแจงความถี่โดยใช้ กราฟหรื อแผนภูมิ จะเป็ นลักษณะการ
นาเสนอข้ อมูลที่ชดั เจนมากกว่าตารางต่างๆ ข้ างต้ นที่แสดงเป็ นตัวเลข
ตัวอย่างกราฟหรื อแผนภูมิ เช่น ฮิสโตแกรม(Histogram) กราฟเส้ นโค้ ง
ความถี่(Frequencies Curve)
9
สถิติเชิงพรรณนา(Descriptive Statistics)
1. การแจกแจงความถี่(Frequencies Distribution)
การแจกแจงความถี่ใช้ ได้ กบั ข้ อมูลเชิงปริมาณและข้ อมูลเชิงคุณภาพ
แต่จะเหมาะกับข้ อมูลเชิงคุณภาพมากกว่า ซึง่ ได้ แก่ ข้ อมูลระดับนามบัญญัติ
และข้ อมูลเรี ยงลาดับ
คาสั่งในโปรแกรม PSPP ที่ใช้ วิเคราะห์ คือ คาสัง่ Frequencies
10
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
คือ การหาค่ากลางๆ ที่เป็ นตัวเลข เพื่อใช้ เป็ นตัวแทนของข้ อมูลชุดหนึง่ ๆ ซึง่
พบว่าในการวิจยั ทัว่ ๆไป นิยมใช้ คา่ กลางในการสรุปลักษณะหรื อตัวแปรกัน
มาก สถิติที่ใช้ วดั ค่ากลางของข้ อมูล เช่น ค่าฐานนิยม(Mode) ค่ามัธยฐาน
(Median) ค่าเฉลี่ย(Mean)
11
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
2.1 ค่ าฐานนิยม(Mode) คือ ค่าข้ อมูลที่มีความถี่มากที่สดุ
สัญลักษณ์ ท่ ใี ช้ คือ Mo
2.2 ค่ ามัธยฐาน(Median) คือ ค่าของข้ อมูลที่อยู่ ณ ตาแหน่งตรงกลางของ
ชุดข้ อมูลที่มีการจัดเรี ยงลาดับจากค่ามากไปหาค่าน้ อยหรื อค่าน้ อยไปหาค่า
มากแล้ ว สัญลักษณ์ ท่ ใี ช้ คือ Md
2.3 ค่ าเฉลี่ย(Mean) หรื อค่ามัชฌิมเลขคณิต เป็ นค่าที่คานวณมาจากการนา
ค่าผลรวมของข้ อมูลทังหมดหารด้
้
วยจานวนทังหมด
้
สัญลักษณ์ ท่ ีใช้ คือ x
12
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
2.3 ค่ าเฉลี่ยประชากร
N
𝜇=
x
i 1
= x1+x2+x3 +…. xN
i
N
N
2.4 ค่ าเฉลี่ยตัวอย่ าง
n
x

X=
= x1+x2+x3 +…. xn
i 1
n
i
n
13
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
ความสัมพันธ์ ระหว่ างค่ ากลาง ฐานนิยม มัธยฐานค่ าเฉลี่ย
ขอมู
้ ลมีการแจกแจงแบบปกติ
(Normal Distribution)
Mo = Md =
ทีม
่ า http://www.sahavicha.com/?name=knowledge&file=readknowledge&id=4053
x
14
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
ความสัมพันธ์ ระหว่ างค่ ากลาง ฐานนิยม มัธยฐานค่ าเฉลี่ย
ขอมู
้ ลมีการแจกแจงแบบเบซ
้ ้าย
(Negative Skewed Distribution)
Mo > Md >
ทีม
่ า http://www.sahavicha.com/?name=knowledge&file=readknowledge&id=4053
x
15
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
ความสัมพันธ์ ระหว่ างค่ ากลาง ฐานนิยม มัธยฐานค่ าเฉลี่ย
ขอมู
้ ลมีการแจกแจงแบบเบขวา
้
(Positive Skewed Distribution)
Mo < Md <
ทีม
่ า http://www.sahavicha.com/?name=knowledge&file=readknowledge&id=4053
x
16
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
ข้ อดีและข้ อจากัดของค่ ากลาง
ค่ ากลาง
ข้ อดี
ฐานนิยม
มัธยฐาน
เหมาะกับข้ อมูลที่มีค่า
เหมาะกับข้ อมูลที่มีค่า
ผิดปกติ เช่น ค่าสูงเกินไปหรื อ ผิดปกติ เช่นเดียวกับฐาน
ต่าเกินไป
นิยม
ข้ อจากัด 1.ไม่เหมาะกับข้ อมูลที่ไม่ซ ้า ใช้ กบั ข้ อมูลเชิงปริมาณ
กัน
เท่านั ้น
2.อาจมีคาตอบได้ มากกว่า 1
คาตอบ และคาตอบอาจ
แตกต่างกันมาก
ค่ าเฉลี่ย
1.สะดวกในการคานวณแม้ เก็บ
ข้ อมูลไม่ครบ
2.ใช้ ในการเปรี ยบเทียบข้ อมูลเชิง
ปริมาณหลายๆชุด
1.เป็ นค่ากลางที่ไม่ดีถ้าข้ อมูลมีค่า
ผิดปกติ
2.ใช้ กบั ข้ อมูลเชิงปริมาณเท่านั ้น
17
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
สถิตทิ ่ ใี ช้ ในการวัดตาแหน่ งข้ อมูล
การคานวณหาค่าของข้ อมูลในตาแหน่งใดๆสามารถทาได้ โดยคานวณ
จากเปอร์ เซ็นต์ไทล์(Percentile) หรื อควอไทล์(Quartiles)
18
สถิติเชิงพรรณนา(Descriptive Statistics)
2. การวัดค่ ากลางของข้ อมูล(Measures Central Tendency)
สถิตทิ ่ ใี ช้ ในการวัดตาแหน่ งข้ อมูล
ควอไทล์ คือ ค่าของข้ อมูลที่อยูต่ าแหน่งควอไทล์ที่ต้องการ เช่น ควอไทล์ที่ 1 คือค่าของ
ข้ อมูลที่อยูต่ าแหน่งที่มีจานวนข้ อมูลที่มีคา่ น้ อยกว่าอยูร่ ้ อยละ 25 และมีจานวนค่าของ
ข้ อมูลที่มากกว่าหรื อเท่ากับอยูร่ ้ อยละ 75
โดยการคานวณจะแบ่งข้ อมูลออกเป็ น 4 ส่วนเท่าๆกัน ซึง่ ค่าควอไทล์จะมี 3 ค่า
• ควอไทล์ที่ 1 (Q1) คือ ค่าเปอร์ เซ็นต์ไทล์ที่ 25
1/4 1/4 1/4 1/4
• ควอไทล์ที่ 2 (Q2) คือ ค่าเปอร์ เซ็นต์ไทล์ที่ 50
----------------------------• ควอไทล์ที่ 3 (Q3) คือ ค่าเปอร์ เซ็นต์ไทล์ที่ 75
Q1 Q2 Q3
19
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
เป็ นการเปรี ยบเทียบข้ อมูลมากกว่า 1 กลุม่ เพื่อดูลกั ษณะของข้ อมูลว่าข้ อมูล
ภายในกลุม่ มีความแตกต่างกันมากน้ อยเพียงใดเมื่อเปรี ยบเทียบกับข้ อมูลอีก
กลุม่ หนึง่ ถ้ าข้ อมูลมีการกระจายมาก แสดงว่าข้ อมูลแต่ละตัวมีคา่ แตกต่าง
จากค่ากลางมาก ถ้ าข้ อมูลมีคา่ การกระจายน้ อยแสดงว่าข้ อมูลมีค่าแตกต่าง
จากค่ากลางน้ อย
20
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
อายุการใช้ งานจอภาพคอมพิวเตอร์ 2 ยี่ห้อ
ยีห
่ ้อที่ 1(ปี ) : 9
9 7 8 19 19 20
ยีห
่ ้อที่ 2(ปี ) : 15 14 15 11 13 11 12
คาเฉลี
ย
่ ของอายุการใช้งานทัง้ สองยีห
่ ้อเทากั
่
่ น คือ 13 ปี
พิจารณาค่ากลางของข้ อมูล(ค่าเฉลี่ย) เท่ากันแสดงว่าอายุการใช้ งานของทังสองยี
้
่ห้อไม่
แตกต่างกัน แต่ถ้าพิจารณาข้ อมูลภายในกลุม่ จะพบว่ายี่ห้อที่ 1 มีอายุการใช้ งาน
แตกต่างจากค่ากลาง(13)มากกว่า ส่วนยี่ห้อที่ 2 มีอายุการใช้ งานใกล้ เคียงกับค่ากลาง
ดังนันถ้
้ าพิจารณาการกระจายข้ อมูลควรเลือกจอภาพยี่ห้อที่ 2
21
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
ดังนันการเปรี
้
ยบเทียบข้ อมูลหลายๆชุด ควรพิจารณาทังค่
้ าเฉลี่ยและ
การกระจายของข้ อมูลควบคูก่ นั ไป ถ้ าข้ อมูลหลายๆชุดมีคา่ เฉลี่ยเท่ากัน การ
ตัดสินใจว่าข้ อมูลชุดใดดีกว่ากันก็จะพิจารณาที่คา่ การกระจายที่มีคา่ ต่าสุด
เพราะชุดที่มีคา่ การกระจายมากแสดงว่าค่ากลางไม่เป็ นตัวแทนที่ดีของข้ อมูล
ชุดนัน้
22
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
สถิตสิ าหรับการคานวณหาค่ ากระจาย
3.1 พิสยั (Range) คือ ค่าสูงสุด – ค่าต่าสุด (R = Xmax - Xmin)
3.2 พิสยั ควอไทล์(Inter-Quartile Range:IQR) คือ ความแตกต่างระหว่าง
ควอไทล์ที่3 กับ ควอไทล์ที่1 (IQR = Q3 – Q1)
3.3 ค่าความแปรปรวน(Variance) เป็ นค่าที่นิยมนามาใช้ ในการวัดการกระจาย
มากที่สดุ มาจากค่าความแตกต่างระหว่างค่าของข้ อมูลแต่ละค่ากับค่าเฉลี่ย ซึง่
ถ้ าค่าที่ได้ เป็ น 0 แสดงว่าข้ อมูลชุดนันไม่
้ มีการกระจายหรื อทุกค่ามีคา่ เท่ากับค่า
กลางนันเอง
้
23
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
สถิตสิ าหรับการคานวณหาค่ ากระจาย
3.3 ค่าความแปรปรวน(Variance)
 x 
(
x


)

 i
 xi
N
𝟐
• ค่าความแปรปรวนของประชากร 𝜎 =
=
N
N
2
2
2
i 1
N
n
• ค่าความแปรปรวนตัวอย่าง
S2
 ( xi  x )
=
2
i 1
n 1
หน่ วยของความแปรปรวน คือ หน่ วยข้ อมูลยกกาลังสอง เช่ น (ปี )2
i
24
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
สถิตสิ าหรับการคานวณหาค่ ากระจาย
3.4 ค่าส่วนเบี่ยงเบนมาตรฐาน(Standard Deviation : Std. deviation) คือ
ค่ารากที่สองของค่าความแปรปรวน
• ค่าส่วนเบี่ยงเบนมาตรฐานประชากร 𝜎 =
𝜎2
• ค่าส่วนเบี่ยงเบนมาตรฐานตัวอย่าง 𝑆 =
𝑆2
25
สถิติเชิงพรรณนา(Descriptive Statistics)
3. การวัดการกระจายของข้ อมูล(Measures of Dispersion)
สถิตสิ าหรับการคานวณหาค่ ากระจาย
3.5 ค่าคลาดเคลื่อนมาตรฐานของค่าเฉลี่ย(Standard Error of Mean :
S.E. mean) คือ ค่าที่พิจารณามาจากความแตกต่างระหว่างค่าเฉลี่ยของกลุม่
ตัวอย่างกับค่าเฉลี่ยของประชากร ( 𝜎x )
ค่ากระจายที่ได้ ไม่วา่ จะคานวณโดยวิธีใด ถ้ าที่ได้ มีคา่ มากแสดงว่าข้ อมูลมีการ
กระจายมาก หากค่าที่ได้ มีคา่ น้ อยแสดงว่าข้ อมูลมีการกระจายน้ อย
26
การวัดลักษณะของเส้ นโค้ ง
1.ความเบ้ (Skewness) เป็ นค่าที่ใช้ วดั ลักษณะของเส้ นโค้ งว่ามีความเบ้ หรื อไม่
• ไม่เบ้ คือ ค่าสัมประสิทธิ์ความเบ้ เป็ นศูนย์ แสดงว่าข้ อมูลมีความสมมาตร
• เบ้ ซ้าย คือ ค่าสัมประสิทธิ์ความเบ้ เป็ นลบ
• เบ้ ขวา คือ ค่าสัมประสิทธิ์ความเบ้ เป็ นบวก
ทีม
่ า: http://www.pertrac.com/blog/the-risk-assessment-spectrum-a-critical-tool-for-investors-pt2/
27
การวัดลักษณะของเส้ นโค้ ง
2.ความโด่ ง (Kurtosis) เป็ นค่าที่ใช้ วดั ลักษณะของเส้ นโค้ งว่ามีความโด่ง
หรื อไม่
• ค่าเป็ นศูนย์ คือ กราฟที่มีการแจกแจงปกติ
• ค่าเป็ นบวก คือ เส้ นโด่งสูงมาก
• ค่าเป็ นลบ คือ เส้ นโด่งน้ อยหรื อป้าน
ทีม
่ า: http://www.unt.edu/rss/class/Jon/ISSS_SC/Module003/isss_m3_describingdata/node6.html/
28
การวิเคราะห์ สถิติเชิงพรรณนา
1.คาสั่ง Frequencies เป็ นคาสัง่ ที่ให้ หาจานวนและร้ อยละของข้ อมูลหนึ่งกลุม่ หรื อ เป็ น
คาสัง่ ที่ใช้ สร้ างตารางแจกแจงความถี่ทางเดียวของตัวแปรที่สนใจ ใช้ ได้ ทงข้
ั ้ อมูลเชิง
ปริมาณ และข้ อมูลเชิงคุณภาพ
2.คาสั่ง Descriptive เป็ นคาสัง่ ที่ใช้ ในการหาค่าสถิติเบื ้องต้ น ซึง่ แสดงออกมาเป็ นตาราง
สถิติต่างๆ ใช้ ได้ ดีกบั ข้ อมูลเชิงปริมาณ
3. คาสั่ง Explore เป็ นคาสัง่ ที่ใช้ ในการสรุปค่าสถิติเบื ้องต้ น แยกตามตัวแปรที่สนใจ
โดยมากมักใช้ กบั ข้ อมูลเชิงปริมาณที่ต้องการจาแนกตามข้ อมูลเชิงคุณภาพ เช่น สร้ าง
ตารางสรุปค่าสถิติเบื ้องต้ นแยกตามเพศ
4. คาสั่ง Crosstabs เป็ นคาสัง่ เกี่ยวกับการสร้ างตารางแจกแจงแบบหลายทาง และ
สามารถแสดงได้ ทงค่
ั ้ าความถี่ ร้ อยละ การคานวณค่าสถิติเพื่อทดสอบสมมติฐาน เช่น สถิติ
ทดสอบไคสแคว์(Chi-square Test) เหมาะกับข้ อมูลเชิงคุณภาพ
29
แบบฝึ กหัด
จงสร้ างแฟ้มข้ อมูลดังต่อไปนี ้แล้ วตอบคาถาม
1.จงสร้ างตารางแจกแจงความถี่ของตัวแปร time
แยกตามตัวแปร group
2.หาค่าเฉลี่ยของตัวแปร timeแยกตามตัวแปรgroup
3.หาสถิตที่ใช้ วดั การกระจายมา 2 ชนิดพร้ อมทังอธิ
้ บาย
ผลลัพธ์
4.สร้ างตาราง crosstabs แสดงความถี่ ร้ อยละ
ของตัวแปร timeและ group