วิธีการนำเข้าข้อมูล ไฟล์ (File)
Download
Report
Transcript วิธีการนำเข้าข้อมูล ไฟล์ (File)
แนะนำกำรทำเหมืองข้อมูล
(Data Mining)
ด้วยซอฟต์แวร์วีกำ้ (WEKA)
Part 2 : Preprocess
Agenda
วิธีการนาเข้ าข้ อมูล
การแสดงผลข้ อมูล
สถิติที่ใช้
กราฟแสดงความสั มพันธ์
การเรียกใช้ ตัวกรอง (Filter)
วิธีกำรนำเข้ำข้อมูล
ไฟล์
(File)
ARFF
อินเทอร์ เน็ต
(Internet)
ฐานข้ อมูล
(Database)
การสร้ างข้ อมูลจาลอง
(Generate Data)
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
แฟ้มข้ อมูลประเภท ARFF
ARFF = Attribute-Relation File Format
ส่ วนประกอบ
@relation name บอกชื่อตารางข้อมูลเชิงสัมพันธ์
@attribute บอกชื่อลักษณะประจาและชนิด
@data เป็ นข้อมูลแถวละหนึ่งระเบียนคัน่ ด้วยเครื่ องหมายคอมมา
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
การเตรียมแฟ้มข้ อมูลประเภท Arff
ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad
บรรทัดแรกให้ใส่ ชื่อตารางข้อมูลเชิงสัมพันธ์
@relation weather
บรรทัดต่อมาให้ใส่ แอททริ บิวท์เรี ยงตามลาดับ
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute windy {TRUE, FALSE}
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
การเตรียมแฟ้มข้ อมูลประเภท Arff
ใส่ ขอ้ มูลเรี ยงตามลาดับของแอททริ บิวท์
@data
sunny,85, FALSE
sunny,80, TRUE
overcast,83, FALSE
เซฟไฟล์เป็ นนามสกุล .arff
wether.arff
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
ตัวอย่ างแฟ้มข้ อมูลประเภท Arff
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85, FALSE
sunny,80, TRUE
overcast,83, FALSE
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
แฟ้มข้ อมูลประเภท CSV
CSV = Comma-separated values
มีขอ้ มูลเป็ นรู ปแบบของตารางฐานข้อมูล
นามาใช้ในการถ่ายโอนข้อมูลจากโปรแกรมฐานข้อมูลเป็ นสเปรดชีท
(spreadsheet)
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
การเตรียมแฟ้มข้ อมูลประเภท CSV
ใช้โปรแกรมในการสร้าง table file ใดก็ได้ เช่น excel
ใส่ หวั ข้อลงในแถวแรกของตาราง
บรรทัดต่อมาให้ใส่ ขอ้ มูลตามหัวข้อที่กาหนด
เซฟไฟล์เป็ นนามสกุล .csv
student.csv
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ตัวอย่ างแฟ้มข้ อมูลประเภท CSV
วิธีกำรนำเข้ำข้อมูล
อินเทอร์ เน็ต (Internet)
กรณี แฟ้ มข้อมูลอยูใ่ นเครื อข่ายผูใ้ ช้สามารถเรี ยกใช้โดยอาศัย URL
กดปุ่ ม
ใส่ URL ที่เก็บข้อมูลของไฟล์ที่ตอ้ งการ
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
กรณี แฟ้ มข้อมูลเก็บอยูใ่ นฐานข้อมูล
เชื่อมโยงผ่าน JDBC
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
1. คลิกปุ่ ม Open DB จะปรากฏหน้าต่าง SQL-Viwer
1
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
2. ระบุฐานข้อมูลจากนั้นคลิกปุ่ ม User เพื่อล็อคอินเข้าฐานข้อมูล
2
3
4
5
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
3. Click ที่ปุ่ม Connect เพื่อทาการเชื่อมต่อกับฐานข้อมูล
6
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการสร้างข้อมูลขึ้นเองด้วยฟั งก์ชนั Generate Data
กระบวนการ Generate
Classifiers
• Classification
• Regresstion
Cluseterers
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
1. คลิกปุ่ ม Generate จะปรากฏหน้าต่าง Data Generate
1
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
2. คลิกปุ่ ม Choose เพื่อเลือก
กระบวนการที่จะจาลองข้อมูล
3. หลังจากเลือกเสร็ จกดปุ่ ม
Generate โปรแกรมก็จะจาลอง
ข้อมูลที่เลือกขึ้นมาให้
4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit
5. สามารถบันทึกข้อมูลจาลองได้ที่
ปุ่ ม Save
3
2
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit
5. สามารถบันทึกข้อมูลจาลองได้ที่
ปุ่ ม Save
กำรแสดงผลข้อมูล
แฟ้ม weather.arff
ส่ วนประกอบทีส่ าคัญ
1. Current Relation
2. Attributes
3. Selected attributes
4. Visualize
3
1
2
4
กำรแสดงผลข้อมูล
การอ่านผลลัพธ์
• ข้อมูลที่กาลังวิเคราะห์คือ weather
• จานวนแอททริ บิวท์ที่มีท้ งั หมด 5 ตัวเรี ยงตามลาดับดังนี้
outlook, temperature, humidity, windy, play
• มีจานวนระเบียนทั้งหมด 14 ระเบียน
• สาหรับแอททริ บิวท์ outlook
–
–
–
–
เป็ นแอททริ บิวท์ประเภท Nominal
ไม่มีขอ้ มูลในระเบียนที่ขาดหายไป
มีค่าที่แตกต่างกันทั้งหมด 3 ค่า
แต่ละค่าไม่มีเพียงค่าเดียวเลย
กำรแสดงผลข้อมูล
การอ่านผลลัพธ์
• ค่าของแอทริ บิวท์ (Attribute value) คือ
– sunny มี 5 ระเบียน
– overcast มี 4 ระเบียน
– rainy มี 5 ระเบียน
กำรแสดงผลข้อมูล
แอททริบิวท์ >> temperature
กำรแสดงผลข้อมูล
แอททริบิวท์ อนื่ ๆ >> humidity
กำรแสดงผลข้อมูล
แอททริบิวท์ อนื่ ๆ >> windy
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
สถิตหิ นึ่งตัวแปร (Univariate Statistic)
• เป็ นการวิเคราะห์สถิติที่ใช้เพียงหนึ่งแอททริ บิวท์ = ตัวแปร ประกอบด้วย
– ชื่อของแอททริ บิวท์
– ชนิดของแอททริ บิวท์
• Nominal
• Numeric
– จานวนข้อมูลที่ขาดหายไปเทียบเป็ นเปอร์ เซ็นต์กบั จานวนข้อมูลทั้งหมด
– ค่าที่แตกต่างกันทั้งหมดในแอททริ บิวท์
– ค่าที่มีเพียงค่าเดียว คิดเป็ นเปอร์ เซ็นต์เทียบกับค่าทั้งหมด
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
ตัวอย่างสถิติทสี่ าคัญ
สถิตขิ องแอททริบิวท์ SEX
•
•
•
•
ชื่อแอททริ บิวท์ SEX
ชนิดของค่าของแอททริ บิวท์เป็ น Nominal
ในแอททริ บิวท์น้ ีไม่มีค่าที่หายไป
ค่าที่แตกต่างกันมีเพียงสองค่าคือ M กับ F
– ค่าที่เป็ น M มีจานวน 5 ตัว
– ค่าที่เป็ น F มีจานวน 5 ตัว
– ค่าที่ไม่ซ้ าไม่มี
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
ตัวอย่างสถิติทสี่ าคัญ
สถิตขิ องแอททริบิวท์ SCORE
•
•
•
•
•
ชื่อแอททริ บิวท์ Score
ชนิดของค่าของแอททริ บิวท์เป็ น Numeric
ในแอททริ บิวท์ไม่มีขอ้ มูลที่ขาดหายไป
จานวนค่าที่แตกต่างกันทั้งหมดมี 10 ตัว
ค่าแต่ละตัวมีเพียงหนึ่งเดียว (ไมมีค่าที่ซ้ ากันเลย)
– ค่าต่าสุ ด Minimum = 10
– ค่าสูงสุ ด Maximum = 89
– ค่าเฉลี่ยเลขคณิ ต Mean = 48.728
– ส่ วนเบี่ยงเบนมาตรฐาน StdDev = 26.585
กรำฟแสดงควำมสัมพันธ์
กราฟหนึ่งตัวแปร
กราฟแท่ง
แสดงมุมมองของแต่ละลักษณะประจา
สามารถดูได้ท้ งั หมดโดยคลิกปุ่ ม Visualize all
กรำฟแสดงควำมสัมพันธ์
กราฟสองตัวแปร
แสดงกราฟระหว่างแอททริ บิวท์สองลักษณะแถบ Visualize
เรี ยกว่า Scatter plot
แต่ละจุดแสดงระเบียนหนึ่ งระเบียน
แต่ละแกนแทนค่าของแอททริ บิวท์แต่ละค่า
สี ของจุดสื่ อแต่ละคลาสที่ปรากฎในข้อมูล
การแก้ไขกราฟสองตัวแปร
• ปรับขนาดของกราฟโดยเปลี่ยน PlotSize
• เปลี่ยนขนาดของจุด โดยเปลี่ยน PointSize
• กดปุ่ ม Update
กรำฟแสดงควำมสัมพันธ์
กราฟสองตัวแปร
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
เป็ นโมดูลที่ทาหน้าที่ระบุขอ้ มูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็ นสองลักษณะ คือ
• Supervised
– แปลงข้อมูลแบบอัตโนมัติ
– ควบคุมด้วยพารามิเตอร์ ทีผใู ้ ช้กาหนด
• Unsupervised
– แปลงข้อมูลที่ผใู ้ ช้กาหนดเอง
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
ตัวกรองแบบอัตโนมัติ (Supervised)
• แอททริ บิวท์ (Attribute)
– AttributeSelection
– ClassOrder
– Discretize
– NorminalToBinary
• ลักษณะระเบียน (Instance)
– Resample
– SpreadSubsample
– StratifiedRemoveFolds
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
ตัวกรองทีผ่ ้ ใู ช้ กาหนดเอง (Unsupervised)
• แอททริ บิวท์ (Attribute)
– Add
– Discretize (unsupervised)
– Normalize
– NumbericToBinary
• ลักษณะระเบียน (Instance)
– Randomize
– RemoveFold
– ReplaceMissing Value
– Resample
สรุป
วิธีการนาเข้าข้อมูล มี 4 วิธี
• ไฟล์
• อินเทอร์เน็ต
• ฐานข้อมูล
• การสร้างข้อมูลจาลอง
ประเภทแฟ้ มข้อมูลที่สามารถใช้ได้
• แฟ้ มข้อมูลประเภท ARFF
• แฟ้ มข้อมูลประเภท CSV
สรุป
การแสดงผลข้อมูล แสดงได้ 2 แบบ
• ข้อความ
• กราฟ
ตัวกรอง (Filter)
• ตัวกรองแบบอัตโนมัติ (Supervised)
• ตัวกรองที่ผใู ้ ช้กาหนดเอง (Unsupervised)