วิธีการนำเข้าข้อมูล  ไฟล์ (File)

Download Report

Transcript วิธีการนำเข้าข้อมูล  ไฟล์ (File)

แนะนำกำรทำเหมืองข้อมูล
(Data Mining)
ด้วยซอฟต์แวร์วีกำ้ (WEKA)
Part 2 : Preprocess
Agenda
วิธีการนาเข้ าข้ อมูล
การแสดงผลข้ อมูล
สถิติที่ใช้
กราฟแสดงความสั มพันธ์
การเรียกใช้ ตัวกรอง (Filter)
วิธีกำรนำเข้ำข้อมูล
ไฟล์
(File)
ARFF
อินเทอร์ เน็ต
(Internet)
ฐานข้ อมูล
(Database)
การสร้ างข้ อมูลจาลอง
(Generate Data)
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
แฟ้มข้ อมูลประเภท ARFF
 ARFF = Attribute-Relation File Format
 ส่ วนประกอบ
@relation name บอกชื่อตารางข้อมูลเชิงสัมพันธ์
@attribute บอกชื่อลักษณะประจาและชนิด
@data เป็ นข้อมูลแถวละหนึ่งระเบียนคัน่ ด้วยเครื่ องหมายคอมมา
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
การเตรียมแฟ้มข้ อมูลประเภท Arff
 ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad
 บรรทัดแรกให้ใส่ ชื่อตารางข้อมูลเชิงสัมพันธ์
@relation weather
 บรรทัดต่อมาให้ใส่ แอททริ บิวท์เรี ยงตามลาดับ
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute windy {TRUE, FALSE}
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
การเตรียมแฟ้มข้ อมูลประเภท Arff
 ใส่ ขอ้ มูลเรี ยงตามลาดับของแอททริ บิวท์
@data
sunny,85, FALSE
sunny,80, TRUE
overcast,83, FALSE
 เซฟไฟล์เป็ นนามสกุล .arff
wether.arff
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ARFF
ตัวอย่ างแฟ้มข้ อมูลประเภท Arff
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85, FALSE
sunny,80, TRUE
overcast,83, FALSE
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
แฟ้มข้ อมูลประเภท CSV
 CSV = Comma-separated values
 มีขอ้ มูลเป็ นรู ปแบบของตารางฐานข้อมูล
 นามาใช้ในการถ่ายโอนข้อมูลจากโปรแกรมฐานข้อมูลเป็ นสเปรดชีท
(spreadsheet)
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
การเตรียมแฟ้มข้ อมูลประเภท CSV
 ใช้โปรแกรมในการสร้าง table file ใดก็ได้ เช่น excel
 ใส่ หวั ข้อลงในแถวแรกของตาราง
 บรรทัดต่อมาให้ใส่ ขอ้ มูลตามหัวข้อที่กาหนด
 เซฟไฟล์เป็ นนามสกุล .csv
student.csv
วิธีกำรนำเข้ำข้อมูล
ไฟล์ (File)
ตัวอย่ างแฟ้มข้ อมูลประเภท CSV
วิธีกำรนำเข้ำข้อมูล
อินเทอร์ เน็ต (Internet)
 กรณี แฟ้ มข้อมูลอยูใ่ นเครื อข่ายผูใ้ ช้สามารถเรี ยกใช้โดยอาศัย URL
 กดปุ่ ม
ใส่ URL ที่เก็บข้อมูลของไฟล์ที่ตอ้ งการ
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
 กรณี แฟ้ มข้อมูลเก็บอยูใ่ นฐานข้อมูล
 เชื่อมโยงผ่าน JDBC
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
1. คลิกปุ่ ม Open DB จะปรากฏหน้าต่าง SQL-Viwer
1
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
2. ระบุฐานข้อมูลจากนั้นคลิกปุ่ ม User เพื่อล็อคอินเข้าฐานข้อมูล
2
3
4
5
วิธีกำรนำเข้ำข้อมูล
ฐานข้ อมูล (Database)
การเชื่อมต่ อฐานข้ อมูล MySQL กับ WEKA
ขั้นตอนการติดต่ อฐานข้ อมูล
3. Click ที่ปุ่ม Connect เพื่อทาการเชื่อมต่อกับฐานข้อมูล
6
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
 วิธีการสร้างข้อมูลขึ้นเองด้วยฟั งก์ชนั Generate Data
 กระบวนการ Generate
 Classifiers
• Classification
• Regresstion
 Cluseterers
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
1. คลิกปุ่ ม Generate จะปรากฏหน้าต่าง Data Generate
1
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
2. คลิกปุ่ ม Choose เพื่อเลือก
กระบวนการที่จะจาลองข้อมูล
3. หลังจากเลือกเสร็ จกดปุ่ ม
Generate โปรแกรมก็จะจาลอง
ข้อมูลที่เลือกขึ้นมาให้
4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit
5. สามารถบันทึกข้อมูลจาลองได้ที่
ปุ่ ม Save
3
2
วิธีกำรนำเข้ำข้อมูล
การสร้ างข้ อมูลจาลอง (Generate Data)
วิธีการจาลองข้ อมูล
4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit
5. สามารถบันทึกข้อมูลจาลองได้ที่
ปุ่ ม Save
กำรแสดงผลข้อมูล
แฟ้ม weather.arff
ส่ วนประกอบทีส่ าคัญ
1. Current Relation
2. Attributes
3. Selected attributes
4. Visualize
3
1
2
4
กำรแสดงผลข้อมูล
การอ่านผลลัพธ์
• ข้อมูลที่กาลังวิเคราะห์คือ weather
• จานวนแอททริ บิวท์ที่มีท้ งั หมด 5 ตัวเรี ยงตามลาดับดังนี้
outlook, temperature, humidity, windy, play
• มีจานวนระเบียนทั้งหมด 14 ระเบียน
• สาหรับแอททริ บิวท์ outlook
–
–
–
–
เป็ นแอททริ บิวท์ประเภท Nominal
ไม่มีขอ้ มูลในระเบียนที่ขาดหายไป
มีค่าที่แตกต่างกันทั้งหมด 3 ค่า
แต่ละค่าไม่มีเพียงค่าเดียวเลย
กำรแสดงผลข้อมูล
การอ่านผลลัพธ์
• ค่าของแอทริ บิวท์ (Attribute value) คือ
– sunny มี 5 ระเบียน
– overcast มี 4 ระเบียน
– rainy มี 5 ระเบียน
กำรแสดงผลข้อมูล
แอททริบิวท์ >> temperature
กำรแสดงผลข้อมูล
แอททริบิวท์ อนื่ ๆ >> humidity
กำรแสดงผลข้อมูล
แอททริบิวท์ อนื่ ๆ >> windy
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
สถิตหิ นึ่งตัวแปร (Univariate Statistic)
• เป็ นการวิเคราะห์สถิติที่ใช้เพียงหนึ่งแอททริ บิวท์ = ตัวแปร ประกอบด้วย
– ชื่อของแอททริ บิวท์
– ชนิดของแอททริ บิวท์
• Nominal
• Numeric
– จานวนข้อมูลที่ขาดหายไปเทียบเป็ นเปอร์ เซ็นต์กบั จานวนข้อมูลทั้งหมด
– ค่าที่แตกต่างกันทั้งหมดในแอททริ บิวท์
– ค่าที่มีเพียงค่าเดียว คิดเป็ นเปอร์ เซ็นต์เทียบกับค่าทั้งหมด
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
ตัวอย่างสถิติทสี่ าคัญ
สถิตขิ องแอททริบิวท์ SEX
•
•
•
•
ชื่อแอททริ บิวท์ SEX
ชนิดของค่าของแอททริ บิวท์เป็ น Nominal
ในแอททริ บิวท์น้ ีไม่มีค่าที่หายไป
ค่าที่แตกต่างกันมีเพียงสองค่าคือ M กับ F
– ค่าที่เป็ น M มีจานวน 5 ตัว
– ค่าที่เป็ น F มีจานวน 5 ตัว
– ค่าที่ไม่ซ้ าไม่มี
เครือ่ งมือทำงสถิตใิ นซอฟต์แวร์ WEKA
ตัวอย่างสถิติทสี่ าคัญ
สถิตขิ องแอททริบิวท์ SCORE
•
•
•
•
•
ชื่อแอททริ บิวท์ Score
ชนิดของค่าของแอททริ บิวท์เป็ น Numeric
ในแอททริ บิวท์ไม่มีขอ้ มูลที่ขาดหายไป
จานวนค่าที่แตกต่างกันทั้งหมดมี 10 ตัว
ค่าแต่ละตัวมีเพียงหนึ่งเดียว (ไมมีค่าที่ซ้ ากันเลย)
– ค่าต่าสุ ด Minimum = 10
– ค่าสูงสุ ด Maximum = 89
– ค่าเฉลี่ยเลขคณิ ต Mean = 48.728
– ส่ วนเบี่ยงเบนมาตรฐาน StdDev = 26.585
กรำฟแสดงควำมสัมพันธ์
กราฟหนึ่งตัวแปร
 กราฟแท่ง
 แสดงมุมมองของแต่ละลักษณะประจา
 สามารถดูได้ท้ งั หมดโดยคลิกปุ่ ม Visualize all
กรำฟแสดงควำมสัมพันธ์
กราฟสองตัวแปร






แสดงกราฟระหว่างแอททริ บิวท์สองลักษณะแถบ Visualize
เรี ยกว่า Scatter plot
แต่ละจุดแสดงระเบียนหนึ่ งระเบียน
แต่ละแกนแทนค่าของแอททริ บิวท์แต่ละค่า
สี ของจุดสื่ อแต่ละคลาสที่ปรากฎในข้อมูล
การแก้ไขกราฟสองตัวแปร
• ปรับขนาดของกราฟโดยเปลี่ยน PlotSize
• เปลี่ยนขนาดของจุด โดยเปลี่ยน PointSize
• กดปุ่ ม Update
กรำฟแสดงควำมสัมพันธ์
กราฟสองตัวแปร
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
 เป็ นโมดูลที่ทาหน้าที่ระบุขอ้ มูลย่อยของระเบียนที่จะถูกแสดง
 แบ่งออกเป็ นสองลักษณะ คือ
• Supervised
– แปลงข้อมูลแบบอัตโนมัติ
– ควบคุมด้วยพารามิเตอร์ ทีผใู ้ ช้กาหนด
• Unsupervised
– แปลงข้อมูลที่ผใู ้ ช้กาหนดเอง
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
ตัวกรองแบบอัตโนมัติ (Supervised)
• แอททริ บิวท์ (Attribute)
– AttributeSelection
– ClassOrder
– Discretize
– NorminalToBinary
• ลักษณะระเบียน (Instance)
– Resample
– SpreadSubsample
– StratifiedRemoveFolds
กำรเรียกใช้ตวั กรอง (Filter)
ตัวกรอง (Filter)
ตัวกรองทีผ่ ้ ใู ช้ กาหนดเอง (Unsupervised)
• แอททริ บิวท์ (Attribute)
– Add
– Discretize (unsupervised)
– Normalize
– NumbericToBinary
• ลักษณะระเบียน (Instance)
– Randomize
– RemoveFold
– ReplaceMissing Value
– Resample
สรุป
 วิธีการนาเข้าข้อมูล มี 4 วิธี
• ไฟล์
• อินเทอร์เน็ต
• ฐานข้อมูล
• การสร้างข้อมูลจาลอง
 ประเภทแฟ้ มข้อมูลที่สามารถใช้ได้
• แฟ้ มข้อมูลประเภท ARFF
• แฟ้ มข้อมูลประเภท CSV
สรุป
 การแสดงผลข้อมูล แสดงได้ 2 แบบ
• ข้อความ
• กราฟ
 ตัวกรอง (Filter)
• ตัวกรองแบบอัตโนมัติ (Supervised)
• ตัวกรองที่ผใู ้ ช้กาหนดเอง (Unsupervised)