23 23 การแปลงลักษณะเฉพาะให้เป็นค่าไม่ต่อเนื่อง เริ่มต้นเปิด WEKA

Download Report

Transcript 23 23 การแปลงลักษณะเฉพาะให้เป็นค่าไม่ต่อเนื่อง เริ่มต้นเปิด WEKA

การใช้ ซอฟต์แวร์ WEKA
แนะนาซอฟต์แวร์ WEKA
 WEKA ย่ อมาจาก Waikato Environment for Knowledge
Analysis
 พัฒนาด้ วยภาษาจาวาทั้งหมด
 พัฒนาโดยเน้ นทางด้ าน Machine learning และ Data mining
 มีโมดูลย่ อยสาหรับจัดการข้ อมูล
 ใช้ GUI และคาสั่ งในการสั่ งให้ ซอฟต์ แวร์ ประมวลผล
 สามารถดาวน์ โหลดฟรีได้ ที่ http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html
WEKA Software
2
โปรแกรมหลักของซอฟต์แวร์ WEKA
 Explorer เป็ นโปรแกรมทีอ่ อกแบบในลักษณะ GUI
 Experimenter เป็ นโปรแกรมที่ออกแบบการทดลอง
และการทดสอบผล
 KnowledgeFlow เป็ นโปรแกรมออกแบบผังการไหล
ของความรู้
 Simple CLI (Command Line Interface) เป็ น
โปรแกรมรับคาสั่ งการทางานผ่ านการพิมพ์
WEKA Software
3
หน้าต่างหลักของ Explorer
WEKA Software
4
ส่ วนประกอบหลักของ Explorer
แถบเมนูหลัก
ปุ่ มเปิ ดแฟ้ มข้ อมูล
ปุ่ มเลือกวิธีการ
จัดการข้ อมูล
แสดงข้ อมูลของ
ลักษณะเฉพาะ
WEKA Software
5
เมนูหลักของ Explorer






Preprocess การเตรียมข้ อมูล
Classify เป็ นโมดูลการทาเหมืองข้ อมูลแบบการจาแนกประเภท (Classification)
Cluster เป็ นโมดูลการทาเหมืองข้ อมูลแบบการแบ่ งกลุ่ม (Clustering)
Associate เป็ นโมดูลการทาเหมืองข้ อมูลแบบกฎความสั มพันธ์ (Association rule)
Select attribute เป็ นโมดูลการเลือกลักษณะเฉพาะ
Visualize นาเสนอข้ อมูลด้ วยภาพนามธรรมสองมิติ
WEKA Software
6
ประเภทของแฟ้ มข้อมูลทีร่ ับได้
 แฟ้ มข้ อมูลทีร่ ับต้ องเป็ น ARFF หรือ CSV
 ในกรณีทแี่ ฟ้ มข้ อมูลอยู่ในเครือข่ ายสามารถเรียกใช้ ผ่าน URL ได้
 สามารถเรียกใช้ มูลจากฐานข้ อมูลได้ โดยเชื่อมโยงผ่ าน JDBC
WEKA Software
7
แฟ้มข้อมูลแบบ ARFF
ตัวอย่ างแฟ้ ม weather.arff
@relation weather
@attribute outlook
@attribute temperature
@attribute humidity
@attribute windy
@attribute play
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
…
14 instances
WEKA Software
{sunny, overcast, rainy}
real
real
{TRUE, FALSE}
{yes, no}
 ARFF ย่ อมาจาก Attribute-Relation File Format
 @relation name เป็ นบรรทัดที่บอกชื่ อตารางข้ อมูลเชิ ง
สัมพันธ์
 @attribute att-name type เป็ นบรรทั ด ที่ บ อกชื่ อ
ลักษณะเฉพาะและชนิด
 numeric หรือ real หมายถึงลักษณะเฉพาะที่เก็บค่าเป็ น
ตัวเลข
 {v1, v, …, vn} หมายถึงลักษณะเฉพาะที่เก็บค่ าไม่
ต่ อเนื่อง
 @data เป็ นบรรทัดที่บอกถึงแถวที่ตามมาจะเป็ นข้ อมูล โดย
แต่ ล ะแถวจะแทนหนึ่ ง ตั ว อย่ า งข้ อ มู ล ซึ่ ง เรี ย งตามค่ า ของ
ลักษณะเฉพาะที่บอกไว้ข้างต้ น
8
ตัวอย่างแฟ้ม weather.arff
WEKA Software
9
แฟ้มข้อมูลแบบ CSV
ตัวอย่ างชุดข้ อมูล Car Evaluation จาก UCI
WEKA Software
 สร้ างแฟ้มแบบ CSV ด้ ว ยโปรแกรม Microsoft
Excel
 ชุ ด ข้ อ มู ล ตั ว อย่ า งที่ ไ ด้ จ าก UCI ชื่ อ ชุ ด ข้ อ มู ล
Car Evaluation Data Set
 Attribute Information:
– Class Values: unacc, acc, good, vgood
– Attributes:
buying: vhigh, high, med, low.
maint: vhigh, high, med, low.
doors: 2, 3, 4, 5more.
persons: 2, 4, more.
lug_boot: small, med, big.
safety: low, med, high.
10
สร้ างแฟ้ มข้อมูลแบบ CSV
 เปิ ดชุดข้ อมูล Car Evaluation Data Set
WEKA Software
11
สร้ างแฟ้ มข้อมูลแบบ CSV
 จากตัวช่ วยการนาเข้ าข้ อความ เลือกแบบมี
การใช้ ตวั คัน่
 กดปุ่ ม ถัดไป >
WEKA Software
12
สร้ างแฟ้ มข้อมูลแบบ CSV
 เลือกตัวคัน่ แบบ จุลภาค (,)
 กดปุ่ ม เสร็จสิ้น
WEKA Software
13
สร้ างแฟ้ มข้อมูลแบบ CSV
 แทรกแถวที่ 1 เพือ่ ระบุชื่อ Attribute
WEKA Software
14
สร้ างแฟ้ มข้อมูลแบบ CSV
 บันทึกแฟ้ม เก็บเป็ นชนิด CSV (Comma delimited) (*.csv)
WEKA Software
15
ตัวอย่างแฟ้ ม car.csv
WEKA Software
16
การจาแนกประเภทข้อมูลใน WEKA
WEKA Software
17
การเตรียมชุดข้อมูล
 กาหนด Class ให้ กบั ชุ ดข้ อมูล (ลักษณะเฉพาะตัวสุ ดท้ าย)
 บางอัลกอริทมึ ที่ใช้ ในการจาแนกต้ องการลักษณะเฉพาะทีม่ ีค่าไม่ ต่อเนื่อง ดังนั้นจึง
ต้ องแปลงลักษณะเฉพาะทีม่ ีค่าต่ อเนื่องเป็ นลักษณะเฉพาะทีม่ ีค่าไม่ ต่อเนื่อง
WEKA Software
18
ตัวอย่างการใช้ งาน WEKA
 เริ่มต้ นเปิ ด WEKA Explorer
 เปิ ดตัวอย่ างชุ ดข้ อมูล weather.nominal.arff
(ลักษณะเฉพาะทุกตัวมีค่าไม่ ต่อเนื่องทั้งหมด)
ตัวอย่ างชุดข้ อมูล weather.nominal.arff
WEKA Software
19
-เลือกแถบ Classify
-กดปุ่ ม choose เลือก classifiers
-เลือก classifier ที่ใช้จำแนกประเภท
-เช่น เลือก trees >> Id3
WEKA Software
20
-เลือกรู ปแบบกำรทดสอบ
-เลือกลักษณะเฉพำะ Class
-กดปุ่ ม Start เพื่อเริ่ มต้น
WEKA Software
21
ผลลัพธ์ของตัวจำแนก
Confusion matrix แสดงค่ำที่ได้จำกตัว
จำแนก (ด้ำนบน) กับค่ำจริ ง (ด้ำนล่ำง)
WEKA Software
22
การแปลงลักษณะเฉพาะให้ เป็ นค่าไม่ต่อเนื่อง
 เริ่มต้ นเปิ ด WEKA Explorer
 เปิ ดตัวอย่ างชุ ดข้ อมูล weather.arff
 จะเห็นว่ าลักษณะเฉพาะ temperature และ
humidity มีค่าต่ อเนื่อง
ตัวอย่ างชุดข้ อมูล weather.nominal.arff
WEKA Software
23
-เลือก Discretize ในกล่อง Filter โดยกดปุ่ ม
Choose เลือก filters  unsupervised 
attribute
WEKA Software
24
-ปรับค่ำในกล่อง bins ให้เหมำะสม เช่น
กำหนดให้เป็ น 3
-กดปุ่ ม OK
-แล้วกด Apply
WEKA Software
25
-ผลที่ได้จำกกำรแปลงเป็ นค่ำไม่ต่อเนื่อง
WEKA Software
26
การจาแนกประเภทโดยใช้ J48
 เลือกแถบ Classify
 กดปุ่ ม choose เลือก classifiers  trees  J48
 เราไม่ จาเป็ นต้ องแปลงลักษณะเฉพาะให้ เป็ นค่ าที่
ไม่ ต่อเนื่อง
 เลือกรูปแบบการทดสอบแบบ Use training set
 กดปุ่ ม Start
 จะได้ ผลลัพธ์ ดงั รูป
WEKA Software
27
-ถ้ำใช้ J48 เรำสำมำรถแสดงรู ปของต้นไม้ได้
WEKA Software
28
การจาแนกประเภทโดยใช้ Neural Network
-เลือกแถบ Classify
-กดปุ่ ม choose เลือก classifiers
-เลือก functions --> MultilayerPerceptron
WEKA Software
29
-คลิกที่กล่อง Classifier เพื่อกำหนดค่ำ
-เลือก GUI=True เพื่อแสดงภำพ
โครงข่ำยประสำท
-เลือกจำนวน hidden node
-เลือกอัตรำกำรเรี ยนรู้
WEKA Software
30
-จำนวน hidden nodes ประมำณได้
จำก (input+output)/2
-กดปุ่ ม Start เพื่อเริ่ มสร้ำง
WEKA Software
-กดปุ่ ม Accept หลังจำกกำร
ทำงำนเสร็จ
31
แสดงผลลัพธ์ที่ได้
Confusion matrix แสดงค่ำที่ได้จำกตัว
จำแนก (ด้ำนบน) กับค่ำจริ ง (ด้ำนล่ำง)
WEKA Software
32
การแปลงลักษณะเฉพาะให้ เป็ นค่าไม่ต่อเนื่องโดยใช้ MS Excel
 จากตัวอย่ างชุ ดข้ อมูล weather.arff
 จะเห็นว่ าลักษณะเฉพาะ temperature และ
humidity มีค่าต่ อเนื่อง
WEKA Software
33
ค่าต่ อเนื่อง
ค่าไม่ ต่อเนื่อง
 แปลงลักษณะเฉพาะ temperature และ humidity ที่มีค่าต่ อเนื่องให้ เป็ นค่าที่ไม่ ต่อเนื่อง
 ลักษณะเฉพาะ temperature จะแบ่ งช่ วงดังนี้
=IF(B2>78,"hot",IF(B2<71,"cool","mild"))
 ลักษณะเฉพาะ humidity จะแบ่ งช่ วงดังนี้
=IF(C2<85,"normal","high")
 จากนั้นบันทึกเป็ น CSV
WEKA Software
34
อ้ างอิง
 WEKA. [ออนไลน์]. เข้ำถึงได้จำก : http://www.cs.waikato.ac.nz/ml/weka/ (กรกฎำคม 2554).
 กรุ ง สิ นอภิรมย์สรำญ. การวิเคราะห์ การเกาะกลุ่มในซอฟต์ แวร์ Weka. [ออนไลน์]. ภำควิชำคณิ ตศำสตร์ คณะวิทยำศำสตร์
จุฬำลงกรณ์มหำวิทยำลัย. เข้ำถึงได้จำก : http://pioneer.netserv.chula.ac.th/~skrung/csc662/. (กรกฎำคม 2554).
WEKA Software
35