23 23 การแปลงลักษณะเฉพาะให้เป็นค่าไม่ต่อเนื่อง เริ่มต้นเปิด WEKA
Download
Report
Transcript 23 23 การแปลงลักษณะเฉพาะให้เป็นค่าไม่ต่อเนื่อง เริ่มต้นเปิด WEKA
การใช้ ซอฟต์แวร์ WEKA
แนะนาซอฟต์แวร์ WEKA
WEKA ย่ อมาจาก Waikato Environment for Knowledge
Analysis
พัฒนาด้ วยภาษาจาวาทั้งหมด
พัฒนาโดยเน้ นทางด้ าน Machine learning และ Data mining
มีโมดูลย่ อยสาหรับจัดการข้ อมูล
ใช้ GUI และคาสั่ งในการสั่ งให้ ซอฟต์ แวร์ ประมวลผล
สามารถดาวน์ โหลดฟรีได้ ที่ http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html
WEKA Software
2
โปรแกรมหลักของซอฟต์แวร์ WEKA
Explorer เป็ นโปรแกรมทีอ่ อกแบบในลักษณะ GUI
Experimenter เป็ นโปรแกรมที่ออกแบบการทดลอง
และการทดสอบผล
KnowledgeFlow เป็ นโปรแกรมออกแบบผังการไหล
ของความรู้
Simple CLI (Command Line Interface) เป็ น
โปรแกรมรับคาสั่ งการทางานผ่ านการพิมพ์
WEKA Software
3
หน้าต่างหลักของ Explorer
WEKA Software
4
ส่ วนประกอบหลักของ Explorer
แถบเมนูหลัก
ปุ่ มเปิ ดแฟ้ มข้ อมูล
ปุ่ มเลือกวิธีการ
จัดการข้ อมูล
แสดงข้ อมูลของ
ลักษณะเฉพาะ
WEKA Software
5
เมนูหลักของ Explorer
Preprocess การเตรียมข้ อมูล
Classify เป็ นโมดูลการทาเหมืองข้ อมูลแบบการจาแนกประเภท (Classification)
Cluster เป็ นโมดูลการทาเหมืองข้ อมูลแบบการแบ่ งกลุ่ม (Clustering)
Associate เป็ นโมดูลการทาเหมืองข้ อมูลแบบกฎความสั มพันธ์ (Association rule)
Select attribute เป็ นโมดูลการเลือกลักษณะเฉพาะ
Visualize นาเสนอข้ อมูลด้ วยภาพนามธรรมสองมิติ
WEKA Software
6
ประเภทของแฟ้ มข้อมูลทีร่ ับได้
แฟ้ มข้ อมูลทีร่ ับต้ องเป็ น ARFF หรือ CSV
ในกรณีทแี่ ฟ้ มข้ อมูลอยู่ในเครือข่ ายสามารถเรียกใช้ ผ่าน URL ได้
สามารถเรียกใช้ มูลจากฐานข้ อมูลได้ โดยเชื่อมโยงผ่ าน JDBC
WEKA Software
7
แฟ้มข้อมูลแบบ ARFF
ตัวอย่ างแฟ้ ม weather.arff
@relation weather
@attribute outlook
@attribute temperature
@attribute humidity
@attribute windy
@attribute play
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
…
14 instances
WEKA Software
{sunny, overcast, rainy}
real
real
{TRUE, FALSE}
{yes, no}
ARFF ย่ อมาจาก Attribute-Relation File Format
@relation name เป็ นบรรทัดที่บอกชื่ อตารางข้ อมูลเชิ ง
สัมพันธ์
@attribute att-name type เป็ นบรรทั ด ที่ บ อกชื่ อ
ลักษณะเฉพาะและชนิด
numeric หรือ real หมายถึงลักษณะเฉพาะที่เก็บค่าเป็ น
ตัวเลข
{v1, v, …, vn} หมายถึงลักษณะเฉพาะที่เก็บค่ าไม่
ต่ อเนื่อง
@data เป็ นบรรทัดที่บอกถึงแถวที่ตามมาจะเป็ นข้ อมูล โดย
แต่ ล ะแถวจะแทนหนึ่ ง ตั ว อย่ า งข้ อ มู ล ซึ่ ง เรี ย งตามค่ า ของ
ลักษณะเฉพาะที่บอกไว้ข้างต้ น
8
ตัวอย่างแฟ้ม weather.arff
WEKA Software
9
แฟ้มข้อมูลแบบ CSV
ตัวอย่ างชุดข้ อมูล Car Evaluation จาก UCI
WEKA Software
สร้ างแฟ้มแบบ CSV ด้ ว ยโปรแกรม Microsoft
Excel
ชุ ด ข้ อ มู ล ตั ว อย่ า งที่ ไ ด้ จ าก UCI ชื่ อ ชุ ด ข้ อ มู ล
Car Evaluation Data Set
Attribute Information:
– Class Values: unacc, acc, good, vgood
– Attributes:
buying: vhigh, high, med, low.
maint: vhigh, high, med, low.
doors: 2, 3, 4, 5more.
persons: 2, 4, more.
lug_boot: small, med, big.
safety: low, med, high.
10
สร้ างแฟ้ มข้อมูลแบบ CSV
เปิ ดชุดข้ อมูล Car Evaluation Data Set
WEKA Software
11
สร้ างแฟ้ มข้อมูลแบบ CSV
จากตัวช่ วยการนาเข้ าข้ อความ เลือกแบบมี
การใช้ ตวั คัน่
กดปุ่ ม ถัดไป >
WEKA Software
12
สร้ างแฟ้ มข้อมูลแบบ CSV
เลือกตัวคัน่ แบบ จุลภาค (,)
กดปุ่ ม เสร็จสิ้น
WEKA Software
13
สร้ างแฟ้ มข้อมูลแบบ CSV
แทรกแถวที่ 1 เพือ่ ระบุชื่อ Attribute
WEKA Software
14
สร้ างแฟ้ มข้อมูลแบบ CSV
บันทึกแฟ้ม เก็บเป็ นชนิด CSV (Comma delimited) (*.csv)
WEKA Software
15
ตัวอย่างแฟ้ ม car.csv
WEKA Software
16
การจาแนกประเภทข้อมูลใน WEKA
WEKA Software
17
การเตรียมชุดข้อมูล
กาหนด Class ให้ กบั ชุ ดข้ อมูล (ลักษณะเฉพาะตัวสุ ดท้ าย)
บางอัลกอริทมึ ที่ใช้ ในการจาแนกต้ องการลักษณะเฉพาะทีม่ ีค่าไม่ ต่อเนื่อง ดังนั้นจึง
ต้ องแปลงลักษณะเฉพาะทีม่ ีค่าต่ อเนื่องเป็ นลักษณะเฉพาะทีม่ ีค่าไม่ ต่อเนื่อง
WEKA Software
18
ตัวอย่างการใช้ งาน WEKA
เริ่มต้ นเปิ ด WEKA Explorer
เปิ ดตัวอย่ างชุ ดข้ อมูล weather.nominal.arff
(ลักษณะเฉพาะทุกตัวมีค่าไม่ ต่อเนื่องทั้งหมด)
ตัวอย่ างชุดข้ อมูล weather.nominal.arff
WEKA Software
19
-เลือกแถบ Classify
-กดปุ่ ม choose เลือก classifiers
-เลือก classifier ที่ใช้จำแนกประเภท
-เช่น เลือก trees >> Id3
WEKA Software
20
-เลือกรู ปแบบกำรทดสอบ
-เลือกลักษณะเฉพำะ Class
-กดปุ่ ม Start เพื่อเริ่ มต้น
WEKA Software
21
ผลลัพธ์ของตัวจำแนก
Confusion matrix แสดงค่ำที่ได้จำกตัว
จำแนก (ด้ำนบน) กับค่ำจริ ง (ด้ำนล่ำง)
WEKA Software
22
การแปลงลักษณะเฉพาะให้ เป็ นค่าไม่ต่อเนื่อง
เริ่มต้ นเปิ ด WEKA Explorer
เปิ ดตัวอย่ างชุ ดข้ อมูล weather.arff
จะเห็นว่ าลักษณะเฉพาะ temperature และ
humidity มีค่าต่ อเนื่อง
ตัวอย่ างชุดข้ อมูล weather.nominal.arff
WEKA Software
23
-เลือก Discretize ในกล่อง Filter โดยกดปุ่ ม
Choose เลือก filters unsupervised
attribute
WEKA Software
24
-ปรับค่ำในกล่อง bins ให้เหมำะสม เช่น
กำหนดให้เป็ น 3
-กดปุ่ ม OK
-แล้วกด Apply
WEKA Software
25
-ผลที่ได้จำกกำรแปลงเป็ นค่ำไม่ต่อเนื่อง
WEKA Software
26
การจาแนกประเภทโดยใช้ J48
เลือกแถบ Classify
กดปุ่ ม choose เลือก classifiers trees J48
เราไม่ จาเป็ นต้ องแปลงลักษณะเฉพาะให้ เป็ นค่ าที่
ไม่ ต่อเนื่อง
เลือกรูปแบบการทดสอบแบบ Use training set
กดปุ่ ม Start
จะได้ ผลลัพธ์ ดงั รูป
WEKA Software
27
-ถ้ำใช้ J48 เรำสำมำรถแสดงรู ปของต้นไม้ได้
WEKA Software
28
การจาแนกประเภทโดยใช้ Neural Network
-เลือกแถบ Classify
-กดปุ่ ม choose เลือก classifiers
-เลือก functions --> MultilayerPerceptron
WEKA Software
29
-คลิกที่กล่อง Classifier เพื่อกำหนดค่ำ
-เลือก GUI=True เพื่อแสดงภำพ
โครงข่ำยประสำท
-เลือกจำนวน hidden node
-เลือกอัตรำกำรเรี ยนรู้
WEKA Software
30
-จำนวน hidden nodes ประมำณได้
จำก (input+output)/2
-กดปุ่ ม Start เพื่อเริ่ มสร้ำง
WEKA Software
-กดปุ่ ม Accept หลังจำกกำร
ทำงำนเสร็จ
31
แสดงผลลัพธ์ที่ได้
Confusion matrix แสดงค่ำที่ได้จำกตัว
จำแนก (ด้ำนบน) กับค่ำจริ ง (ด้ำนล่ำง)
WEKA Software
32
การแปลงลักษณะเฉพาะให้ เป็ นค่าไม่ต่อเนื่องโดยใช้ MS Excel
จากตัวอย่ างชุ ดข้ อมูล weather.arff
จะเห็นว่ าลักษณะเฉพาะ temperature และ
humidity มีค่าต่ อเนื่อง
WEKA Software
33
ค่าต่ อเนื่อง
ค่าไม่ ต่อเนื่อง
แปลงลักษณะเฉพาะ temperature และ humidity ที่มีค่าต่ อเนื่องให้ เป็ นค่าที่ไม่ ต่อเนื่อง
ลักษณะเฉพาะ temperature จะแบ่ งช่ วงดังนี้
=IF(B2>78,"hot",IF(B2<71,"cool","mild"))
ลักษณะเฉพาะ humidity จะแบ่ งช่ วงดังนี้
=IF(C2<85,"normal","high")
จากนั้นบันทึกเป็ น CSV
WEKA Software
34
อ้ างอิง
WEKA. [ออนไลน์]. เข้ำถึงได้จำก : http://www.cs.waikato.ac.nz/ml/weka/ (กรกฎำคม 2554).
กรุ ง สิ นอภิรมย์สรำญ. การวิเคราะห์ การเกาะกลุ่มในซอฟต์ แวร์ Weka. [ออนไลน์]. ภำควิชำคณิ ตศำสตร์ คณะวิทยำศำสตร์
จุฬำลงกรณ์มหำวิทยำลัย. เข้ำถึงได้จำก : http://pioneer.netserv.chula.ac.th/~skrung/csc662/. (กรกฎำคม 2554).
WEKA Software
35