Data Mining คือ

Download Report

Transcript Data Mining คือ

Data Mining
การทาเหมืองข ้อมูล
Data Mining คือ
Data Mining คือขบวนการทางานที่เรี ยกว่า process ที่
สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large
Information) เพื่อให้ได้สารสนเทศ (Usefull
Information) ที่เรายังไม่รู้ (Unknown data) โดยเป็ น
สารสนเทศที่มีเหตุผล (Valid) และสามารถนาไปใช้ได้
(Actionable) ซึ่งเป็ นสิ่ งสาคัญในการที่จะช่วยการตัดสินใจในการ
ทาธุรกิจ Data Mininig เป็ นโปรเซสที่สาคัญในการทา
Knowledge Discovery in Database ที่เราเรี ยกสั้นๆ
ว่า KDD
กระบวนการทา Data Mining
1. การคัดเลือกข้อมูล (Data Selection) เป็ นการระบุถึง
แหล่งข้อมูลที่จะนามาใช้ในการทา mining รวมถึง การนาข้อมูลที่
ต้องการออกมาจากฐานข้อมูลเพื่อทาการพิจารณาในเบื้องต้นต่อไป
2. การกรองข้อมูล (Data Cleaning) เป็ นกระบวนการที่ทาให้เกิด
ความมัน่ ใจในคุณภาพของข้อมูลที่จะนามาใช้ วิเคราะห์ ว่าถูกต้อง โดย
การนาข้อมูลทีี่ไม่ถูกต้องออก
กระบวนการทา Data Mining (ต่ อ)
การแปลงรู ปแบบข้อมูล (Data Transformation) เป็ นการแปลงข้อมูลที่เลือก
มาให้อยูใ่ นรู ปแบบที่เหมาะสม สาหรับการนาไปใช้วิเคราะห์ตามอัลกอริ ทึม
(Algorithm) และแบบจาลองที่ใช้ในการทา data mining ต่อไป
4.
4. การทา Mining ข้อมูล (Data Mining) การใช้เทคนิคภายใน
Data Mining เพื่อทาการ Mine ข้อมูล โดยทัว่ ไป ประเภทของงานตาม
ลักษณะของแบบจาลองที่ใช้ในการทา Data Mining นั้นสามารถแบ่งกลุ่มได้
เป็ น 2 ประเภทใหญ่ๆ คือ
4.1 Predictive Data Mining คือ เป็ นการคาดคะเนลักษณะหรื อประมาณค่าที่
ชัดเจนของข้อมูลที่จะเกิดขึ้น โดยใช้พ้นื ฐานจากข้อมูลที่ผา่ นมาในอดีต
4.2 Descriptive Data Mining คือ เป็ นการหาแบบจาลองเพื่ออธิบายลักษณะ
บางอย่างของข้อมูลที่มีอยู่ ซึ่ งโดยส่ วนมากจะเป็ นลักษณะการแบ่งกลุ่มให้กบั
ข้อมูล
3.
กระบวนการทา Data Mining (ต่ อ)
5. การวิเคราะห์และประเมินผลลัพธ์ที่ได้ (Result Analysis and
Evaluation) เป็ นขั้นตอนการแปลความหมาย และการประเมินผล
ลัพธ์ที่ได้วา่ มีความเหมาะสมหรื อตรงกับวัตถุประสงค์ที่ตอ้ งการ
หรื อไม่ โดยทัว่ ไปควรมีการแสดงผลในรู ป แบบ ที่สามารถเข้าใจได้
โดยง่าย
กระบวนการทา Data Mining
Data Mining
1.ในบริษัทขนาดกลางถึงขนาดเล็ก ขบวนการทา data
mining โดยทัว่ ไปจะเริ่มจาการตั้งสมมุติฐานทางธุรกิจตาม
ความรู้ และความเข้ าใจของ user ทีม่ ีต่อธุรกิจ
Data
Business
hypothesis
Business modeling
(using data mining
software)
Data mining
(analysis)
Business
knowledge
2. ใช้ ระบบ data mining tools โดย user สร้ าง model
แล้วกลัน่ กรองสมมติฐาน ตามด้ วยการวิเคราะห์ ซึ่ง
ขบวนการนีอ้ าจจะต้ องมีการทาซ้าหลาย ๆ ครั้ง
3. หลังจากตรวจสอบ
แก้ไขสมมติฐานในขั้น
สุ ดท้ ายแล้ว user ก็
ตัดสิ นใจ
Validation of
Decision
hypothesis
Knowledge Discovery in Databases
Knowledge Discovery in Databases คือ การ
สื บค้ นความรู้ทเี่ ป็ นประโยชน์ และน่ าสนใจบนฐานข้ อมูลขนาดใหญ่ หรือ
เรียกว่ า Data Minig ซึ่งเป็ นสาขาหนึ่งในวิทยาศาสตร์
คอมพิวเตอร์ ทกี่ าลังได้ รับความสนใจอย่ างสู งในปัจจุบัน โดยเป็ นเทคนิค
ทีใ่ ช้ จัดการกับข้ อมูลขนาดใหญ่ ซึ่งข้ อมูลทีม่ ีอยู่จะถูกนามาวิเคราะห์ และ
สื บค้ น แล้วดึงความรู้ หรือสิ่ งทีส่ าคัญออกมา จากนั้นจะรวบรวมความรู้
ทีไ่ ด้ ให้ อยู่ในรูปฐานความรู้ (Knowledge Base) เพือ่ ใช้ ในการ
วิเคราะห์ หรือทานายสิ่ งต่ างๆทีจ่ ะเกิดขึน้ (กฤษณะ ไวยมัยและคณะ
,2544)
ตัวอย่ างการประยุกต์ ใช้ งาน
Data mining เป็ นที่นิยมในผูข้ ายปลีกเพราะสามารถช่วยพวก
เขาในการจัดการทั้งอินพุตได้อย่างมีประสิ ทธิภาพมากขึ้น ทาให้ระบบ
ทุกอย่างลงตัวที่สุด ซึ่งโดยปกติแล้วโปรเจ็ก mining ของผูข้ ายราย
ย่อยจะประกอบด้วย large-scale market-basket
analysis, store clustering, sequential patterns
และ numeric predictions
ตัวอย่างการประยุกต์ใช ้ Data Minnig
ร้ านค้ าปลีก: ผลิตภัณฑ์ ใดทีค่ วรมีอยู่ในสต๊ อกของเพือ่ สร้ างความพอใจให้ กบั ผู้ซื้อใน
ท้ องถิ่นนั้น? บริษทั ขายอุปกรณ์ รายใหญ่ จาเป็ นต้ องสต๊ อกสิ นค้ านับพันในหลายร้ อยกลุ่ม
เอาไว้ ในร้ านค้ านับพันสาขา แต่ ไอเท็มใดควรจะอยู่ในร้ านใดบ้ างยังไม่ ทรายแน่ ชัด บริษัท
ขายอุปกรณ์ รายใหญ่ นีจ้ ึงหันมาใช้ DB2 data mining ของIBM เพือ่ จัดกลุ่มร้ านค้ าให้ อยู่ใน
กลุ่มเดียวกัน โดยใช้ procedure ทีช่ ื่อว่ า “store profiling” ซึ่งกลุ่มร้ านค้ าจะสรุ ปตาม
planograms(การวางสิ นค้ า) ทีเ่ หมือนกัน และรูปแบบร้ านค้ า ผลคือเราได้ รับคาตอบทีน่ ่ า
แปลกใจมาก ผู้ขายปลีกรายหนึ่งได้ ใช้ สภาพอากาศเพือ่ จัดกลุ่มร้ านค้ า และพบว่ าสภาพ
อากาศนั้นไม่ สาคัญเมือ่ เทียบรายได้ ครัวเรือนทีป่ ระมาณไว้ สูง สาหรับลูกค้ าทีซ่ ื้อสิ่ งของที่
ร้ านค้ าเหล่ านั้น ผู้ขายปลีกอืน่ ก็มกี ารจัดประเภทโดยเริ่มแรกตามขนาดของเมืองซึ่งร้ านค้ า
นั้นตั้งอยู่ ผู้ขายปลีกพบว่ าลูกค้ าในเมืองเล็กต้ องการรายการสิ่ งของทีเ่ ป็ น high-margin ซึ่ง
เป้ าหมายทีผ่ ู้ซื้อทีม่ รี ายได้ สูง เมือ่ ร้ านขายปลีกท้ องถิ่นเสนอส่ วนใหญ่ ทรี่ ายการสิ่ งของทีเ่ ป็ น
low-margin การปฏิรูปร้ านค้ าให้ ได้ ผลกาไรทีม่ ากขึน้ นั้นเพียงพอทีใ่ ช้ จ่ายสาหรับ data
warehouse ภายในหนึ่งปี