บทที่ 1 ความรู้เบื้องต้นเก

Transcript บทที่ 1 ความรู้เบื้องต้นเก

1
2
ปัจจุบนั เทคโนโลยีมกี ารเปลีย่ นแปลงอย่างรวดเร็วและ
ตลอดเวลา เช่นเดียวกันกับระบบธุรกิจก็มกี ารแข่งขันกัน
ค่อนข้างรุนแรง สภาพเศรษฐกิจของประเทศไทยก็ยงั
อยู่ในภาวะวิกฤติจงึ ยังต้องการ การวิเคราะห์ การ
วางแผนและการตัดสินใจอย่างถูกต้อง รวดเร็วเพือ่
ช่วยให้ธุรกิจสามารถดาเนินไปได้ สิง่ ทีเ่ ราหลีกเลีย่ ง
ไม่ได้เลยว่าการทีอ่ งค์กรจะอยู่รอดได้นนั้ จะต้องมีการใช้
ข้อมูลสารสนเทศทีท่ นั สมัยและทันท่วงที
3
ดังนัน้ ข้อมูลจึงเป็ นปัจจัยสาคัญยิง่ ยวดต่อการ
ดาเนินการ ตัดสินใจการลงทุนทางธุรกิจและการ
วางแผน กลยุทธ์ ทางการตลาด ฉะนัน้ ก็อาจกล่าวได้
ว่าการมีขอ้ มูลมากทาให้มโี อกาสและมีชยั ชนะเหนือคู่แข่งใน
ระดับหนึง่ แต่ทว่าหากมองในทางกลับกัน การมีขอ้ มูล
จานวนมากแต่ขาดการจัดเรียงให้เป็ นระบบ การเข้าถึง
และการค้นคืนก็จะก่อให้เกิดการยุ่งยาก ธุรกิจอาจเกิด
การสูญเสียโอกาสทางธุรกิจได้
Data Collection (1960’s and earlier)
- Primitive file processing
Database management system (1970’s)
- Network and relational database management system
- Data modeling tools, query language
Advanced database management system (1980’s - present)
4
-advanced data model
-object-oriented database management system
-object relational database management system
Data warehousing & Data mining (1990’s – present)
5
หรือ คลังข้อมูล หมายถึง ศูนย์รวมของข้อมูลทีไ่ ด้รบั
การออกแบบมาเพือ่ จัดเก็บข้อมูลจานวนมาก ๆ เป็ น
ฐานข้อมูลขนาดใหญ่ ทีร่ วบรวมข้อมูลทัง้ ภายในและ
ภายนอกองค์กร โดยข้อมูลทีถ่ ูกจัดเก็บจะอยู่ในลักษณะ
ทีส่ ะดวกต่อการนาไปวิเคราะห์และมีรูปแบบวัตถุประสงค์
ของการจัดเก็บและนามาใช้งาน แตกต่างจากฐานข้อมูล
ทัว่ ไป คลังข้อมูลจะถูกนามาใช้เพือ่ สนับสนุนกระบวนการ
ตัดสินใจบริหารงานของผู บ้ ริหาร
6
1.SUBJECTORIENTED
หรือการแบ่งโครงสร้างตามเนือ้ หา หมายถึง
คลังข้อมูลถูกออกแบบมาเพือ่ มุ่งเน้นไปในแต่ละเนือ้ หาที่
สนใจ ไม่ได้เน้นไปทีก่ ารทางานหรือกระบวนการแต่ละ
อย่างโดยเฉพาะ เหมือนอย่างฐานข้อมูลปฏิบตั กิ ารในส่วน
ของรายละเอียดข้อมูลทีจ่ ดั เก็บในระบบทัง้ สองแบบก็จะ
แตกต่างกันไปตามความต้องการใช้งานด้วยเช่นกัน
7
2.INTEGRATION
หรือการรวมเป็ นหนึง่ ซึง่ ถือได้ว่าเป็ นคุณลักษณะที่
สาคัญทีส่ ุดของคลังข้อมูล คือการรวบรวมข้อมูลจาก
หลายฐานข้อมูลปฏิบตั กิ ารเข้าด้วยกัน และทาให้ขอ้ มูลมี
มาตรฐานเดียวกัน เช่นกาหนดให้มคี ่าตัวแปรของข้อมูลใน
เนือ้ หาเดียวกันให้เป็ นแบบเดียวกันทัง้ หมด
8
3.TIMEVARIANCY
หรือความสัมพันธ์ กบั เวลา หมายถึงข้อมูลใน
คลังข้อมูล จะต้องจัดเก็บโดยกาหนดช่วงเวลาเอาไว้
ประมาณ 5 – 10 ปี เพือ่ ใช้เปรียบเทียบ หาแนวโน้ม
และทานายผลลัพธ์ ในอนาคต เพราะในการตัดสินด้าน
การบริหารจาเป็ นต้องมีขอ้ มูลเปรียบเทียบในแต่ละ
ช่วงเวลา
4.NONVOLATILE
หรือความเสถียรของข้อมูล หมายถึงข้อมูลใน
คลังข้อมูลจะไม่เปลีย่ นแปลงบ่อย ไม่ว่าจะเป็ นการเพิม่ เติม
ข้อมูลใหม่ หรือการปรับปรุงแก้ไขข้อมูลเดิมทีบ่ รรจุอยู่แล้ว
ผู ใ้ ช้ทาได้เพียงการเข้าถึงข้อมูลเท่านัน้
9
1. OPERATIONAL DATABASE หรือ EXTERNAL
DATABASE LAYER
ทาหน้าทีจ่ ดั การกับข้อมูลในระบบงานปฏิบตั กิ ารหรือ
แหล่งข้อมูลภายนอกองค์กรด้วยเช่นกัน
10
11
2. INFORMATION ACCESS LAYER
เป็ นส่วนทีผ่ ู ใ้ ช้ปลายทางติดต่อผ่านโดยตรง
ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ ทีใ่ ช้ในการ
แสดงผลเพือ่ วิเคราะห์ โดยมีเครือ่ งมือช่วย เป็ นตัวกลาง
ทีผ่ ู ใ้ ช้ใช้ตดิ ต่อกับคลังข้อมูล โดยในปัจจุบนั เครือ่ งมือที่
ได้รบั ความนิยมเพิม่ ขึน้ อย่างรวดเร็วนัน้ คือ ONLINE
ANALYTICAL PROCESSING TOOL หรือ OLAP TOOL
ซึง่ เป็ นเครือ่ งมือทีม่ คี วามสามารถในการวิเคราะห์ท ี่
ซับซ้อน และแสดงข้อมูลในรูปแบบหลายมิต ิ
12
3. DATA ACCESS LAYER
เป็ นส่วนต่อประสานระหว่าง INFORMATION
ACCESS LAYER กับ OPERATIONAL LAYER
4. DATA DIRECTORY (METADATA) LAYER
เพือ่ ให้เข้าใจถึงข้อมูลได้ง่ายขึน้ และเป็ นการเพิม่
ความเร็วในการเรียกและดึงข้อมูลของคลังข้อมูล
5. PROCESS MANAGEMENT LAYER
ทาหน้าทีจ่ ดั การกระบวนการทางานทัง้ หมด
13
6. APPLICATION MESSAGING LAYER
เป็ นมิดเดิลแวร์ ทาหน้าทีใ่ นการส่งข้อมูลภายใน
องค์กรผ่านทางเครือข่าย
7. DATA WAREHOUSE (PHYSICAL) LAYER
เป็ นแหล่งเก็บข้อมูลของทัง้ ในองค์กรและนอก
องค์กรในรูปแบบทีง่ ่ายแก่การเข้าถึงและยืดหยุ่นได้
8. DATA STAGING LAYER
เป็ นกระบวนการการแก้ไข และดึงข้อมูลจาก
EXTERNAL DATABASE
14
1.INFLOW
คือการนาข้อมูลจากฐานข้อมูลอืน่ เข้าสู่คลังข้อมูลทัง้
ฐานข้อมูลภายในและภายนอกองค์กร โดยในขัน้ นีอ้ าจมี
การเปลีย่ นแปลงโรงสร้างข้อมูล การทา DEMORALIZE
การลบหรือการเพิม่ ฟิ ลด์เพือ่ ให้ขอ้ มูลทัง้ หมดอยู่ใน
เนือ้ หาทีส่ นใจเดียวกัน ในขัน้ ตอนนีเ้ ราอาจใช้เครือ่ งมือ
อย่างหนึง่ ทีเ่ รียกว่า DATA WAREHOUSE TOOLS
15
2.UPFLOW
เมือ่ ข้อมูลทีเ่ ราต้องการอยู่ในคลังข้อมูลแล้ว ใน
บางครัง้ อาจต้องมีการเพิม่ คุณค่าให้ขอ้ มูลด้วยเพือ่ ให้
ข้อมูลอยู่ในรูปแบบทีเ่ ป็ นประโยชน์มากทีส่ ุ ดต่อการนา
เครือ่ งมือมาใช้ ซึง่ ได้แก่การจัดกลุม่ ข้อมูลหาค่าทาง
สถิตทิ ซี่ บั ซ้อนจัดข้อมูลให้อยู่ในรูปแบบหรือเทมเพลต
มาตรฐาน
16
3.DOWNFLOW
เป็ นขัน้ ตอนของการปรับปรุงเปลีย่ นแปลงข้อมูล
เก่า และไม่อยู่ในเนือ้ หาทีอ่ งค์กรสนใจออกไปจาก
คลังข้อมูลขององค์กร
4.OUTFLOW
เป็ นขัน้ ตอนทีผ่ ู ใ้ ช้สามารถเรียกใช้ขอ้ มูลใน
คลังข้อมูลผ่านเครือ่ งมือต่าง ๆ โดยการเรียกใช้อาจมี
เพียงขอเรียกเป็ นครัง้ คราวเป็ นประจาทุกวัน/เดือนหรือ
แม้กระทัง่ ต้องการแบบทันที
5.METAFLOW
ข้อมูลทีจ่ ดั เก็บในคลังข้อมูลจะถูกทาข้อมูลไว้
อีกชุดหนึง่ เป็ นแหล่งทีม่ าของข้อมูลนัน้ หรือแม้กระทัง่ ที่
อยู่ของข้อมูลนัน้ ในคลังข้อมูลและข้อมูลอืน่ ทีเ่ กีย่ วข้อง
17
18
1.ช่วยเสริมสร้างความรู้ของบุคลากรในองค์กร
2.ช่วยสนับสนุนการตัดสินใจให้เกิดประสิทธิภาพ
3.สามารถเข้าถึงข้อมูลทีส่ าคัญได้อย่างสะดวกและรวดเร็ว
4.แยกฐานข้อมูลทีใ่ ช้ปฏิบตั งิ านออกจากฐานข้อมูลทีใ่ ช้
วิเคราะห์
5.ให้ขอ้ มูลสรุปในมุมมองระดับสูง
6.สามารถเจาะลึกลงไปได้
19
ในระบบคลังข้อมูล ข้อมูลทีซ่ บั ซ้อนจะถูกรวบรวม
หรือเปลีย่ นแปลงให้ง่ายต่อการจัดเก็บและสามารถเรียก
กลับมาใช้ได้อย่างรวดเร็วและถูกต้อง โดยข้อมูลต่างๆ
เหล่านีจ้ ะถูกนามาใช้สาหรับการวิเคราะห์และช่วยในเรือ่ ง
การตัดสินใจโดยอาศัยเครือ่ งมือ (TOOL) ทีอ่ ยู่ใน
เครือ่ งคอมพิวเตอร์ทเี่ ป็ นซอฟท์แวร์มาใช้ในการจัดการ
ทารายงานและ เพิม่ ประสิทธิภาพสาหรับการตัดสินใจให้
รวดเร็วยิง่ ขึน้
20
โดยผู บ้ ริหาร นักวางแผน และนักวิเคราะห์ขอ้ มูล
สามารถเรียกหาข้อมูลหรือสอบถาม (QUERY) เพือ่ ให้
ได้รบั คาตอบในรูปแบบตารางรายงาน หรือรายงาน
กราฟ เพือ่ มาทาการวิเคราะห์ขอ้ มูลด้วยตนเองเช่น
1.การเปรียบเทียบยอดขายระหว่างช่วงเวลาในอดีตกับ
ปัจจุบนั ไปจนถึงการทาพยากรณ์ยอดขาย
2.การหายอดขายสูงสุดหรือต่าสุด
3.การเปรียบเทียบยอดขาย ต้นทุน กาไร ในรูปแบบ
ตารางรายงาน หรือรายงาน กราฟ
21
1.ลักษณะการจัดการข้อมูล
ลักษณะการจัดการข้อมูลของ OPERATIONAL
DATABASE จะเป็ นลักษณะ APPLICATION ORIENTED
แต่ลกั ษณะการจัดการข้อมูลของ DATA WAREHOUSE
จะเป็ นไปตามหัวข้อเรือ่ งทีต่ ้องการ (SUBJECT
ORIENTED) โดยเราจะไม่ใส่ขอ้ มูลทัง้ หมดลงไป แต่จะมี
การวางแผนทีจ่ ะใส่ขอ้ มูลเข้าไป เพือ่ ใช้ในการตัดสินใจ
22
2.โครงสร้างข้อมูล
โครงสร้างข้อมูลของ OPERATIONAL DATABASE จะมี
ความซับซ้อน แล้วแต่เครือ่ งมือและการคานวณ แต่เป็ น
รูปแบบทีช่ ดั เจน สามารถ ประมวลผลซ้าเรือ่ งเดิมได้ใน
ขณะทีโ่ ครงสร้างข้อมูลของ DATA WAREHOUSE จะมี
โครงสร้างไม่แน่นอน ประมวลผลแบบวิเคราะห์ แต่ง่าย
และเหมาะกับองค์กร
3.เนือ้ หาและช่วงเวลา
เนือ้ หาและช่วงเวลาของ OPERATIONAL DATABASE จะ
เป็ นปัจจุบนั ส่วนเนือ้ หาและช่วงเวลา
ของ DATA WAREHOUSE จะมีทงั้ มิตขิ องอดีตและ
ปัจจุบนั
23
24
4.การปรับปรุงข้อมูล
ในการปรับปรุงข้อมูลของ OPERATIONAL DATABASE
จะเป็ นเรือ่ งๆ ไป มีจานวนน้อยและทา
เป็ นประจา แต่การปรับปรุงข้อมูลของ DATA
WAREHOUSE จะแล้วแต่สถานการณ์และความต้องการ
จะไม่มกี ารปรับปรุงข้อมูลโดยตรง
5.การเคลือ่ นไหวของข้อมูล
การเคลือ่ นไหวของข้อมูลของ OPERATIONAL
DATABASE จะเกิดขึน้ ตลอดเวลา แต่การ
เคลือ่ นไหวของข้อมูลของ DATA WAREHOUSE จะคงที่
จนกว่าจะปรับปรุงใหม่
25
6.เวลาในการทางาน
เวลาในการทางานของ OPERATIONAL DATABASE จะ
ใช้เวลาเพียงเสี้ยววินาที ถึง 2-3 วินาที
แต่เวลาในการทางานของ DATA WAREHOUSE จะไม่
แน่นอน ตัง้ แต่หลายวินาทีจนถึงนาที
26
7.ความแน่นอนในการใช้ขอ้ มูล
OPERATIONAL DATABASE จะมีความแน่นอนในการใช้
ข้อมูล ส่วน DATA WAREHOUSE จะไม่ม ี
ความแน่นอนในการใช้ขอ้ มูลจะเป็ นไปตามความต้องการ
ของผู ใ้ ช้
27
28
8.แหล่งข้อมูล
OPERATIONAL DATABASE จะใช้แหล่งข้อมูลภายใน
องค์กร แต่ DATA WAREHOUSE จะใช้
แหล่งข้อมูลทัง้ ภายในและภายนอกองค์กร
9.ขนาดของข้อมูล
OPERATIONAL DATABASE มีขนาดกิกะไบต์ ส่วน
DATA WAREHOUSE เป็ นกิกะไบต์ ถึงเทราไบต์
29
บางครัง้ การใช้งานคลังข้อมูลโดยตรงอาจทาไม่สะดวก
และเกินความจาเป็ น (สาหรับงานทีต่ ้องใช้เพียงข้อมูล
เพียงเรือ่ งเดียวหรือส่วนเดียวเท่านัน้ ) ดังนัน้ เรา
สามารถแยกข้อมูลจาก DATA WAREHOUSE ให้ตรงกับ
การทางานของแต่ละแผนกได้ หรือเรียกว่าการทา
DATA MART
เราทา DATA MARTS เพือ่ จากัดขอบเขตเฉพาะแต่
ละฟั งก์ชนั ซึง่ แต่ละองค์กรจะต้องมีการแบ่งส่วนการทา
งานออกเป็ นส่วนย่อยๆขึน้ อยู่กบั หน้าทีก่ ารทางาน
เช่น การแบ่งส่วนออกเป็ นการผลิต การเงิน,
การตลาด,การขาย,การบัญชี,การบริหารงานบุคคล
30
31
32
คือ การทาเหมืองข้อมูล หรืออาจเรียกว่า การ
ค้นหาความรู้ในฐานข้อมูล เป็ นเทคนิคเพือ่ ค้นหาข้อมูล
จานวนมหาศาลโดยอัตโนมัต ิ เพือ่ ให้ได้ขอ้ มูลทีม่ ี
ประโยชน์หรือได้ขอ้ มูลทีซ่ ่อนเร้นอยู่ในฐานข้อมูลจานวน
มาก และนาข้อมูลไปใช้เป็ นฐานความรู้เพือ่ ช่วยในการ
บริหารงาน สามารถเรียกสัน้ ๆ ว่า DM
33
1.ข้อมูลทีถ่ ูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่
เกิดประโยชน์ดงั นัน้ จึงต้องมีการสกัดสารสนเทศไปใช้
การสกัดสารสนเทศ หมายถึง การคัดเลือกข้อมูล
ออกมาใช้งานในส่วนทีเ่ ราต้องการ
2.ในอดีตเราใช้คนเป็ นผู ส้ บื ค้นข้อมูลต่าง ๆ ใน
ฐานข้อมูลซึง่ ผู ส้ บื ค้นจะทาการสร้างเงือ่ นไขขึน้ มาตามภูม ิ
ปัญญาของผู ส้ บื ค้น
34
3.ในปัจจุบนั การวิเคราะห์ขอ้ มูลจากฐานข้อมูลเดียวอาจ
ไม่ให้ความรู้เพียงพอและลึกซึ้งสาหรับการดาเนินงาน
ภายใต้ภาวะทีม่ กี ารแข่งขันสูงและมีการเปลีย่ นแปลงที่
รวดเร็วจึงจาเป็ นทีจ่ ะต้องรวบรวมฐานข้อมูลหลาย ๆ
ฐานข้อมูลเข้าด้วยกัน เรียกว่า “คลังข้อมูล” (DATA
WAREHOUSE)
ดังนัน้ เราจึงจาเป็ นต้องใช้ DATA MINING ในการ
ดึงข้อมูลจากฐานข้อมูลทีม่ ขี นาดใหญ่ เพือ่ ทีจ่ ะนาข้อมูล
นัน้ มาใช้งานให้เกิดประโยชน์สูงทีส่ ุด
35
1.จานวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและ
ขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมาย
ก็ต่อเมือ่ ฐานข้อมูลทีใ่ ช้มขี นาดใหญ่มาก ปัจจุบนั มีจานวน
และขนาดข้อมูลขนาดใหญ่ทขี่ ยายตัวอย่างรวดเร็ว โดย
ผ่านทาง INTERNET ดาวเทียม และแหล่งผลิตข้อมูล
อืน่ ๆ เช่น เครือ่ งอ่านบาร์โค้ด,เครดิตการ์ด,อี
คอมเมิร์ซ
36
2.ข้อมูลถูกจัดเก็บเพือ่ นาไปสร้างระบบการสนับสนุน
การตัดสินใจ ( DECISION SUPPORT SYSTEM) เพือ่
เป็ นการง่ายต่อการนาข้อมูลมาใช้ในการวิเคราะห์เพือ่ การ
ตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจาก
ระบบปฏิบตั กิ าร ( OPERATIONAL SYSTEM ) โดยจัด
อยู่ในรูปของคลังหรือเหมืองข้อมูล ( DATA WAREHOUSE )
ซึง่ เป็ นการง่ายต่อการนาเอาไปใช้ในการสืบค้นความรู้
37
3.ระบบ COMPUTER สมรรถนะสูงมีราคาต่าลง
เทคนิค DATA MINING ประกอบไปด้วย ALGORITHM
ทีม่ คี วามซับซ้อนและความต้องการการคานวณสู ง จึง
จาเป็ นต้องใช้งานกับระบบ COMPUTER สมรรถนะสูง
ปัจจุบนั ระบบ COMPUTER สมรรถนะสูงมีราคาต่าลง
พร้อมด้วยเริม่ มีเทคโนโลยีทนี่ าเครือ่ ง MICROCOMPUTER
จานวนมากมาเชือ่ มต่อกันโดยเครือข่ายความเร็วสูง
( PC CLUSTER ) ทาให้ได้ระบบ COMPUTER สมรรถนะ
สูงในราคาต่า
1. RELATIONAL DATABASE เป็ นฐานข้อมูลทีจ่ ดั เก็บ
อยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไป
ด้วยแถวและคอลัมน์ ความสัมพันธ์ ของข้อมูลทัง้ หมด
สามารถแสดงได้โดย ENTITY-RELATIONSHIP ( ER )
38
MODEL
2. DATA WAREHOUSES เป็ นการเก็บรวบรวมข้อมูล
จากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้
ในที่ ๆ เดียวกัน
39
3.TRANSACTIONAL DATABASE ประกอบด้วยข้อมูล
ทีแ่ ต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึง่
เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชือ่ ลูกค้าและ
รายการสินค้าทีล่ ูกค้ารายนัน้ ซื้อ เป็ นต้น
ADVANCED DATABASE เป็ นฐานข้อมูลทีจ่ ดั เก็บใน
รูปแบบอืน่ ๆ เช่น ข้อมูลแบบ OBJECT-ORIENTED ,
ข้อมูลทีเ่ ป็ น TEXT FILE,ข้อมูลมัลติมเี ดีย,ข้อมูลในรูปของ
WEB
40
1.ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ ท ี่
ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้
DATABASE MANAGEMENT SYSTEM ( DBMS )
ในการจัดการฐานข้อมูล
2.ข้อมูลทีม่ าจากหลายแหล่ง โดยอาจรวบรวมมาจาก
หลายระบบปฏิบตั กิ ารหรือหลาย DBMS เช่น ORACLE
, DB2 , MS SQL , MS ACCESS เป็ นต้น
41
3. ข้อมูลทีไ่ ม่มกี ารเปลีย่ นแปลงตลอดช่วงเวลาทีท่ าการ
MINING หากข้อมูลทีม่ อี ยู่นนั้ เป็ นข้อมูลทีเ่ ปลีย่ นแปลง
ตลอดเวลาจะต้องแก้ปญั หานีก้ ่อน โดยบันทึกฐานข้อมูล
นัน้ ไว้และนาฐานข้อมูลทีบ่ นั ทึกไว้มาทา MINING แต่
เนือ่ งจากข้อมูลนัน้ มีการเปลีย่ นแปลงอยู่ตลอดเวลา จึง
ทาให้ผลลัพธ์ ทไี่ ด้จาการทา MINING สมเหตุสมผล
ในช่วงเวลาหนึง่ เท่านัน้ ดังนัน้ เพือ่ ให้ได้ผลลัพธ์ ทมี่ คี วาม
ถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทา MINING ใหม่
ทุกครัง้ ในช่วงเวลาทีเ่ หมาะสม
42
1. BUSINESS OBJECT DETERMINATION
กาหนด ขอบเขต เป้ าหมาย ของการทา DM ซึง่
จะมีผลต่อทุกๆขัน้ ตอน โดยนักวิเคราะห์ธุรกิจ
(BUSINESS ANALYST) จะต้อง IDENTIFY ปัญหาที่
เกิดขึน้ ในการทาธุรกิจให้ครอบคลุมและชัดเจนรวมทัง้
วัตถุประสงค์ด้วย
2. DATA PREPARATION
หน้าทีข่ องขัน้ ตอนนีค้ อื จัดการข้อมูลให้สามารถ
นาเข้าสู่อลั กอริธมึ ของ DATA MINING ได้ เช่น การ
ทา DATA CLEANING, DATA INTEGRATION, DATA
REDUCTION เป็ นต้น
43
3. DATA MINING
เป็ นขัน้ ตอนการทา MINING โดยมี OPERATION
ในการทา DATA MINING หลายแบบ เช่น
DATABASE SEGMENTATION, PREDICTIVE
MODELING, LINK ANALYSIS เป็ นต้น แต่ละ DATA
MINING OPERATION จะมีอลั กอริธมึ ให้เลือกใช้
44
45
4.ANALYSIS OF RESULTS AND KNOWLEDGE
PRESENTATION
เป็ นขัน้ ตอนสุดท้ายสาหรับนักวิเคราะห์ขอ้ มูลที่
จะต้องเก็บผลลัพธ์ ของ DATA MINING สรุป
ความหมายของผลลัพธ์ ทไี่ ด้ ซึง่ จะเป็ นข้อมูลความรู้
(KNOWLEDGE) นาไปเป็ นสารสนเทศทีช่ ่วยในการ
ตัดสินใจ
46
1. ASSOCIATION RULE DISCOVERY
เป็ นเทคนิคหนึง่ ของ DATA MINING ทีส่ าคัญ และ
สามารถนาไปประยุกต์ใช้ได้จริงกับงานต่าง ๆ หลักการ
ทางานของวิธนี ้ ี คือ การค้นหาความสัมพันธ์ ของข้อมูล
จากข้อมูลขนาดใหญ่ทมี่ อี ยู่เพือ่ นาไปใช้ในการวิเคราะห์
หรือทานายปรากฏการณ์ต่าง ๆ
47
2. CLASSIFICATION & PREDICTION
2.1 CLASSIFICATION
เป็ นกระบวนการสร้าง MODEL จัดการข้อมูล
ให้อยู่ในกลุม่ ทีก่ าหนดมาให้ ตัวอย่างเช่น จัดกลุม่ นักเรียน
ว่า ดีมาก ดี ปานกลาง ไม่ด ี โดยพิจารณาจากประวัต ิ
และผลการเรียน หรือแบ่งประเภทของลูกค้าว่าเชือ่ ถือได้
หรือไม่โดยพิจารณาจากข้อมูลทีม่ อี ยู่
PREDICTION
เป็ นการทานายหาค่าทีต่ ้องการจากข้อมูลทีม่ อี ยู่
ตัวอย่างเช่น หายอดขายของเดือนถัดไปจากข้อมูลทีม่ ี
อยู่ หรือทานายโรคจากอาการของคนไข้ในอดีต เป็ นต้น
48
49
3. DATABASE CLUSTERING หรือ SEGMENTATION
เป็ นเทคนิคการลดขนาดของข้อมูลด้วยการ
รวมกลุม่ ตัวแปรทีม่ ลี กั ษณะเดียวกันไว้ด้วยกัน
ตัวอย่างเช่น บริษทั จาหน่ายรถยนต์ได้แยกกลุม่ ลูกค้า
ออกเป็ น 3 กลุม่ คือ
1.กลุม่ ผู ม้ รี ายได้สูง (>$80,000)
2.กลุม่ ผู ม้ รี ายได้ปานกลาง ($25,000 TO $ 80,000)
3.กลุม่ ผู ม้ รี ายได้ต่า (LESS THAN $25,000)
50
4. DEVIATION DETECTION
เป็ นกรรมวิธใี นการหาค่าทีแ่ ตกต่างไปจากค่า
มาตรฐาน หรือค่าทีค่ าดคิดไว้ว่าต่างไปมากน้อย
เพียงใด โดยทัว่ ไปมักใช้วธิ กี ารทางสถิต ิ หรือการแสดง
ให้เห็นภาพ (VISUALIZATION) สาหรับเทคนิคนีใ้ ช้ในการ
ตรวจสอบ ลายเซ็นปลอม หรือบัตรเครดิตปลอม
รวมทัง้ การตรวจหาจุดบกพร่องของชิน้ งานในโรงงาน
อุ ตสาหกรรม
5. LINK ANALYSIS
จุดมุ่งหมายของ LINK ANALYSIS คือ การ
สร้าง LINK ทีร่ ยี กว่า “ ASSOCIATIONS” ระหว่าง
RECODE เดียว หรือ กลุม่ ของ RECODE ในฐานข้อมูล
LINK ANALYSIS
51
52
สิง่ สาคัญทีจ่ ะต้องทาในการทา DATA MINING ก็คอื
การกาหนดข้อมูลทีเ่ หมาะสมในการ MINING ดังนัน้
DATA MINING จึงต้องการแหล่งข้อมูลทีม่ กี ารจัดเก็บ
และรวบรวมข้อมูลไว้อย่างดีและมีความมัน่ คง เหตุผล
ทีต่ ้องมี DATA WAREHOUSE ทีม่ กี ารจัดเก็บข้อมูลทีด่ ี
สาหรับเตรียมข้อมูลเพือ่ ทาการ MINING ก็คอื
1.DATA WAREHOUSE จะทาการจัดเก็บข้อมูลทีม่ คี วาม
มัน่ คงและข้อมูลทีไ่ ด้ทาความสะอาดแล้ว ซึง่ การ
จัดเตรียมและรวบรวมข้อมูลเป็ นสิง่ ทีจ่ าเป็ นสาหรับการ
MINING ทีต่ ้องการความแน่ใจในความแม่นยาของ
53
PREDICTIVE MODELS
2.DATA WAREHOUSE จะเป็ นประโยชน์สาหรับการ
MINING ข้อมูลจากแหล่งข้อมูลหลายๆแหล่งทีค่ ้นพบ
มากมายเท่าทีจ่ ะเป็ นไปได้ ซึง่ DATA WAREHOUSE จะ
บรรจุขอ้ มูลจากแหล่งข้อมูลเหล่านัน้
54
3.ในการเลือกส่วนย่อยๆของ RECORD และ FIELDS ที่
ตรงประเด็น DATA MINING จะต้องการความสามรถใน
การ QUERY ข้อมูลของ DATA WAREHOUSE
4.การศึกษาผลทีไ่ ด้จากการทา DATA MINING จะเป็ น
ประโยชน์อย่างมาก ถ้าหากมีการสืบค้นข้อมูลอย่างมี
แบบแผนต่อไปในอนาคต ซึง่ DATA WAREHOUSE จะ
เป็ นแหล่งจัดเก็บข้อมูลภายหลังไว้ให้
55
1.ธุรกิจค้าปลีกสามารถใช้งาน DATA MINING ในการ
พิจารณาหากลยุทธ์ ให้เป็ นทีส่ นใจกับผู บ้ ริโภคในรูปแบบ
ต่าง ๆ เช่น ทีว่ ่างในชัน้ วางของจะจัดการอย่างไรถึงจะ
เพิม่ ยอดขายได้ เช่นที่ MIDAS ซึง่ เป็ นผู แ้ ทนจาหน่าย
อะไหล่สาหรับอุ ตสาหกรรมรถยนต์ งานทีต่ ้องทาคือการ
จัดการกับข้อมูลทีไ่ ด้รบั จากสาขาทัง้ หมด ซึง่ จะต้องทา
การรวบรวมและวิเคราะห์
56
2.กิจการโทรคมนาคม เช่นที่ BOUYGUES TELECOM
ได้นามาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้
งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น
คาบเวลาทีใ่ ช้จุดหมายปลายทาง ความถีท่ ใี่ ช้ ฯลฯ และ
คาดการณ์ขอ้ บกพร่องทีเ่ ป็ นไปได้ในการชาระเงิน เทคนิค
นีย้ งั ได้ถูกนามาใช้กบั ลูกค้าโทรศัพท์เคลือ่ นทีซ่ งึ่ ระบบ
สามารถตรวจสอบได้ว่าทีใ่ ดทีเ่ สีย่ งทีจ่ ะสู ญเสียลูกค้าสูงใน
การแข่งขัน
57
3.การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคา
ของผลิตภัณฑ์ทงั้ หมด
4.การวิเคราะห์บตั รเครดิต
4.1 ช่วยบริษทั เครดิตการ์ดตัดสินใจในการทีจ่ ะให้
เครดิต การ์ดกับลูกค้าหรือไม่
4.2 แบ่งประเภทของลูกค้าว่ามีความเสีย่ งในเรือ่ ง
เครดิต ต่า ปานกลาง หรือสูง
4.3 ป้ องกันปัญหาเรือ่ งการทุจริตบัตรเครดิต
58
5.การวิเคราะห์ลูกค้า
ช่วยแบ่งกลุม่ และวิเคราะห์ลูกค้าเพือ่ ทีจ่ ะผลิตและเสนอ
สินค้าได้ตรงตามกลุม่ เป้ าหมายแต่ละกลุม่
ทานายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษทั ภายใน 6
เดือนหน้า
6.การวิเคราะห์การขาย
6.1 ส่งเมล์ไปยังลูกค้าเหล่านัน้ เพือ่ ทีจ่ ะเชิญชวน
หรือให้ขอ้ เสนอทีด่ ี ช่วยในการโฆษณาสินค้าได้
อย่างเหมาะสมและตรงตามเป้ าหมาย
7.E-COMMERCE
7.1 ช่วยให้เข้าใจพฤติกรรมของลูกค้า
7.2 ช่วยในการปรับปรุง WEB SITE เช่น
พิจารณาว่าส่วนใดของ WEB ทีค่ วรปรับปรุงหรือ
ควรเรียงลาดับการเชือ่ มโยงในแต่ละหน้าอย่างไร
เพือ่ ให้สะดวกกับผู เ้ ข้าเยีย่ มชม
59
60
คือ ข้อมูลสรุปทีส่ ามารถนามาช่วยในการ
ตัดสินใจหรือตอบคาถามในเชิงธุรกิจให้กบั ผู บ้ ริหารได้
ดังนัน้ ระบบ BI ทีด่ จี ะต้องสามารถนาเสนอข้อมูล
สารสนเทศในเชิงภาพรวมของธุรกิจทัง้ หมดขององค์กร
ได้ เพือ่ ทาให้ขดี ความสามารถในการวิเคราะห์ขอ้ มูล
สารสนเทศดี เนือ่ งจากสามารถวิเคราะห์และตอบคาถาม
ของทัง้ ระบบธุรกิจได้อย่างถูกต้องและมีประสิทธิภาพยิง่
ในช่วงหลายทศวรรษทีผ่ า่ นมา ได้มกี ารพัฒนา
ระบบงานต่าง ๆ ทีใ่ ช้ในองค์กร ทาให้มกี ารเก็บข้อมูลใน
ฐานข้อมูลจานวนมาก จากการศึกษาของบริษทั IBM
ระบุว่าบริษทั โดยทัว่ ไปจะใช้ขอ้ มูลเพียง ร้อยละ 2 -4
ของข้อมูลทีถ่ ูกเก็บไว้เท่านัน้
61
62
สาหรับคาว่า BUSINESS INTELLIGENCE ได้มกี ารเริม่
ใช้ตงั้ แต่กลางปี ค.ศ.1990 มีชอื่ เรียกได้หลายชือ่ เช่น
INTELLIGENCE SYSTEM, DECISION SUPPORTING
SYSTEM จากการสารวจของ GARTNER พบว่าสาเหตุ
ทีค่ นหันมาใช้ BUSINESS INTELLIGENCE กันมากขึน้
เนือ่ งจากเหตุผล 8 ประการ ดังนี้
63
1.ช่วยปรับปรุงคุณภาพในการตัดสินใจ ร้อยละ 4.36
2.ช่วยปรับปรุงความเร็วในการตัดสินใจ ร้อยละ 4.13
3.ช่วยเพิม่ รายได้องค์กร ร้อยละ 4.02
4.ช่วยพัฒนางานบริการ ร้อยละ 4.01
5.ช่วยสร้างโอกาสทางธุรกิจ ร้อยละ 3.93
6.ช่วยปรับปรุงการปฏิบตั งิ านและประสิทธิภาพของ
องค์กร ร้อยละ 3.91
7.ช่วยปรับปรุงคุณภาพของข้อมูล ร้อยละ 3.81
8.ช่วยลดต้นทุนทางธุรกิจ ร้อยละ 3.77
64
ข้อมูลพืน้ ฐานโดยทัว่ ไปแตกต่างจากองค์ความรู้ แต่
สามารถพัฒนาและเลือ่ นระดับจนกลายเป็ นองค์ความรู้ท ี่
ก่อให้เกิดผลกาไรแก่องค์กรได้ โดยผ่านกระบวนการ
ตามลาดับขัน้ ดังนี้
DATA (ข้อมูลดิบ)--> INFORMATION(สารสนเทศ)-->KNOWLEDGE (ความรู้)
INSIGHT---> PLANS ---> PROFIT
65
1.EXTRACT คือ การทาความสะอาดข้อมูล โดยการรีด
เอาข้อมูลทีไ่ ม่ถูกต้องออก จนเหลือแต่ขอ้ มูลทีถ่ ูกต้อง
ตามทีต่ ้องการ
2.TRANSFORM คือ การเปลีย่ นรูปข้อมูลให้อยู่ในรูปแบบ
ทีต่ ้องการเป็ นการเปลีย่ นแปลงลักษณะข้อมูลให้เหมาะสม
3.LOADING คือ การนาเอาข้อมูลเข้าไปไว้ในคลังข้อมูล
เพือ่ ใช้งานต่อไป โดยการ LOAD ข้อมูลเข้าไปใน DATA
WAREHOUSE
66
BI มีองค์ประกอบใน 3 ส่วน ได้แก่
1. DATA WAREHOUSE (คลังข้อมูล)
2. DATA PREPARATION/ETL
(ระบบและขัน้ ตอนในการเตรียมข้อมูลเข้าสู่ระบบ
3. ANALYSIS SOLUTIONS
(ระบบการวิเคราะห์และการแก้ไขปัญหาเชิงเงือ่ นไข)
67
1. ดาต้าแวร์เฮ้าส์
2. ดาต้ามาร์ท
3. เครือ่ งมือทีใ่ ช้ในการวิเคราะห์ขอ้ มูลในหลายมิต ิ
OLAP
4. และระบบสืบค้นและออกรายงานต่าง ๆ
68
ตามปกติหน่วยงานหรือองค์การต่างๆ ทีม่ ี
สานักงานเพียงสานักงานเดียว การออกแบบฐานข้อมูล
ก็สามารถทาได้โดยง่าย ซึง่ จะมีฐานข้อมูลส่วนกลาง
บริการแก่แผนกหรือฝ่ ายต่าง ๆ ภายในองค์การหรือ
ภายในสานักงานนัน้ ๆ ทีเ่ ป็ นลักษณะการทางานแบบรวม
ศูนย์ แต่สาหรับบางธุรกิจทีเ่ ป็ นธุรกิจขนาดใหญ่ทมี่ กี าร
ดาเนินธุรกรรมใดๆ กระจายไปตามพืน้ ที่
69
70
71
1. เรียกใช้ขอ้ มูลทีอ่ ยู่ห่างไกลออกไปบนโหนดต่าง ๆ
โดยผ่านทางเครือข่ายสือ่ สารได้
2.เลือกตัวสินใจได้ว่าควรจะเรียกข้อมูลจากทีใ่ ดมาใช้งาน
3.จัดการดูแลการเรียกดูขอ้ มูลทีต่ ่าง ๆ ได้
4.ถ้าระบบใดระบบหนึง่ มีปญั หาไม่ว่าจะด้วยสาเหตุใด เช่น
เครือ่ งมีปญั หา หรือเกิดปัญหากับสารสือ่ สาร ระบบ
จัดการฐานข้อมูลแบบกระจายจะต้องสามารถฟื้ นฟู
ฐานข้อมูลได้เอง
72
การเลือกใช้งานฐานข้อมูลแบบใดแบบหนึง่ จะขึน้ อยู่กบั
ปัจจัยหลายประการ ซึง่ ต้องทาการพิจารณาให้มคี วาม
เหมาะสมกับสภาพขององค์การ โดยปัจจัยทีท่ าให้องค์กร
ใดองค์กรหนึง่ อาจพิจารณาเลือกใช้ฐานข้อมูลแบบ
กระจาย คือ
73
1. ข้อมูลบางประเภทจะมีความเหมาะสมกับการการใช้
ฐานข้อมูลแบบกระจาย เพราะโดยธรรมชาติของข้อมูลนัน้
อยู่บนทีต่ ่าง ๆ กันอยู่แล้ว เช่น บริษทั ทีม่ สี าขาอยู่ใน
จังหวัดต่าง ๆ หรือธนาคารทีม่ หี ลาย ๆ สาขา และแต่ละ
สาขาอยู่คนละแห่งในทีไ่ กลกันออกไปบริษทั หรือธนาคาร
ดังกล่าวอาจต้องการเก็บข้อมูลของแต่ละสาขาไว้ทสี่ าขา
นัน้ เนือ่ งจากงานการเรียกใช้ขอ้ มูลส่วนมากจะเกิดขึน้ โดย
พนักงาน หรือลูกค้าทีส่ าขานัน้ ๆ
74
2. เพือ่ เพิม่ ความเชือ่ ถือได้ของข้อมูลและความมี
ประโยชน์ของข้อมูล เพราะการเรียกใช้ขอ้ มูลจะได้ขอ้ มูลที่
ทันสมัยและถูกต้องอยู่เสมอ ไม่ว่าข้อมูลนัน้ จะจัดเก็บอยู่ใน
ทีใ่ ด ๆ ก็ตาม และหากเครือ่ งคอมพิวเตอร์หรือระบบ
จัดการฐานข้อมูลในโหนดอืน่ จะยังคงใช้งานได้เหมือนเกิด
แต่ถา้ ใช้ระบบฐานข้อมูลศูนย์กลางแล้ว หารเครือ่ งที่
ศูนย์กลางเกิดปัญหา ก็จะทาให้ไม่สามาระเรียกดูขอ้ มูลได้
ทัง้ ระบบ
75
3.ทาให้สามารถใช้ขอ้ มูลร่วมกัน ในขณะทีก่ ารดูแลข้อมูล
นัน้ แยกจากกันในแต่ละโหนด
4.เพิม่ ประสิทธิภาพในการทางาน เนือ่ งจากการกระจาย
ฐานข้อมูลทีม่ ขี นาดใหญ่ไปในหลาย ๆ แห่ง ทาให้การ
เรียกใช้ขอ้ มูลของแต่ละแห่งสามารถทาได้เร็วขึน้ เพราะ
ข้อมูลได้ถูกแบ่งออกเป็ นส่วน ๆ นอกจากนี้ การประมวล
ของแต่ละโหนดก็จะอิสระจากกัน ทาให้สามารถทาการ
ประมวลผลพร้อม ๆ กันได้
76
ข้อดี
1. การทางานเป็ นไปแบบอิสระต่อกัน
2. หากข้อมูลของส่วนงานอืน่ เสียหายก็ไม่ส่งผลกระทบ
กับส่วนงาน
3. มีความเชือ่ ถือสูง
4. มีประสิทธิภาพสูง
77
ข้อดี
5. ประหยัดค่าใช้จา่ ยเมือ่ เทียบกับเครือ่ งคอมพิวเตอร์
ระดับใหญ่
6.ง่ายต่อการขยาย กล่าวคือเหมาะสาหรับหน่วยงานทีม่ ี
แนวโน้มการเจริญเติบโตอยู่ตลอดเวลาเช่น การเพิม่ ไซต์
หรือสาขา ซึง่ รองรับต่อการขยายระบบในอนาคต
78
ข้อเสีย
1. มีความสลับซับซ้อนกว่าแบบรวมศูนย์
2. มีค่าใช้จา่ ยเกีย่ วกับการบารุงรักษาสู ง
3. สูญเสียการควบคุมความปลอดภัย
4. การควบคุมความถูกต้องในข้อมูลค่อนข้างยาก
5. ยังไม่มหี ลักการหรือมาตรฐานการจัดการทีแ่ น่นอน
และชัดเจน
6. ขาดแคลนผู เ้ ชีย่ วชาญหรือผู ท้ มี่ ปี ระสบการณ์การ
ออกแบบฐานข้อมูลมีความซับซ้อน สูง
79
ข้อดี
1. การทางานเป็ นไปแบบอิสระต่อกัน
2. หากข้อมูลของส่วนงานอืน่ เสียหายก็ไม่ส่งผลกระทบ
กับส่วนงาน
3. มีความเชือ่ ถือสูง
4. มีประสิทธิภาพสูง
5. ประหยัดค่าใช้จา่ ย
6. ง่ายต่อการขยายระบบในอนาคต
80
ข้อเสีย
1. มีความสลับซับซ้อนกว่าแบบรวมศูนย์
2. เนือ่ งจากระบบมีความซับซ้อนจึงมีค่าใช้จา่ ย
เกีย่ วกับการบารุงรักษาสูง
3. สูญเสียการควบคุมความปลอดภัยเมือ่ เทียบกับ
แบบรวมศูนย์ซงึ่ ควบคุมง่ายกว่า รวมทัง้
ความสามารถในการนาข้อมูลจากสาขาอืน่ ๆ มาใช้งาน
ได้ง่าย
81
ข้อเสีย
4. การควบคุมความถูกต้องตรงกันในข้อมูลเป็ นไปได้
ค่อนข้างยาก
5. ยังไม่มหี ลักการหรือมาตรฐานการจัดการทีแ่ น่นอน
และชัดเจน
6. ขาดแคลนผู เ้ ชีย่ วชาญหรือผู ท้ มี่ ปี ระสบการณ์การ
ออกแบบฐานข้อมูลมีความซับซ้อน สูง
82
คือ กระบวนการวิเคราะห์เชือ่ มโยง ซึง่ มีแนวคิดหลัก
(CONCEPT) คือ
FAST คือ มีความรวดเร็วในการใช้งาน
ANALYZE คือ มีการวิเคราะห์
SHARE คือ การใช้ร่วมกัน
MULTI-DIMENSIONAL คือ มีหลายมิต ิ
INFORMATION คือ จัดการกับข้อมูลทีใ่ ช้ในการตัดสินใจ
1. เชิงอธิบาย (DESCRIPTIVE) ได้แก่ ปี เดือน เพศ รัฐ
2. เชิงตัวเลข (QUANTITATIVE) ได้แก่ การเก็บตัวเลข
เพือ่ การวัด (MEASUREMENT)
83
84
เป็ นเทคโนโลยีทปี่ ระกอบด้วย เครือ่ งมือทีช่ ่วยดึง และ
นาเสนอข้อมูล ในหลายมิต ิ (MULTIDIMENSIONAL)
จากหลาย ๆ มุมมอง โดยที่ OLAP ได้รบั การออกแบบ
มาสาหรับผู ใ้ ช้ในระดับของผู บ้ ริหารหรือหน่วยงานใน
องค์กร ทีต่ ้องวิเคราะห์ขอ้ มูลเพือ่ ใช้ประกอบการ
ตัดสินใจในระดับสูงความสามารถค้นคืนและวิเคราะห์
ข้อมูลตามความต้องการของผู ใ้ ช้ได้อย่างรวดเร็ว
85
OPEN DATABASE CONNECTIVITY (ODBC) เป็ น
วิธกี ารเชือ่ มต่อหรือติดต่อระหว่างฐานข้อมูลภายนอก
สามารถจัดการกับข้อมูลทัง้ นาข้อมูลเข้าจัดเก็บ นาข้อมูล
ออกมาใช้และการเชือ่ มโยงระหว่างฐานข้อมูลหรือ
โปรแกรมบางโปรแกรมทีส่ ามารถเชือ่ มโยงได้
ปัจจุบนั มีวธิ กี ารติดต่อฐานข้อมูลด้วยกัน 3 วิธี
1. ODBC 2. DSNLESS 3. OLEDB
86
เรียงตามลาดับเก่าไปใหม่ ว่ากันว่าทีด่ ที สี่ ุดคือ OLEDB แบบ
DSNLESS ก็อยู่ในเกณฑ์ทดี่ แี ต่ แบบ ODBC จะเป็ นแบบเก่าและช้าสุด
87
DSN หรือ DATA SOURCE NAME คือการกาหนด
ชือ่ ให้กบั ODBC (OPEN DATABASE CONNECTIVITY) ว่าเราจะ
ติดต่อกับแฟ้มข้อมูลผ่านทางชือ่ DSN ซึง่ จะเป็ นเรือ่ ง
ของการติดต่อแฟ้มข้อมูลด้วยวิธี ODBC (การ SET
ODBC จะต้องกาหนดชือ่ DSN กาหนดชนิด DRIVER
ว่าเป็ นอะไร) ทีต่ ้องใช้ DSNLESS ก็เพราะ เราจะตัด
ขัน้ ตอนการเข้าไป SET UP ODBC
88
OLEDB จะมีโพรไวเดอร์ (PROVIDER) ทาหน้าทีค่ ล้าย
กับไดร์เวอร์ในระบบการติดต่อฐานข้อมูล แบบ DNS และ
DNSLESS แต่โพรไวเดอร์จะมีลกั ษณะพิเศษกว่า คือมี
การติดต่อกับฐานข้อมูลทีเ่ ร็วกว่าและรองรับการใช้
ฐานข้อมูลแบบสัมพันธ์ (RELATIONAL DATABASE)
89
ฐานข้อมูลชนิดนีเ้ ป็ นฐานข้อมูลทีใ่ ช้อยู่ทุกวันนี้ และมี
การใช้งานทีห่ ลากหลายมากทีส่ ุดในปัจจุบนั RELATIONAL
DATABASE MANAGEMENT SYSTEMS หรือ RDBMS
นัน้ ถูกสร้างขึน้ โดย EDGAR F.CODD ในขณะทีเ่ ขา
ทางานอยู่ท ี่ IBM ในปี 1970 ซึง่ เขาได้ทาการร่าง
ต้นแบบและต่อมามันถูกพัฒนาขึน้ ที่ IBM
90
RELATIONAL MODEL นัน้ ถูกสร้างขึน้ บนฐานของ
โครงสร้างฐานข้อมูล ซึง่ ฐานข้อมูลคือกลุ่มของข้อมูล
ดิบทีม่ คี วามสัมพันธ์ กนั ด้วย COLUMN และ ROW
โดย COLUMN นัน้ จะแสดงถึง ATTRIBUTE ของ
ความสัมพันธ์ ขณะที่ ROW แสดงถึงค่าของ ENTITY
ในระบบฐานข้อมูลแบบ RDBMS นัน้
1. ข้อมูลทุกอย่างจะต้องอยู่ในรูปของตารางซึง่ ข้อมูลนัน้
จะถูกอธิบายด้วยค่าของข้อมูลที่ บรรจุอยู่ในตาราง
2. ข้อมูลทีอ่ ยู่ในตารางจะต้องไม่มคี วามซ้าซ้อน
3. การใช้ STANDARD QUERY LANGUAGE (SQL)
91
ข้อดีของระบบ RDBMS
คือ ระบบทีไ่ ด้มคี วามง่ายและความยืดหยุ่นและมี
ผลผลิตทีด่ เี พราะว่าตารางนัน้ เป็ นอะไรทีง่ ่ายแก่ความ
เข้าใจ ส่วนข้อมูลทีอ่ ยู่ในตารางก็ง่ายต่อการสร้าง
ความสัมพันธ์ กบั ข้อมูลอืน่
92
93
ข้อเสียของระบบ RDBMS
คือ ไม่มกี ารสนับสนุนการจัดเก็บข้อมูลประเภท
มัลติมเี ดีย เพราะการออกแบบมาเพือ่ เก็บข้อมูล
ตัวอักษรเป็ นหลัก ในเรือ่ งของภาษาทางานกับภาษา
OBJECT ORIENTED ได้ไม่ดเี ท่าทีค่ วรเพราะภาษาเหล่านี้
ถูกสร้างขึน้ หลังจากการสร้าง RDBMS และสุดท้าย
ข้อมูลจะต้องถูกจัดเก็บในตารางเท่านัน้ ซึง่ เป็ น
ข้อกาหนด
เพือ่ กาจัดข้อจากัดของระบบ RDBMS และเพือ่
สนับสนุนการเก็บข้อมูลแบบใหม่จงึ มีแนวคิดการออกแบบ
OBJECT-ORIENTED DATABASE MANAGEMENT SYSTEMS(OODBMS)
94
ขึน้ มาในทศวรรษที่ 1980 ทัง้ นีโ้ ดยคานึงถึงหลักการ
เสถียรของข้อมูล ความปลอดภัยและความเป็ นอิสระของ
ข้อมูล โดยมีเป้ าหมายเพือ่ เก็บข้อมูลทีซ่ ้าซ้อนและใหญ่
ซึง่ RDBMS ไม่สามารถทาได้
95
สาหรับคุณสมบัตพิ เิ ศษทีเ่ กิดขึน้ ในระบบ OODBMS
นัน้ ก็คอื การผนวกระหว่าง OBJECT ORIENTED
PROGRAMMING และระบบฐานข้อมูลเข้าด้วยกันซึง่
ผลลัพธ์ คอื การผนวกและการทางานร่วมกันของ การ
พัฒนา APPLICATIONระบบฐานข้อมูลแบบนีม้ ี
คุณสมบัตขิ อง OBJECT-ORIENTED สาคัญอยู่ 4
ประการ
96
1. INHERITANCES ซึง่ เป็ นคุณสมบัตใิ นการพัฒนาที่
เกิดจากการต่อยอดหรือการนา OBJECT เดิมมาใช้
2. DATA ENCAPSULATION คุณสมบัตใิ นการซ่อน
ภายในสถานะ OBJECT ซึง่ OBJECT ถูกทาการ
ENCAPSULATION จะสามารถเข้าถึงได้โดยการใช้งาน
METHOD ซึง่ สาหรับ OBJECT ทีถ่ ูกทาการนัน้ มีอยู่
3 ประเภท
1. FULL ENCAPSULATION ซึง่ หมายถึงการกระทา
ใด ๆ โดยการส่ง MESSAGE ไปยัง OBJECT
2. WRITE ENCAPSULATION ซึง่ อนุญาตให้มกี าร
อ่านเท่านัน้
3. PARTIAL ENCAPSULATION ซึง่ อนุญาตให้มกี าร
อ่านและเขียนได้ในบางส่วน
97
98
3. OBJECT IDENTITY ซึง่ หมายถึงการอนุญาตให้
OBJECT ในระบบฐานข้อมูลนัน้ มีความเป็ นอิสระต่อกัน
4. POLYMORPHISM และ DYNAMIC BINDING คือ
การอนุญาตให้มกี ารสร้างการดาเนินงานสาหรับ
OBJECT อันหนึง่ แล้วทาการแชร์คุณสมบัตไิ ปยัง
OBJECT อืน่ ได้
99
OODBMS นัน้ มีคุณสมบัตทิ ดี่ หี ลายประการ เช่น
การใช้ OO หมายถึง วิธคี ดิ ทีใ่ กล้เคียงธรรมชาติและ
ใกล้เคียงกับมนุษย์มากขึน้ นอกจากนัน้ ยังมี
ความสามารถในการจัดเก็บข้อมูลสมัยใหม่ ผู ใ้ ช้ยงั
สามารถกาหนดวิธกี ารเข้าถึงข้อมูลได้
ข้อเสีย คือ ยังไม่มกี ารกาหนดมาตรฐาน ซึง่ ในขณะนี้
ยังอยู่ระหว่างการพัฒนา
100
สาหรับ OBJECT-RELATIONAL DATABASE
MANAGEMENT SYSTEMS หรือ ORDBMS นัน้
ถูกสร้างขึน้ เพือ่ เพิม่ ความสามารถให้กบั RDBMS เพือ่ ให้
สนับสนุนการใช้งานในหลายๆ APPLICATION
นอกจากนัน้ ยังเป็ นตัวเชือ่ มระหว่างความสัมพันธ์ และ
หลักการแบบ OBJECT
ORDBMS นัน้ ถูกสร้างขึน้ เพือ่ เก็บข้อมูลประเภทใหม่ ๆ
เช่น AUDIO ,VIDEOและรูปภาพทีส่ าคัญอีกอย่างหนึง่ มัน
ถูกสร้างขึน้ เพราะการได้รบั ความนิยมอย่างสูงในการใช้งาน
OBJECT ORIENTED PROGRAMMING
101
102
ข้อดีสาหรับ ORDBMS คือ ทาให้องค์กรสามารถ
ใช้ระบบเดิมอยู่ได้ โดยไม่ต้องทาการเปลีย่ นระบบหลัก
มากมายนัก และทาให้ผูใ้ ช้งานรวมถึง PROGRAMMER
นัน้ เริม่ ต้นใช้งาน OBJECT ORIENTED ในเวลาเดียวกัน
ความท้าทายอีกอย่างหนึง่ ทีเ่ กิดขึน้ ก็คอื การเก็บ
และการเข้าถึงนอกเหนือจากนัน้ คือวิธกี าร QUERY และ
การปรับปรุงประสิทธิภาพ การ QUERY
103

บทที่ 1 ความรู้เบื้องต้นเก

Transcript บทที่ 1 ความรู้เบื้องต้นเก

Directory