Transcript Ontology

ความรู้ เบือ้ งต้ นเกี่ยวกับ ontology
 เป็ นเทคโนโลยีดา้ นการพัฒนาภาษาเชิงความหมายสมัยใหม่ เป็ นภาษาที่เครื่ อง
คอมพิวเตอร์สามารถตีความหมายและทาตามคาสัง่ ได้
 โดยนิยามรู ปแบบ (model) ภายในขอบเขตขององค์ความรู้ เพื่ออธิบายสิ่ งที่สนใจ (domain)
ให้ได้ใจความและถูกต้องมากที่สุด โดยรวมคุณสมบัติและความสัมพันธ์ที่เกี่ยวข้อง
 Ontology ไม่ใช่องค์ความรู้ และไม่เหมือนข้อมูลสารสนเทศ
 เป็ นรายละเอียดข้อมูล (Meta-Information) เรี ยกว่า
Information about Information = ข้ อมูลที่สามารถอธิบายข้ อมูลได้
ที่มา
 เทคนิคการสื บค้นแบบเดิม = ค้นหาคาที่สอดคล้องหรื อเหมือนกับคาหลัก (Keyword-
based Matching)
 ถ้าคาหลักของแต่ละเอกสารเหมือนกันแต่มีความหมายแตกต่าง ทาให้ผใู้ ช้สรรหาคาค้นได้
ค่อนข้างยาก และระบบไม่สามารถค้นหาเอกสารที่ตรงตามแนวความคิดที่ผใู้ ช้ตอ้ งการจริ ง
ได้
ลักษณะ
เส้นทางเชื่อมต่อกัน
ของโหนดและกิ่ง
จากรากถึงใบ
(Node/ Non-terminal)
แสดงแนวคิดของ Ontology
(Root Node)
เส้นทางที่ไปถึงค่าในใบ
(Branch)
(Node)
(Path)
(Leaf/ Terminal)
ค่าที่เป็ นคาตอบของแนวคิด
(Relation)
ความสัมพันธ์ระหว่างกัน เช่น ในแง่
ความหมาย หรื อลักษณะการใช้งาน
ประเภท
ประกอบด้วย Base Class และกาหนดคุณสมบัติเพื่ออธิบายคลาส หรื อกาหนด
ความสัมพันธ์ระหว่างคลาส โดยนาไปใช้งานได้ในโดเมนทัว่ ไป (Generic domain)
(ออนโทโลยีระดับบน)
/ Upper Ontology
(ออนโทโลยีสาหรับโดเมน)
ตอบสนองต่อโดเมน โดยอาศัย
การถ่ายทอดคุณลักษณะเฉพาะ
ของโดเมนจากออนโทโลยี
ระดับบน
(ออนโทโลยีสาหรับกิจกรรม)
(ออนโทโลยีระดับโลคอล)
/ Local Ontology
ถูกจากัดการใช้งานในโดเมนที่มีความจาเพาะเจาะจง
(Specific domain)
พัฒนาเพื่อตอบสนองการทางานของ
กิจกรรมย่อยๆ โดยอาศัยการถ่ายทอด
คุณลักษณะเฉพาะของกิจกรรมจากออน
โทโลยีระดับบน
Upper Ontology ของสิ นค้ า
คลาสหลัก
ออนโทโลยีรถยนต์ แสดงการแบ่งชนิดของรถยนต์ (Type)
และแบรนด์ (Brand)
คลาสย่อยระดับที่ 1
คลาสย่อยระดับที่ 2
Local Ontology ของรถยนต์
ส่ วนประกอบหลัก
1. ข้ อมูลเค้ าร่ าง
สาหรับอธิบายข้อมูลเชิงความหมาย คือ การกาหนด ontology ระดับบน เพื่อเป็ นโมเดล
แสดงโครงสร้างการอธิบายข้อมูลเชิงความหมาย
1.1 Class/ Concept/ Category
แสดงความรู้ที่สนใจ และอธิบายว่าคลาสต่างๆ บรรจุอะไรไว้ในโดเมน
1.2 Property/ Relation/ Slot
แสดงการกาหนดความสัมพันธ์หรื อคุณลักษณะของคลาส เพื่อเชื่อมโยงระหว่าง
คลาส ด้วยการระบุค่าพร๊ อพเพอร์ต้ ีที่สามารถกาหนดได้ดว้ ยการประกาศให้เป็ นค่าคงที่
(Property)
(Class)
(Property)
ระบุย่ หี ้ อ
ระบุราคา
(Class)
(Property)
ค่าคงที่แสดง
ราคารถยนต์
มีความสัมพันธ์ แบบ (Property)
Subclass)
(Class)
(Property)
มีความสัมพันธ์ แบบ
Subclass)
(Class)
ข้ อมูลเค้ าร่ างอธิบายข้ อมูลรายละเอียดคลาสรถยนต์
2. ข้ อมูลอินสแตนส์ (Instance Data)
คือ การอธิบายรายละเอียดของข้อมูลซึ่งใช้ขอ้ มูลเค้าร่ างเป็ นแม่แบบในการอธิบาย
การอนุมานด้ วยลักษณะของ Property
 การกาหนดลักษณะของ Property ในแง่มุมต่าง ๆ เพื่อให้เป็ นเหตุและผล (Reasoning)
 การอนุมาน คือ การใช้ความรู้ที่มีอยูใ่ นออนโทโลยีเพื่อค้นหาข้อเท็จจริ ง ซึ่งถูกสังเคราะห์
จากการพิจารณาข้อเท็จจริ ง (Fact)
พร็อพเพอร์ ตแี ้ บบผกผัน (Inverse Properties)
กาหนดว่ า Mathew มีพ่อคือ Jean
สามารถอนุมานได้เพิ่มเติมอีก คือ Jean มีลกู คือ Matthew ผ่านพร็ อพเพอร์ ต้ ี
hasChild
พร็อพเพอร์ ตีแ้ บบฟั งก์ ชัน (Functional Properties)
พร็อพเพอร์ ตี้ hasBirthMother ถูกกาหนดลักษณะแบบฟังก์ ชัน 1 ต่ อ 1
คือ Jean จะมีแม่ ผ้ ใู ห้ กาเนิดได้ เพียงคนเดียว นั่นคือ Peggy
หากระบุเพิ่มว่า Margaret เป็ นแม่ผใู ้ ห้กาเนิดของ Jean  สร้างข้อเท็จจริ งใหม่วา่
Margaret และPeggy คือคนคนเดียวกัน ตามลักษณะของลักษณะพร็ อพเพอร์ ต้ ีแบบฟั งก์ชนั
พร็อพเพอร์ ตแี ้ บบฟั งก์ ชันผกผัน (Inverse Functional Properties)
ใช้ ลกั ษณะแบบ 1 ต่ อ 1 แต่ ใช้ พร็อพเพอร์ ตีเ้ ชื่อมโยงย้ อนกลับไปยังประธานแทน
เช่ นเดียวกับลักษณะแบบฟังก์ ชันผกผัน แต่ ใช้ ความสั มพันธ์ isBirthMotherOf แทน
อธิบายได้ ว่า Peggy คือแม่ ของ Jean และ Margaret คือแม่ ของ Jean
สามารถอนุมานได้วา่ Peggy และ Margaret คือบุคคลเดียวกัน ตามลักษณะแบบ 1 ต่อ 1
พร็อพเพอร์ ตแี ้ บบถ่ ายทอด (Transitive Properties)
เมือ่ กาหนดว่ า Matthew มีบรรพบุรุษเป็ น Peter
และกาหนดว่ า Peter มีบรรพบุรุษเป็ น William
ได้ขอ้ สรุ ปเพิ่มเติมได้วา่ Matthew มีบรรพบุรุษเป็ น William ด้วยเช่นเดียวกัน
พร็อพเพอร์ ตีแ้ บบสมมาตร (Symmetric Properties)
เมือ่ กาหนดว่ า Matthew เป็ นญาติกบั Gemma
ในทางกลับกัน สามารถสรุ ปได้วา่ Gemma ก็เป็ นญาติกบั Matthew เช่นเดียวกัน
ประโยชน์
 ถูกนาไปใช้ในงานวิจยั หลายๆ ด้าน เช่น
 ปั ญญาประดิษฐ์ (Artificial Intelligence: AI)
 วิศวกรรมความรู ้ (Knowledge Engineering)
 ประยุกต์ใช้ในการจัดการภาษาธรรมชาติ (Natural Language Processing: NLP)
 ระบบสื บค้นข้อมูล ช่วยขยายคาค้น ทาให้คน้ หาและเข้าถึงข้อมูลที่ตรงตามที่
ผูใ้ ช้งานต้องการจริ ง ด้วยการพิจารณาความหมายในโดเมน โดยการเก็บรายละเอียด
ต่าง ๆ เช่น บทบาท (Role) ความสัมพันธ์ (Relation)
 ระบบงานที่ตอ้ งการผนวกความรู ้ (Knowledge Integration) เพื่อสร้างความเข้าใจ
เบื้องต้นของความรู ้ระหว่างโดเมน
 ระบบงานที่มีความต้องการนาข้อมูลกลับมาใช้อีก (Reuse)
ระบบสื บค้ นข้ อมูล
 ขั้นตอนการสื บค้นข้อมูลเริ่ มจาก การพิจารณาคา/วลีสืบค้นที่ผใู้ ช้นาเข้า เลือกคาสาคัญ
พร้อมทั้งคาที่มีความหมายเหมือนกัน (Synonym) หลังจากนั้น นากลุ่มคาสาคัญไปค้นหา
ในฐานข้อมูล
 ตัวอย่างบทความ “Picture of disaster about tidalwave tsunami in koh phuket.” จากวลี
ดังกล่าววิเคราะห์คาสาคัญได้ดงั นี้ {disaster, tidalwave tsunami koh phuket}
 นาคาสาคัญดังกล่าวมาเลือกคาศัพท์ที่มีความหมายเหมือนกันจากฐานข้อมูล
ขัน้ ตอนการสืบค้ นข้ อมูล
REPEAT
Read กลุ่มคาสื บค้น (i)
พิจารณาประเภทของกลุ่มคาสื บค้น
CASE NatureType (Class)
Result1 (i) = ค้นหาผลลัพธ์จาก Class
CASE NatureCategory (Subclass)
Result2 (i) = ค้นหาผลลัพธ์จาก Subclass
พิจารณาผลลัพธ์ : IF Result1 (i) ∩ Result2(i)…. Not NULL THEN
BestResult
= Result1(i) ∩ Result1(i+1) ∩ ….
Result2(i) ∩ Result2(i+1) ∩ ….
ELSE
NormalResult = Result2(i) + Result2(i+1) + …
WorseResult = Result1(i) + Result1(i+1) + ….
ผลลัพธ์ได้จากระดับหมวดใหญ่
 ระดับความแม่นยาน้อย
END IF
END REPEAT
ผลลัพธ์ได้จากผลลัพธ์ทุกกลุ่ม
 ระดับความแม่นยามาก
ผลลัพธ์ได้จากผลลัพธ์บางกลุ่ม ใน
ระดับหมวดย่อย  ระดับความ
แม่นยาปานกลาง
ผลลัพธ์ จากการสืบค้นข้ อมูล เป็ นผลลัพธ์ ซึ่งมาจากคาค้นที่มีความหมายอยู่ในกลุ่ม
เดียวกัน เพราะฉะนั้น ผลลัพธ์ ที่ได้ จะเป็ นผลลัพธ์ เชิงความหมาย
ข้ อแตกต่ างระหว่ างฐานข้ อมูล ontology กับ RDB
 ใช้การกาหนดเทอม และคอนเซ็ปท์ของข้อมูล ในการบรรยายและนาเสนอความรู้ โดยมี
ส่ วนการอธิบายในเชิงของคลาส คุณสมบัติ และอินสแตนท์ของข้อมูล ทาให้สามารถระบุ
ความสัมพันธ์ของข้อมูลในแต่ละโหนด รวมถึงโหนดในแต่ละระดับได้ ซึ่งเป็ น
ความสัมพันธ์ของข้อมูลที่ซ้ าซ้อน และเป็ นข้อจากัดของฐานข้อมูลสัมพันธ์ (RDB)
 การเชื่อมโยงความสัมพันธ์ของข้อมูล ทาให้การค้นหา จัดเก็บ วิเคราะห์ ได้ผลลัพธ์ที่มี
คุณภาพและตรงความต้องการมากขึ้น เพราะการค้นหา ด้วย Keyword ทัว่ ๆไป Machines
ไม่สามารถทาความเข้าใจ และ ประมวลความหมาย หรื อความสัมพันธ์ของคานั้นๆได้
อย่างตรงประเด็น ผลของการสื บค้นที่ได้กลับมา จึงเป็ นการ Return ทุกๆ เรื่ องที่มีคาๆ นั้น
 ทาให้ขอ้ มูล มีการระบุขอบเขต ได้ โดยที่ Machines สามารถเข้าใจองค์ประกอบของข้อมูล
ซึ่งมีการแนบ Domain theory
ตัวอย่ างเครื่ องมือสร้ าง (ฐานข้ อมูล) ออนโทโลยี
โปรทีเจ (Protégé) :
เป็ น Editor แบบ open source
สาหรับสร้างออนโทโลยีและฐานความรู้
พัฒนาโดยมหาวิทยาลัยสแตนฟอร์ด
ประเทศสหรัฐอเมริ กา จัดเก็บออนโทโลยีในรู ปแบบ
แฟ้ มข้อมูลและฐานข้อมูลเชิงสัมพันธ์
Thank you