ภาพนิ่ง 1

Download Report

Transcript ภาพนิ่ง 1

สถานีอวกาศ NLP
Natural Language
Processing
สมาชิก
น.ส.กนกพรรณ สุ ขสม
น.ส.ชุติมา คนเที่ยง
น.ส.ปัทมา อินตรา
น.ส.ศศิธร คีรีวงศ์
น.ส.ศิรินทร์ทิพย์ มุสิกะชาติ
น.ส.ศิริพรรณ ต่อหิ รัญพฤกษ์
น.ส.อรวรรณ ชัยชิตร
4420002
4420083
4420193
4420339
4420349
4420353
4420463
Natural Language Processing
(NLP)
ระบบภาษาธรรมชาติ เ ป็ นการน า
ความรู้ ทางภาษาศาสตร์ มาจั ด เก็ บ ไว้ ด้ ว ย
ระบบคอมพิวเตอร์ เป็ นฐานความรู้ ระบบจะ
เรี ย กใช้ ฐานความรู้ ตี ค วามหมาย ถ่ า ยทอด
ความรู้และโต้ ตอบด้ วยภาษาธรรมชาติ
ระบบภาษาธรรมชาติมคี ุณสมบัตทิ สี่ าคัญดังนี้
1. ส่ วนของระบบอิน พุ ต เอาท์ พุ ต ที่ ใ ช้ ใ นการสั่ ง
หรือ ติดต่ อกับคอมพิวเตอร์
2. การประมวลผลภายในระบบจะใช้ หลั ก การ
พื้ น ฐานของฐานความรอบรู้ ที่ เ กี่ ย วกั บ ไวยากรณ์
ความหมาย และความเข้ าใจของภาษาธรรมชาติ
ความรู้ ทรี่ ะบบใช้ ในการวิเคราะห์ และสร้ าง
อินพุตเอาท์ พตุ ภาษาธรรมชาติประกอบด้ วย
ความรู้ทางภาษาศาสตร์ เป็ นความรู้ทเี่ กิดจากการ
ใช้ หลักภาษามาวิเคราะห์ และสั งเคราะห์
ความรู้ ทางด้ านมโนทัศน์ (conceptual knowledge)
เป็ นความรู้ ที่ ร ะบบจะต้ อ งเข้ า ใจในความหมายและ
สามารถแยกความแตกต่ างได้
การถ่ ายทอดความรู้ (inferential
knowledge) เป็ น
ขบวนการทีจ่ ะใช้ วนิ ิจฉัย และถ่ ายทอดความรู้
รู ป แบบของผู้ ใ ช้ เป็ นการใช้ ค วามรู้ ท าความเข้ าใจผู้ ใ ช้
เพือ่ ให้ ระบบมีความฉลาดเหมาะกับการใช้ งาน
แหล่ งความรู้ ของระบบภาษาธรรมชาติ
แบ่ งแยกได้ ดงั นี้
ความรู้ เกี่ยวกับคา (lexical knowledge) เป็ น
ความรู้ ที่เกี่ยวกับคา การสะกด การจัดกลุ่มตัวอักษรเป็ น
คา (morphological data) การรวมคา ผันคา และการ
แบ่ งแยกคาในประโยค
ความรู้ เกี่ยวกับไวยากรณ์ (syntactic knowledge)
เป็ นการนาคามารวมกันเป็ นวลี การวิเคราะห์ ไวยากรณ์
การตรวจสอบไวยากรณ์ การสร้ างประโยค
ความรู้ เกีย่ วกับความหมาย (semantic knowledge)
เป็ นความรู้ เกี่ ย วกั บ ความหมายของภาษา ซึ่ ง ได้ แ ก่
มโนทัศน์ ข่ ายความหมาย (semantic nets)
ความรู้ ทางความหมายเกี่ ย วเนื่ อ ง (discourse
knowledge) เป็ นความรู้ เกีย่ วกับรู ปแบบของผู้ใช้ การตอบ
โต้ และสนทนา การถ่ ายทอดความหมายและการตัดสิ น
ปัญหาโดยใช้ ความเข้ าใจ
ความรู้ เกี่ย วกับการถ่ ายทอดความรู้ (inferential
knowledge)
เป็ นความรู้ ที่ ใ ช้ ในหลั ก การของ
ปัญญาประดิษฐ์ เกี่ยวกับเทคนิคการสร้ างกฎเกณฑ์ การ
ถ่ ายทอดและขบวนการวินิจฉัย กฎเกณฑ์ การโต้ ตอบ
และการสนทนา รวมถึ ง การแทนด้ ว ยหลัก การทาง
คณิตศาสตร์ ตรรกและการวินิจฉัยหาคาตอบ
การใช้ งานระบบภาษาธรรมชาติ
การใช้ งานระบบภาษาธรรมชาติ
ตัวอย่ างของระบบภาษาธรรมชาติที่มีการค้ นคว้ า และ
วิจัยรวมทั้งผลิตภัณฑ์ ที่มีอยู่แล้ วได้ แก่
Talkwriter
เครื่ อ งที่ รั บ เสี ย งพู ด ของมนุ ษ ย์ แล้ ว มี ก ารถ่ า ยเปลี่ ย น
สั ญญาณเสี ยงให้ อยู่รูปสั ญญาณที่เครื่ องสามารถอ่ านได้ หรื อ
ในรู ปของข้ อความแบบ word processing หรืออยู่ในรู ปของ
คาสั่ งเพือ่ จะส่ งต่ อไปใช้ งานฐานข้ อมูล
Content scanning
จะเป็ นลัก ษณะการใช้ค อมพิ ว เตอร์ ม าช่ ว ยแสดงหรื อ ตี ค วาม
เนื้ อหาของข้อความ เช่น และแปลข้อความของการเดินเรื อทะเล
เครื่ องอ่านและแปลเทเล็กซ์การโอนเงินระหว่างประเทศ ลักษณะ
ของข้อความที่ใช้เป็ นแบบสั้นๆ คาที่ใช้มกั จะเป็ นคาย่อหรื อสะกด
ผิด และไม่มี รู ป ไวยากรณ์ ที่ ดี นัก การทางานของระบบจะท าใน
ระดับความหมายเป็ นส่ วนใหญ่ เพราะจุดมุ่งหมายหรื อความหมาย
ของข้อความจะอยูใ่ นกรอบแคบๆ ที่พอจะคาดเดาได้
Database interface
จะเป็ นการใช้ภาษาธรรมชาติ มาสั่งงาน เรี ยกใช้ฐานข้อมูลแทนที่
จะใช้ภาษาคอมพิวเตอร์ ทวั่ ๆไป ซึ่ งจะเป็ นลักษณะของการถามหา
ข้อมูลด้วยภาษาที่ใช้ในชีวิตประจาวันจากภาษาธรรมชาติ ที่ใช้ ก็จะ
มีการแปลตีความและสร้างเป็ นคาสัง่ เพื่อเรี ยกใช้ฐานข้อมูล
Machine translation
จะเป็ นการใช้คอมพิวเตอร์ เพื่อการแปลภาษาระหว่างภาษาไทย
กับภาษาอังกฤษ เป็ นต้น การแปลภาษาจัดเป็ นเรื่ องสาคัญ สาหรับงาน
สานักงานมา เพราะการติดต่อการค้าระหว่างประเทศ การแลกเปลีย่ น
สื่ อสารข้อมูลเป็ นเครื อข่ายใหญ่ระหว่างประเทศ และข้อสาคัญคือ การ
รวมข่ายงานของภาษาธรรมชาติท้ งั ในแง่ของการอินเตอร์ เฟสด้วยเสี ยง
ด้วย database interface และ text editing เข้า
ด้วยกัน
Text editing
จะเป็ นลัก ษณะของการน าเอาวิธี ก ารทาง NLP ของการ
วิเคราะห์ ด้านไวยากรณ์ และความหมายประกอบกับ word
processing เพือ่ ช่ วยในการตรวจสอบตัวสะกดและไวยากรณ์
โมเดลการแทนภาษา
ความแตกต่ างของภาษาคอมพิวเตอร์ กบั ภาษามนุษย์
ภาษาคอมพิวเตอร์ เป็ นระบบที่มีการกาหนดขอบเขตไว้ในกรอบ
จากัด มีการใช้คาจากัด มีไวยากรณ์ที่ใช้จากัดและการตีความหมายที่
ชัดเจนจึงสามารถเรี ยกภาษาคอมพิวเตอร์อีกอย่างหนึ่งว่า ภาษาทีม่ ี
รู ปแบบ (formal language)
ภาษาธรรมชาติ เป็ นภาษาที่มีขอบเขตกว้างมากจนยากที่จะหา
รู ปแบบที่ตายตัวได้ กฎเกณฑ์ของภาษาธรรมชาติเป็ นกฎเกณฑ์ทเี่ กิดขึ้น
ในการใช้ภาษาและเป็ นที่ยอมรับของกลุ่มชนผูใ้ ช้น้ นั
การแบ่ งแยกหน่ วยย่ อยของภาษา
(natural language entity)
ประกอบด้ วย
ตัวอักษร คือสัญลักษณ์ที่ใช้แทนเสี ยง เป็ นกลุ่มของสัญลักษณ์ ที่
จากัดกลุ่มหนึ่ง
คา (word) คือกลุ่มของตัวอักษรที่มาเรี ยงต่อกันเป็ นคา
ประโยค (sentence) คือกลุ่มของคาที่นามาเรี ยงต่อกันเพื่อแทน
ความหมาย ประโยคจึงเป็ นข้อความที่ใช้สื่อสารหรื อโต้ตอบกัน
การเขียนคาอธิบายภาษาหรือกฎเกณฑ์ บางอย่ างด้ วย BNF
 การเขียนคาอธิบายภาษาหรือหลักการทางภาษาควรมีกฎเกณฑ์ บางอย่ างเพือ่ ให้ การเขียนอธิบาย
ได้ ชัดเจน และกะทัดรัดสื่ อความเข้ าใจได้ อย่ างดี ตัวอย่ างเช่ นการเขียนโดยใช้ หลักการของ
BNF
 หลักการเขียนแบบ BNF หมายถึง ส่ วนทางขวาเป็ นส่ วนประกอบของส่ วนทางซ้ าย โดยใช้
เครื่องหมาย ::- เช่ น
A ::- BC หมายถึง A ประกอบด้ วย B และ C
 โดยมีเครื่องหมาย | ซึ่งแสดงความหมาย หรือ (or) เช่ น
<SUBJECT> ::- ‘I’ | ‘WE’
<VERB> ::- ‘SEE’ | ‘HIT’ | ‘GRAB’
<OBJECT> ::- ‘HIM’ | ‘HER’ | ‘YOU’
<SENTENCE> ::- SUBJECT VERB OBJECT ‘.’
ลักษณะเช่ นนีเ้ ราสามารถนามานิยามภาษาที่มรี ู ปแบบหรือ
ภาษาคอมพิวเตอร์ อนื่ ใดก็ได้ เช่ น
 STATEMENT> ::- ASSIGNMENT$ | GOTO$ | IF$ | IO$

<ASSIGNMENT$> ::- I = ALEX

<GOTO$> ::- GOTO number

<IF$> ::- IF CONDITION THEN STATEMENT |

IF CONDITION THEN STATEMENT

ELSE STATEMENT

<CONDITION> ::- ALEX = ALEX | ALEX = ALEX |

ALEX > ALEX | ALEX < ALEX

<CONDITION> ::- CONDITION AND CONDITION |

CONDITION OR CONDITION |

NOT CONDITION

<IO$> ::- READ i | WRITE i

<ALEX> ::- arithmetic expression

<i> ::- identifier
จากโครงสร้างการนิยามภาษาคอมพิวเตอร์ดงั กล่าวนี้ เป็ นการนิยาม
ทางไวยากรณ์ เพื่อใช้แทนภาษา
ตัวอย่างของการกาหนดโครงสร้างภาษาไทยในลักษณะ BNF โดย
กาหนดตามอักขระวิธีที่ภาษาไทยเขียนได้ 4 ระดับเช่น
1
2
3
4
ผูช้ ายคนหนึ่ ง
เมื่อเขียนคาอธิบายลักษณะภาษาไทยเขียนได้ดงั นี้
<thai_character>::- char_level1|char_level2|char_level3|char_level4
<char_level1> ::- t_tone_mark
<char_level2> ::- t_upper_vowel|t_tone_mark
<char_level3> ::- t_consonant|t_normal_vowel|t_numeric|
t_special_mark
<char_level> ::- t_lower_vowel
<t_tone_mark> ::ท่ ท้ ท๊ ท๋
<t_upper_mark>::ทั ทิ ที ทึ ทื ท์ ท็ ทำ
<t_normal_vowel> ::- ก ข ฃ ค ฅ …… ฮ
<t_consonant> ::- ะ า เ แ ใ ไ
<t_numeric> ::- ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๐
<t_special_mark> ::- ๆ ฯ ( ) . ,
ทุ ทู ญ
<t_lower_vowel> ::-
โครงสร้ างทางภาษาศาสตร์
โครงสร้ างทางภาษาศาสตร์ น้ันแบ่ งออกได้ เป็ นหลายระดับดังนี้
 ระดับเสี ยง (Phonology)
มี ความสาคัญในการดาเนิ นงานทางด้าน speech
recognition
 ระดับหน่ วยคา (Morphology)
 ระดับกลุ่มคา (Syntax) เป็ นการแบ่งคาออกเป็ น รากศัพท์ prefixes และ suffixes
 ระดับความหมาย (Semantics) เป็ นการพิจารณาความหมายของคา วลี อนุประโยค
และประโยค
 ระดับการใช้ ภาษา (Pragmatics) เป็ นการพิจารณาวิธีการใช้ภาษาและผลของภาษา
ต่อผูฟ้ ัง
 สาหรับการวิเคราะห์ ภาษาจะแบ่ งออกเป็ น 2 กลุ่มคือ วิเคราะห์โครงสร้างไวยากรณ์
(syntactic analysis) และการวิเคราะห์เชิงความหมาย (semantic analysis)
การจาแนกคาและกลุ่มคา
Zelling S. Harris เป็ นนักภาษาศาสตร์ ที่ได้เสนอกฎเกณฑ์การแทนที่คาไว้ในปี
ค.ศ.1946 โดยเสนอว่า การศึกษาภาษาศาสตร์ จาเป็ นต้องมีการจาแนกคาและ
กลุ่มคาเพื่อที่จะได้นาคาที่อยูใ่ นกลุ่มคาชนิ ดเดียวกันมาแทนที่กนั ซึ่ งชนิดของคา
อาจจะแบ่งได้เป็ น นาม, นามวลี, กริ ยา ,คุณศัพท์ เป็ นต้น
 ตัวอย่างเช่ น
 The monkey has eaten the banana.
 นอกจากนี้ Harris ยังเสนอว่าประโยคสามารถแปลงรู ปโครงสร้างไปมาได้ เช่น
 การเปลี่ยนรู ประหว่าง active voice กับ passive voice
 The dog bit the man. (active)
 The man was bitten by the dog. (passive)
ไวยากรณ์ เพิม่ พูน (Generative grammars)
 ในปี ค.ศ.1957 Noam Chomsky ได้ เขียนหนังสื อชื่อ “Syntactic Structures” ซึ่ง
ถือเป็ นจุดเริ่มต้ นของแนวทางการศึกษาภาษาศาสตร์ ในแนวใหม่ และมีแนวทาง
สาหรับนามาประยุกต์ ช่วยในการประมวลผล Chomsky ได้ เสนอวิธีการแทนรู ป
ไวยากรณ์ ด้วยการสร้ างเป็ นกฎเกณฑ์ ที่แน่ นอน เพือ่ ให้ การวิเคราะห์ และการสร้ าง
ประโยคเป็ นไปอย่างชัดเจน ทาให้ เราสามารถสร้ างและเข้ าใจประโยคเพิม่ ขึน้ มาอีก
มาก
 ลักษณะของไวยากรณ์ ทถี่ ูกพัฒนาขึน้ นีเ้ รียกว่ า ไวยากรณ์ เพิม่ พูน (generative
grammars) ซึ่งเป็ นการสร้ างประโยคตามโครงสร้ างทีช่ ี้แนะอยู่ในไวยากรณ์
กฎไวยากรณ์ นีไ้ ม่ สามารถชี้ว่าประโยคนั้นถูกต้ องในแง่ ของภาษาทีใ่ ช้ หรือไม่ แต่ จะ
ใช้ อธิบายว่ าประโยคนั้นมีโครงสร้ างและความสั มพันธ์ ยอมรับได้ หรือไม่
รู ปแบบทีง่ ่ ายทีส่ ุ ดของไวยากรณ์ เพิม่ พูนจะเรียกว่ า ไวยากรณ์ สถานะจากัด
(finite state grammar)
Art
Q0
Noun
Q1
Verb
Q2
สถานะสุดท้าย
Q5
สถานะเริ่มต้น
Adj
Noun
Q3
Aux
Verb
Q4
ตัวอย่ างของระบบหรือไวยากรณ์ สถานะจากัดทีส่ ามารถนามาใช้
แทนประโยคภาษาอังกฤษ
Art + Noun + Verb  The dog runs.
Art + Adj + Noun + Verb  The brows dog runs.
Art + Noun + Aux + Verb  The children can sing.
Art + Adj + Noun + Aux + Verb  The little children can
sing.
Chomsky ได้นิยามไวยากรณ์ รปู ใหม่ขึน้ มาเรียกว่า ไวยากรณ์
โครงสร้างวลี (phase structure grammars เรียกย่อว่า PS) โดย
องค์ประกอบของประโยคจะแบ่งเป็ นส่วนๆตามชนิดของคา หรือ
ในทางภาษาศาสตร์จะเรียก ส่วนประกอบ (contituents) ได้แก่
คานาม, กริยา เป็ นต้น
หลักไวยากรณ์ แบบโครงสร้างวลี จะเริ่มต้นจากประโยคว่า
ประกอบด้วยส่วนสาคัญอะไร จากส่วนสาคัญก็แบ่งย่อย และส่วนย่อย
ก็แบ่งเล็กลงไปอีก
S
NP + VP
NP
Art + N
VP
V + NP
N
birds, worms, cars, …..
Art
the
V
eat, drive, learn, …..
เราสามารถนาไวยากรณ์โครงสร้างวลีมาตรวจสอบความถูกต้องทาง
ไวยากรณ์ ของประโยคที่เรียกว่า การแจงประโยค (parsing) ซึ่งคือ
วิธีการบอกความสัมพันธ์ของคาในประโยคนัน่ เอง
วิธีแจงประโยคแบบ top down parsing
S
NP + VP
Art + N + VP
The + N + VP
The birds + VP
The birds + V + NP
The birds eat + NP
The birds eat + Art + N
The birds eat the + N
The birds eat the worms.
Context-Free Grammars (CFG)
Context-Free Grammars (CFG)
หลักไวยากรณ์ context-free grammars จัดเป็ นส่วนหนึ่ งของ
ไวยากรณ์ โครงสร้างวลี ซึ่งเป็ นหลักที่สร้างขึน้ เพื่อใช้อธิบายโครงสร้าง
ของภาษา และความสัมพันธ์ระหว่างโครงสร้างต่างๆที่ประกอบใน
ประโยคนัน้ ๆโดยไม่พิจารณาในเชิงความหมายของประโยค
ไวยากรณ์ context-free จะมีชื่อเรียกต่างๆกัน เช่น โดย
นักภาษาศาสตร์จะเรียกว่าหลักไวยากรณ์ ส่วนประชิด (immediate
constituent grammars) และนักวิทยาการคอมพิวเตอร์จะเรียกว่า
Backus Normal Form (BNF) หรือ Recursive Patterns
การเขียนไวยากรณ์แบบ CFG โดยมีลกั ษณะเป็ นกฎจะเรียกว่า กฎการ
เขียนใหม่ (rewriting rules) ของการเขียนสัญลักษณ์ทางซ้ายของลูกศร
ใหม่ได้เป็ นสัญลักษณ์ ทางขวาของลูกศร
สัญลักษณ์ N, Art และ V เรียกว่า สัญลักษณ์ จบท้าย (terminal
symbols) สัญลักษณ์ S, NP และ VP เรียกว่า สัญลักษณ์ ไม่จบท้าย
(nonterminal symbols)
S
NP
VP
N
Art
V
NP + VP
Art + N
V + NP
birds, worms, cars, …..
the
eat, drive, learn, …..
การแจงประโยค
สาหรับไวยากรณ์ CFG นั้นอาจทาได้ 2 ทางคือ
1) การแจงประโยคจากบนลงล่าง (top-down parsing)
เริ่มจาก ประโยค แล้วพิจารณาถึงโครงสร้ างของส่ วนประกอบ
ในประโยค ซึ่งได้ แก่ประเภทของคาต่ าง ๆ ทาให้ เกิดการสร้ างประโยค
ขึน้ ใหม่ ที่ประกอบด้ วยลาดับของชนิดคาตามหลักไวยากรณ์
(พิจารณาจากซ้ ายไปขวา)
2) การแจงประโยคจากล่างขึน้ บน (bottom-up parsing)
ใช้ ตรวจสอบประโยค โดยพิจารณาจากลาดับของชนิดคาที่เรียง
กันอยู่ในประโยค เพือ่ พิจารณาว่ า การเรียงลาดับนั้นถูกต้ องหรือไม่
(พิจารณาจากขวาไปซ้ าย)
Context Free Grammars
SMC Example: Sue, mouse & the cat
Parse tree 1 (Parse tree is also known as derivation
tree)
Parse tree 2
Context Free Grammars
SMC Example: Top-down parsing (A)
Top-down parsing starts with the S symbol and tries to rewrite it into
the sentence.
Context Free Grammars
SMC Example: Bottom-up parsing (A)
Bottom-up parsing starts with the words and tries to find symbols
that generate them.
Context Free Grammars
SMC Example: Top-down parsing (B) - using parse tree
Context Free Grammars
SMC Example: Bottom-up parsing (B) - using parse tree
Context Free Grammars
JA Example: John and apple
Top-down Parsing
Bottom-up Parsing
กฎไวยากรณ์ เหล่านี้ ยังไม่ได้รวมถึงส่วนที่เวียนเกิดซา้ (recursive) อัน
หมายถึงสัญลักษณ์นี้จะเวียนกลับมากาหนดตัวเองได้อีก กฎไวยากรณ์ที่
สมบูรณ์ จะต้องรวมถึงการเวียนเกิดซา้ ด้วย
ตัวอย่างกฎไวยากรณ์ ที่รวมการเวียนเกิดซา้ ของภาษาอังกฤษ
กฎไวยากรณ์
S
NP
Mod
VP
VP
V
V
V
V
ADV
ADV
PP
NP + VP
Mod + N + (PP)
(Art) + (Adj)
V + (ADV)
Aux + V
Vi
Vt + NP
Vc + Adj
Vc + Adj
PP
Adv
Prp + NP
ข่ ายงานการเปลีย่ นเวียนเกิดซ้า
ข่ ายงานการเปลีย่ นเวียนเกิดซ้า
ข่ายงานการเปลี่ยน (Transition networks) เป็ นเครื อข่าย
ประกอบด้วย
โหนด(nodes) แทนด้ วยวงกลม
ส่ วนโค้ ง (arc) ที่มอี กั ษรสั ญลักษณ์ กากับพร้ อมลูกศรบอกทิศทาง
เช่ น ข่ ายงานการเปลีย่ นทางเดินของนามวลีที่มาจากกฎไวยากรณ์ CFG
NP
Art + NP1
NP1 Adj + NP1
NP1 N + NP2
Recursive Transition Networks
ข่ ายงานการเปลีย่ นแบบเวียนเกิดซ้า
เรียกย่ อๆว่ า RTN
ทีม่ ีการกระโดดข้ ามระหว่ างข่ ายงานหนึ่งไปหาอีกข่ ายงานหนึง่ โดยแต่
ละข่ ายงานจะมีชื่อเรียกกากับไว้
ขัน้ ตอนการแจงประโยคจากบนลงล่าง
ในการแจงประโยคตามกฎไวยากรณ์ หรือข่ายงานการเปลี่ยน RTN
จาเป็ นต้องมีขนั ้ ตอนวิธีที่แน่ นอน เพื่อว่าเราจะนาไปโปรแกรมและให้
คอมพิวเตอร์ช่วยในการตรวจวิเคราะห์ความถูกต้องทางไวยากรณ์ ของ
ประโยค
ตัวอย่างการแจงประโยคจากข่ายงานการเปลี่ยนทางเดิน RTN (ใน
ระหว่างการแจงประโยคนี้ จะต้องทาการเก็บบันทึกข้อมูลเพื่อติดตาม
ทางเดินอยู่ตลอดเวลา) ข้อมูลที่สาคัญได้แก่
ตาแหน่ งปัจจุบนั เพื่อบอกว่าได้แจงประโยคไปถึงส่วนไหนของ
ประโยคแล้ว
โหนดปัจจุบนั เพื่อบอกว่าการแจงประโยคเพื่อเดินตามเส้นโค้งของ
ข่ายงาน RTN ไปถึงโหนดไหนแล้ว
ตาแหน่ งเดินทางกลับ เนื่ องจากการเดินทางในข่ายงาน RTN จะมีการ
กระโดดข้ามจากข่ายงานหนึ่ งไปยังข่ายงานอื่น เพื่อให้การเดินทางนี้
สามารถกลับไปจากจุดกระโดดเดิม
หลักไวยากรณ์ ข่ายงาน RTN ที่ประกอบด้วยข่ายงาน NP และข่ายงาน S
รวมกับการมีรายการคาศัพท์หรือ lexicon ให้เลือกใช้ตามข้างล่างนี้
Art :- the, a
number :- one
pronoun :- one
Adj :- wild, green
noun :- dogs, men, saw, green
verb :- ried, saw, broke, faded
นอกจากนัน้ การแจงประโยคแบบบนลงล่างยังจะต้องมีขนั ้ ตอนวิธีมาใช้
กากับการเดินทางข่ายงานด้วยดังนี้
1. ถ้าสัญลักษณ์ กากับเส้นโค้งมีชนิดของคาตรงกับชนิดคาของประโยคที่
กากับตรวจสอบ ให้ ก. ปรับปรุงตาแหน่ งปัจจุบนั ไปยังคาต่อไป
ข. ปรับปรุงโหนดปัจจุบนั เป็ นโหนดปลายทางของเส้นโค้ง
2. ถ้าเส้นโค้งนัน้ เป็ นการกระโดดไปยังข่ายงานย่อยอื่น (N)
ให้ ก. บรรจุโหนดปลายทางของเส้นโค้งเป็ นตาแหน่ งเดินทางกลับ
ข. ปรับปรุงโหนดปัจจุบนั เป็ นโหนดเริ่มต้นของข่ายงาน N
3. ถ้าเส้นโค้งเป็ นสัญลักษณ์ pop ที่บอกการสิ้นสุดของข่ายงานและข้อมูล
ในตาแหน่ งเดินทางกลับมีค่าอยู่
ให้ ก. ถึงข้อมูลนัน้ ออกมาเพื่อใช้เป็ นโหนดปัจจุบนั
4. ถ้าเส้นโค้งสัญลักษณ์ pop และข้อมูลในตาแหน่ งเดินทางกลับว่างเปล่า
ว่าแสดงว่า การแจงประโยคเสร็จสิ้นแล้ว
ขัน้ ตอนการแจงประโยคจากล่างขึน้ บน
วิธีนี้จะซับซ้อนยุ่งยากกว่าการแจงประโยคจากบนลงล่าง
ตัวอย่างเช่น กฎไวยากรณ์
NP Art + Adj + Noun
ในระบบล่างขึน้ บน จะต้องใช้กฎหาคาที่เรียงลาดับติดต่อกันตามกฎ
ด้านขวาและจัดเรียงคาต่างๆให้เข้ากับกฎ ด้วยวิธีนี้การแจงประโยค
จึงมีรปู แบบที่ตรงกับกฎหลายทาง ในการเปรียบเทียบคากับกฎจึงมี
การพิจารณาทีละคา ที่เรียกว่า คียต์ ามลาดับไป
ไวยากรณ์ ปริวรรต
ไวยากรณ์ ปริวรรต
หลักไวยากรณ์ CFG ยังไม่สามารถนามาใช้อธิบายภาษา
ธรรมชาติ ที่เป็ นจริ งได้สมบูรณ์ เช่น ไม่สามารถตรวจความเข้ากัน
ได้ของประธานกับกริ ยา (การเติม s หรื อ es ของประธานกับกริ ยา
ที่เป็ นเอกพจน์) หลักไวยากรณ์การแปลงหรื อไวยากรณ์ปริ วรรต
(transformational grammar) เป็ นความพยายามทางหนึ่งที่ใช้เป็ น
พื้นฐานให้เข้าใจภาษาธรรมชาติมากยิง่ ขึ้น โดยให้มองเสมือนเป็ น
ขบวนการเรี ยนรู้ การแบ่งโครงสร้างของประโยค นอกจาก
ประกอบเป็ นโครงสร้างลึก ซึ่งมีโครงสร้างวลีแบบแผนภูมิตน้ ไม้
แล้ว แต่จะมีโครงสร้างผิว ที่มาจากการแปลงรู ปของโครงสร้างลึก
ดังที่กล่าวมาแล้วว่า Chomsky ได้พฒั นาหลักไวยากรณ์ปริ วรรต
เพิ่มพูน โดยในไวยากรณ์น้ ีนอกจากประกอบด้วยส่ วนที่เป็ น
แผนภูมิตน้ ไม้ของโครงสร้างวลีแล้ว ยังประกอบด้วยส่ วนที่ใช้ใน
การสร้างประโยคที่ยอมรับได้ของภาษา คือการแปลงรู ป
(transformational component) และส่ วนโครงสร้างคา
(morphophonemic component)
ประโยคทางภาษาเมื่อผ่านกฎไวยากรณ์โครงสร้างวลีแล้ว เรา
สามารถทาการประยุกต์ผา่ นกฎของการแปลง ทาการแปลงประโยค
active voice ให้เป็ น passive voice หรื อการแปลงเปลี่ยนประโยค
บอกเล่าให้เป็ นประโยคคาถาม
กฎการแปลงรูปหรือกฎปริวรรต
เป็ นกฎที่ใช้เปลี่ยนโครงสร้างวลีลึกให้เป็ นโครงสร้าง
ผิว โดยการเพิ่ม ลดหรื อ เปลี่ยนตาแหน่งลาดับของคา
ซึ่ งอาจแบ่งเป็ นกฎบังคับที่ตอ้ งใช้ในการเปลี่ยนรู ป
โครงสร้างเพราะถ้าไม่เปลี่ยนจะทาให้ประโยคผิดหลัก
ไวยากรณ์ อีกประเภทจะเป็ นกฎให้เลือกที่ใช้หรื อไม่ใช้ก็
ได้
กฎปริวรรตจะประกอบด้ วยส่ วนสาคัญ 3 ส่ วนคือ
1.
2.
3.
4.
5.
1. ส่ วนอธิบายโครงสร้ าง (structural description เขียนย่อว่า SD)
เพื่อแสดงโครงสร้างของประโยคว่าควรเป็ นอย่างไรจึงจะใช้กฎ
ปริ วรรตกฎนี้
2. ส่ วนแสดงการเปลีย่ นแปลง (structural change เขียนย่อว่า SC)
เพื่อแสดงโครงสร้างของประโยคที่เปลี่ยนแปลงไปหลังจากการ
ประยุกต์ใช้กฎปริ วรรตแล้ว
3. ชุ ดของเงื่อนไขทีต่ ้ องทาการเปรียบเทียบให้ ตรงกัน
ส่ วนที่เป็ น SD และส่ วนเงื่อนไขรวมกันก็คือ ส่ วนที่อยูท่ างซ้ายของ
กฎการเขียนใหม่รวม และส่ วน SC ก็คือส่ วนที่อยูท่ างขวาของกฎ
ตัวอย่างการใช้กฎปริ วรรต
จากประโยค แม่รักแดงมาก + แม่รักน้า
เมื่อใช้กฎปริ วรรตจะสร้างประโยคได้ 2 รู ปแบบคือ
1. แม่รักแดงมากกว่าแม่รักน้า ( มีการเพิ่มคาว่า “กว่า” )
2. แม่รักแดงมากกว่าน้า ( มีการตัดคาว่า “แม่รัก” ออก )
การตัดคา เติมคา ย้ายตาแหน่งคา และใช้คาแทนทีถ่ ือว่าเป็ นการ
ใช้กฎปริ วรรต
ทฤษฎีความหมายของแคทซ์ และโฟเดอร์
ทฤษฎีความหมายของแคทซ์ และโฟเดอร์
Jerrold J. Katz และ Jerry A. Foder ได้ ร่วมกันพัฒนาวิธีการนาความหมาย
ของคาเข้ ามารวมในไวยากรณ์ ปริวรรต ตั้งเป็ นกฎทีร่ วมความหมายของคาให้ เป็ น
ความหมายของวลีและรวมความหมายของวลีเพือ่ นาไปสู่ ความหมายของประโยค
กฎดังกล่าวเรียกว่ า กฎถ่ ายทอด (projection rules) แล้วยังประกอบด้ วย
พจนานุกรมทีจ่ ะเก็บคาศัพท์ ของภาษาไว้ ด้วย โดยมีการเก็บส่ วนอธิบายการออก
เสี ยง ส่ วนวากยสั มพันธ์ หรือไวยากรณ์ ทเี่ ก็บชนิดของคา และส่ วนอรรถศาสตร์
หรือความหมาย ซึ่งจะมีหลายชุ ดแยกตามชนิดของคาทีอ่ าจมีหลายกลุ่มได้
ข่ ายงานการเปลีย่ นเพิม่ ขยาย (Augmented Transition Network : ATN)
ในการแจงประโยคภาษาที่กากวม ข่ ายงาน RTN จึงควรมีการเพิม่ เติม
ขยายส่ วนทีเ่ ป็ นลักษณะสาคัญด้ าน grammar และเพิม่ เติมคาศัพท์ เข้ ามาโดย
ส่ วนทีเ่ พิม่ ขึน้ นีจ้ ะได้ แก่ เงื่อนไข และการกระทาที่จะกากับไว้ กบั ส่ วนโค้ งของ
ข่ ายงาน
ซึ่งส่ วนเงือ่ นไขนีจ้ ะเป็ นการตรวจสอบตามลักษณะความสั มพันธ์ ของ
ไวยากรณ์ หากตรงกับเงือ่ นไข ส่ วนกระทาจะกากับลักษณะสาคัญ และทาการ
สร้ างโครงสร้ างของประโยค โดยแต่ ละจุดหรือโหนดของโครงสร้ างวลีทสี่ ร้ างขึน้
จะมีตวั เก็บค่ า (register) เพือ่ บันทึกบทบาทของคาเช่ น เป็ นประธาน, กรรมตรง,
กรรมรอง, กริยาหลัก หรือกริยาช่ วย และเพือ่ บันทึกลักษณะสาคัญของคา เช่ น
เป็ นเอกพจน์ , พหูพจน์ , สกรรมกริยา, อกรรมกริยา หรือกาล
ดังนั้น ตัวเก็บค่ าจะแบ่ งเป็ นตัวเก็บค่ าบทบาทของคา และตัวเก็บค่ าลักษณะ
สาคัญ
ขั้นตอนของ ATN
จะเป็ นกฎไวยากรณ์ ทคี่ ล้ายคลึงข่ ายงาน RTN โดยมีชุดตัวเก็บค่ าประจา
อยู่ในข่ ายงาน การกระโดดจากโหนดของข่ ายงานไปยังข่ ายงานอืน่ ก็จะได้
ชุ ดตัวเก็บค่ าเกิดขึน้ ซึ่งตัวเก็บค่ าต่ าง ๆ นีจ้ ะมีชื่อกากับพร้ อมกับมีค่าบรรจุ
ใส่ ตัวเก็บค่ า ซึ่งสามารถเรียกค่ าจากตัวเก็บค่ ามาเปรียบเทียบตรวจสอบ
ตามเงือ่ นไข
โครงสร้ างความรู้ และความเข้ าใจ
Roger Schank ได้ พฒ
ั นาทฤษฎี Conceptual Dependency Theory ซึ่ง
เป็ นทฤษฎีทจี่ ะใช้ ในการอธิบายเรื่องการแทนความหมายและการเข้ าใจ
ของมนุษย์ โดยโรเจอร์ ได้ ใช้ ทฤษฎีนีอ้ ธิบายเรื่องต่ าง ๆ เช่ น เรื่องเกีย่ วกับ
การจดจาความคิดและการใช้ ความรู้ จากสมอง (dynamic memory)
ทฤษฎีนีเ้ น้ นทีจ่ ะแทนความหมายเป็ นสาคัญ ดังนั้นประโยคทีม่ รี ู ป
ประโยคต่ างกันหรือแม้ แต่ ใช้ กริยาต่ างกัน แต่ ความเดียวกันจะต้ องได้
โครงสร้ างทีแ่ ทนแบบ CD เหมือนกัน เช่ น
John gave the book to Mary.
Mary received the book from John.
ทฤษฎี CD
ในทฤษฎีนีไ้ ด้ ทาการกาหนดการกระทาพืน้ ฐานที่เรียกว่ า primitive act
เพือ่ ที่จะใช้ การกระทาพืน้ ฐานนีเ้ ป็ นส่ วนประกอบทีส่ ร้ างโครงสร้ างทาง
ความหมายหรือใช้ แทนความหมาย หรือการกระทาซึ่งเป็ นหลักที่สร้ าง
ความสั มพันธ์ ของผู้กระทาและผู้ถูกกระทา
เช่ น ATRANS หมายถึง Transfer of an abstract relationship
จากตัวอย่ างประโยคข้ างต้ น สามารถเขียนตามรู ปแบบ CD ได้ ดงั นี้
EVENT1
ACTOR : John
ACTION : ATRANS
OBJECT : the book
DIRECTION : FROM : John
TO : Mary
การสร้ างโมเดลการแทนความหมายด้ วย CD
การมองในระดับลึกนั้นประกอบเป็ นโครงสร้ างที่ใช้ แทนความหมาย
หรือที่เรียกว่ า primitive conceptual categories ดังนี้
PP แทนผู้สร้ างหรือเหตุการณ์ อันอาจได้ แก่ วตั ถุรวมถึงสิ่ งมีชีวิต
ACT แทนการกระทาซึ่งทาโดยผู้กระทาที่กระทาต่ อวัตถุรวมถึงสิ่ งมีชีวิต
LOC แทนตาแหน่ งทีอ่ ยู่
T แทนเวลา
PA แทนแอททริบิวแสดงสถานะมีค่าเป็ นตัวเลข เช่ น
HUNGER (-8) เทียบได้ กบั starving
สั ญลักษณ์ ในการกาหนดเวลา
(null)
p
f
/
ts
tf
c
k
?
แทน present
แทน past
แทน future
แทน negation
แทน จุดเริ่มต้ นของเหตุการณ์
แทน จุดสุ ดท้ ายของเหตุการณ์
แทนเงื่อนไข
แทนต่ อเนื่อง
แทนคาถาม
การกระทาขั้นพืน้ ฐาน
ATRANS
PTRANS
PROPEL
MOVE
INGEST
EXPEL
GRASP
SPEAK
ATTEND
MTRANS
MBUILD
transfer of an abstract relationship
transfer of the physical location of an object
application of physical force to an object
movement of a body part by its owner
ingesting of an object by an animal
expulsion of something from the body of an animal
grasping of an object by an actor
producing of sounds
focusing of a sense organ toward a stimulus
transfer of mental information
building new information out of old