Transcript ภาพนิ่ง 1
สถานีอวกาศ NLP Natural Language Processing สมาชิก น.ส.กนกพรรณ สุ ขสม น.ส.ชุติมา คนเที่ยง น.ส.ปัทมา อินตรา น.ส.ศศิธร คีรีวงศ์ น.ส.ศิรินทร์ทิพย์ มุสิกะชาติ น.ส.ศิริพรรณ ต่อหิ รัญพฤกษ์ น.ส.อรวรรณ ชัยชิตร 4420002 4420083 4420193 4420339 4420349 4420353 4420463 Natural Language Processing (NLP) ระบบภาษาธรรมชาติ เ ป็ นการน า ความรู้ ทางภาษาศาสตร์ มาจั ด เก็ บ ไว้ ด้ ว ย ระบบคอมพิวเตอร์ เป็ นฐานความรู้ ระบบจะ เรี ย กใช้ ฐานความรู้ ตี ค วามหมาย ถ่ า ยทอด ความรู้และโต้ ตอบด้ วยภาษาธรรมชาติ ระบบภาษาธรรมชาติมคี ุณสมบัตทิ สี่ าคัญดังนี้ 1. ส่ วนของระบบอิน พุ ต เอาท์ พุ ต ที่ ใ ช้ ใ นการสั่ ง หรือ ติดต่ อกับคอมพิวเตอร์ 2. การประมวลผลภายในระบบจะใช้ หลั ก การ พื้ น ฐานของฐานความรอบรู้ ที่ เ กี่ ย วกั บ ไวยากรณ์ ความหมาย และความเข้ าใจของภาษาธรรมชาติ ความรู้ ทรี่ ะบบใช้ ในการวิเคราะห์ และสร้ าง อินพุตเอาท์ พตุ ภาษาธรรมชาติประกอบด้ วย ความรู้ทางภาษาศาสตร์ เป็ นความรู้ทเี่ กิดจากการ ใช้ หลักภาษามาวิเคราะห์ และสั งเคราะห์ ความรู้ ทางด้ านมโนทัศน์ (conceptual knowledge) เป็ นความรู้ ที่ ร ะบบจะต้ อ งเข้ า ใจในความหมายและ สามารถแยกความแตกต่ างได้ การถ่ ายทอดความรู้ (inferential knowledge) เป็ น ขบวนการทีจ่ ะใช้ วนิ ิจฉัย และถ่ ายทอดความรู้ รู ป แบบของผู้ ใ ช้ เป็ นการใช้ ค วามรู้ ท าความเข้ าใจผู้ ใ ช้ เพือ่ ให้ ระบบมีความฉลาดเหมาะกับการใช้ งาน แหล่ งความรู้ ของระบบภาษาธรรมชาติ แบ่ งแยกได้ ดงั นี้ ความรู้ เกี่ยวกับคา (lexical knowledge) เป็ น ความรู้ ที่เกี่ยวกับคา การสะกด การจัดกลุ่มตัวอักษรเป็ น คา (morphological data) การรวมคา ผันคา และการ แบ่ งแยกคาในประโยค ความรู้ เกี่ยวกับไวยากรณ์ (syntactic knowledge) เป็ นการนาคามารวมกันเป็ นวลี การวิเคราะห์ ไวยากรณ์ การตรวจสอบไวยากรณ์ การสร้ างประโยค ความรู้ เกีย่ วกับความหมาย (semantic knowledge) เป็ นความรู้ เกี่ ย วกั บ ความหมายของภาษา ซึ่ ง ได้ แ ก่ มโนทัศน์ ข่ ายความหมาย (semantic nets) ความรู้ ทางความหมายเกี่ ย วเนื่ อ ง (discourse knowledge) เป็ นความรู้ เกีย่ วกับรู ปแบบของผู้ใช้ การตอบ โต้ และสนทนา การถ่ ายทอดความหมายและการตัดสิ น ปัญหาโดยใช้ ความเข้ าใจ ความรู้ เกี่ย วกับการถ่ ายทอดความรู้ (inferential knowledge) เป็ นความรู้ ที่ ใ ช้ ในหลั ก การของ ปัญญาประดิษฐ์ เกี่ยวกับเทคนิคการสร้ างกฎเกณฑ์ การ ถ่ ายทอดและขบวนการวินิจฉัย กฎเกณฑ์ การโต้ ตอบ และการสนทนา รวมถึ ง การแทนด้ ว ยหลัก การทาง คณิตศาสตร์ ตรรกและการวินิจฉัยหาคาตอบ การใช้ งานระบบภาษาธรรมชาติ การใช้ งานระบบภาษาธรรมชาติ ตัวอย่ างของระบบภาษาธรรมชาติที่มีการค้ นคว้ า และ วิจัยรวมทั้งผลิตภัณฑ์ ที่มีอยู่แล้ วได้ แก่ Talkwriter เครื่ อ งที่ รั บ เสี ย งพู ด ของมนุ ษ ย์ แล้ ว มี ก ารถ่ า ยเปลี่ ย น สั ญญาณเสี ยงให้ อยู่รูปสั ญญาณที่เครื่ องสามารถอ่ านได้ หรื อ ในรู ปของข้ อความแบบ word processing หรืออยู่ในรู ปของ คาสั่ งเพือ่ จะส่ งต่ อไปใช้ งานฐานข้ อมูล Content scanning จะเป็ นลัก ษณะการใช้ค อมพิ ว เตอร์ ม าช่ ว ยแสดงหรื อ ตี ค วาม เนื้ อหาของข้อความ เช่น และแปลข้อความของการเดินเรื อทะเล เครื่ องอ่านและแปลเทเล็กซ์การโอนเงินระหว่างประเทศ ลักษณะ ของข้อความที่ใช้เป็ นแบบสั้นๆ คาที่ใช้มกั จะเป็ นคาย่อหรื อสะกด ผิด และไม่มี รู ป ไวยากรณ์ ที่ ดี นัก การทางานของระบบจะท าใน ระดับความหมายเป็ นส่ วนใหญ่ เพราะจุดมุ่งหมายหรื อความหมาย ของข้อความจะอยูใ่ นกรอบแคบๆ ที่พอจะคาดเดาได้ Database interface จะเป็ นการใช้ภาษาธรรมชาติ มาสั่งงาน เรี ยกใช้ฐานข้อมูลแทนที่ จะใช้ภาษาคอมพิวเตอร์ ทวั่ ๆไป ซึ่ งจะเป็ นลักษณะของการถามหา ข้อมูลด้วยภาษาที่ใช้ในชีวิตประจาวันจากภาษาธรรมชาติ ที่ใช้ ก็จะ มีการแปลตีความและสร้างเป็ นคาสัง่ เพื่อเรี ยกใช้ฐานข้อมูล Machine translation จะเป็ นการใช้คอมพิวเตอร์ เพื่อการแปลภาษาระหว่างภาษาไทย กับภาษาอังกฤษ เป็ นต้น การแปลภาษาจัดเป็ นเรื่ องสาคัญ สาหรับงาน สานักงานมา เพราะการติดต่อการค้าระหว่างประเทศ การแลกเปลีย่ น สื่ อสารข้อมูลเป็ นเครื อข่ายใหญ่ระหว่างประเทศ และข้อสาคัญคือ การ รวมข่ายงานของภาษาธรรมชาติท้ งั ในแง่ของการอินเตอร์ เฟสด้วยเสี ยง ด้วย database interface และ text editing เข้า ด้วยกัน Text editing จะเป็ นลัก ษณะของการน าเอาวิธี ก ารทาง NLP ของการ วิเคราะห์ ด้านไวยากรณ์ และความหมายประกอบกับ word processing เพือ่ ช่ วยในการตรวจสอบตัวสะกดและไวยากรณ์ โมเดลการแทนภาษา ความแตกต่ างของภาษาคอมพิวเตอร์ กบั ภาษามนุษย์ ภาษาคอมพิวเตอร์ เป็ นระบบที่มีการกาหนดขอบเขตไว้ในกรอบ จากัด มีการใช้คาจากัด มีไวยากรณ์ที่ใช้จากัดและการตีความหมายที่ ชัดเจนจึงสามารถเรี ยกภาษาคอมพิวเตอร์อีกอย่างหนึ่งว่า ภาษาทีม่ ี รู ปแบบ (formal language) ภาษาธรรมชาติ เป็ นภาษาที่มีขอบเขตกว้างมากจนยากที่จะหา รู ปแบบที่ตายตัวได้ กฎเกณฑ์ของภาษาธรรมชาติเป็ นกฎเกณฑ์ทเี่ กิดขึ้น ในการใช้ภาษาและเป็ นที่ยอมรับของกลุ่มชนผูใ้ ช้น้ นั การแบ่ งแยกหน่ วยย่ อยของภาษา (natural language entity) ประกอบด้ วย ตัวอักษร คือสัญลักษณ์ที่ใช้แทนเสี ยง เป็ นกลุ่มของสัญลักษณ์ ที่ จากัดกลุ่มหนึ่ง คา (word) คือกลุ่มของตัวอักษรที่มาเรี ยงต่อกันเป็ นคา ประโยค (sentence) คือกลุ่มของคาที่นามาเรี ยงต่อกันเพื่อแทน ความหมาย ประโยคจึงเป็ นข้อความที่ใช้สื่อสารหรื อโต้ตอบกัน การเขียนคาอธิบายภาษาหรือกฎเกณฑ์ บางอย่ างด้ วย BNF การเขียนคาอธิบายภาษาหรือหลักการทางภาษาควรมีกฎเกณฑ์ บางอย่ างเพือ่ ให้ การเขียนอธิบาย ได้ ชัดเจน และกะทัดรัดสื่ อความเข้ าใจได้ อย่ างดี ตัวอย่ างเช่ นการเขียนโดยใช้ หลักการของ BNF หลักการเขียนแบบ BNF หมายถึง ส่ วนทางขวาเป็ นส่ วนประกอบของส่ วนทางซ้ าย โดยใช้ เครื่องหมาย ::- เช่ น A ::- BC หมายถึง A ประกอบด้ วย B และ C โดยมีเครื่องหมาย | ซึ่งแสดงความหมาย หรือ (or) เช่ น <SUBJECT> ::- ‘I’ | ‘WE’ <VERB> ::- ‘SEE’ | ‘HIT’ | ‘GRAB’ <OBJECT> ::- ‘HIM’ | ‘HER’ | ‘YOU’ <SENTENCE> ::- SUBJECT VERB OBJECT ‘.’ ลักษณะเช่ นนีเ้ ราสามารถนามานิยามภาษาที่มรี ู ปแบบหรือ ภาษาคอมพิวเตอร์ อนื่ ใดก็ได้ เช่ น STATEMENT> ::- ASSIGNMENT$ | GOTO$ | IF$ | IO$ <ASSIGNMENT$> ::- I = ALEX <GOTO$> ::- GOTO number <IF$> ::- IF CONDITION THEN STATEMENT | IF CONDITION THEN STATEMENT ELSE STATEMENT <CONDITION> ::- ALEX = ALEX | ALEX = ALEX | ALEX > ALEX | ALEX < ALEX <CONDITION> ::- CONDITION AND CONDITION | CONDITION OR CONDITION | NOT CONDITION <IO$> ::- READ i | WRITE i <ALEX> ::- arithmetic expression <i> ::- identifier จากโครงสร้างการนิยามภาษาคอมพิวเตอร์ดงั กล่าวนี้ เป็ นการนิยาม ทางไวยากรณ์ เพื่อใช้แทนภาษา ตัวอย่างของการกาหนดโครงสร้างภาษาไทยในลักษณะ BNF โดย กาหนดตามอักขระวิธีที่ภาษาไทยเขียนได้ 4 ระดับเช่น 1 2 3 4 ผูช้ ายคนหนึ่ ง เมื่อเขียนคาอธิบายลักษณะภาษาไทยเขียนได้ดงั นี้ <thai_character>::- char_level1|char_level2|char_level3|char_level4 <char_level1> ::- t_tone_mark <char_level2> ::- t_upper_vowel|t_tone_mark <char_level3> ::- t_consonant|t_normal_vowel|t_numeric| t_special_mark <char_level> ::- t_lower_vowel <t_tone_mark> ::ท่ ท้ ท๊ ท๋ <t_upper_mark>::ทั ทิ ที ทึ ทื ท์ ท็ ทำ <t_normal_vowel> ::- ก ข ฃ ค ฅ …… ฮ <t_consonant> ::- ะ า เ แ ใ ไ <t_numeric> ::- ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๐ <t_special_mark> ::- ๆ ฯ ( ) . , ทุ ทู ญ <t_lower_vowel> ::- โครงสร้ างทางภาษาศาสตร์ โครงสร้ างทางภาษาศาสตร์ น้ันแบ่ งออกได้ เป็ นหลายระดับดังนี้ ระดับเสี ยง (Phonology) มี ความสาคัญในการดาเนิ นงานทางด้าน speech recognition ระดับหน่ วยคา (Morphology) ระดับกลุ่มคา (Syntax) เป็ นการแบ่งคาออกเป็ น รากศัพท์ prefixes และ suffixes ระดับความหมาย (Semantics) เป็ นการพิจารณาความหมายของคา วลี อนุประโยค และประโยค ระดับการใช้ ภาษา (Pragmatics) เป็ นการพิจารณาวิธีการใช้ภาษาและผลของภาษา ต่อผูฟ้ ัง สาหรับการวิเคราะห์ ภาษาจะแบ่ งออกเป็ น 2 กลุ่มคือ วิเคราะห์โครงสร้างไวยากรณ์ (syntactic analysis) และการวิเคราะห์เชิงความหมาย (semantic analysis) การจาแนกคาและกลุ่มคา Zelling S. Harris เป็ นนักภาษาศาสตร์ ที่ได้เสนอกฎเกณฑ์การแทนที่คาไว้ในปี ค.ศ.1946 โดยเสนอว่า การศึกษาภาษาศาสตร์ จาเป็ นต้องมีการจาแนกคาและ กลุ่มคาเพื่อที่จะได้นาคาที่อยูใ่ นกลุ่มคาชนิ ดเดียวกันมาแทนที่กนั ซึ่ งชนิดของคา อาจจะแบ่งได้เป็ น นาม, นามวลี, กริ ยา ,คุณศัพท์ เป็ นต้น ตัวอย่างเช่ น The monkey has eaten the banana. นอกจากนี้ Harris ยังเสนอว่าประโยคสามารถแปลงรู ปโครงสร้างไปมาได้ เช่น การเปลี่ยนรู ประหว่าง active voice กับ passive voice The dog bit the man. (active) The man was bitten by the dog. (passive) ไวยากรณ์ เพิม่ พูน (Generative grammars) ในปี ค.ศ.1957 Noam Chomsky ได้ เขียนหนังสื อชื่อ “Syntactic Structures” ซึ่ง ถือเป็ นจุดเริ่มต้ นของแนวทางการศึกษาภาษาศาสตร์ ในแนวใหม่ และมีแนวทาง สาหรับนามาประยุกต์ ช่วยในการประมวลผล Chomsky ได้ เสนอวิธีการแทนรู ป ไวยากรณ์ ด้วยการสร้ างเป็ นกฎเกณฑ์ ที่แน่ นอน เพือ่ ให้ การวิเคราะห์ และการสร้ าง ประโยคเป็ นไปอย่างชัดเจน ทาให้ เราสามารถสร้ างและเข้ าใจประโยคเพิม่ ขึน้ มาอีก มาก ลักษณะของไวยากรณ์ ทถี่ ูกพัฒนาขึน้ นีเ้ รียกว่ า ไวยากรณ์ เพิม่ พูน (generative grammars) ซึ่งเป็ นการสร้ างประโยคตามโครงสร้ างทีช่ ี้แนะอยู่ในไวยากรณ์ กฎไวยากรณ์ นีไ้ ม่ สามารถชี้ว่าประโยคนั้นถูกต้ องในแง่ ของภาษาทีใ่ ช้ หรือไม่ แต่ จะ ใช้ อธิบายว่ าประโยคนั้นมีโครงสร้ างและความสั มพันธ์ ยอมรับได้ หรือไม่ รู ปแบบทีง่ ่ ายทีส่ ุ ดของไวยากรณ์ เพิม่ พูนจะเรียกว่ า ไวยากรณ์ สถานะจากัด (finite state grammar) Art Q0 Noun Q1 Verb Q2 สถานะสุดท้าย Q5 สถานะเริ่มต้น Adj Noun Q3 Aux Verb Q4 ตัวอย่ างของระบบหรือไวยากรณ์ สถานะจากัดทีส่ ามารถนามาใช้ แทนประโยคภาษาอังกฤษ Art + Noun + Verb The dog runs. Art + Adj + Noun + Verb The brows dog runs. Art + Noun + Aux + Verb The children can sing. Art + Adj + Noun + Aux + Verb The little children can sing. Chomsky ได้นิยามไวยากรณ์ รปู ใหม่ขึน้ มาเรียกว่า ไวยากรณ์ โครงสร้างวลี (phase structure grammars เรียกย่อว่า PS) โดย องค์ประกอบของประโยคจะแบ่งเป็ นส่วนๆตามชนิดของคา หรือ ในทางภาษาศาสตร์จะเรียก ส่วนประกอบ (contituents) ได้แก่ คานาม, กริยา เป็ นต้น หลักไวยากรณ์ แบบโครงสร้างวลี จะเริ่มต้นจากประโยคว่า ประกอบด้วยส่วนสาคัญอะไร จากส่วนสาคัญก็แบ่งย่อย และส่วนย่อย ก็แบ่งเล็กลงไปอีก S NP + VP NP Art + N VP V + NP N birds, worms, cars, ….. Art the V eat, drive, learn, ….. เราสามารถนาไวยากรณ์โครงสร้างวลีมาตรวจสอบความถูกต้องทาง ไวยากรณ์ ของประโยคที่เรียกว่า การแจงประโยค (parsing) ซึ่งคือ วิธีการบอกความสัมพันธ์ของคาในประโยคนัน่ เอง วิธีแจงประโยคแบบ top down parsing S NP + VP Art + N + VP The + N + VP The birds + VP The birds + V + NP The birds eat + NP The birds eat + Art + N The birds eat the + N The birds eat the worms. Context-Free Grammars (CFG) Context-Free Grammars (CFG) หลักไวยากรณ์ context-free grammars จัดเป็ นส่วนหนึ่ งของ ไวยากรณ์ โครงสร้างวลี ซึ่งเป็ นหลักที่สร้างขึน้ เพื่อใช้อธิบายโครงสร้าง ของภาษา และความสัมพันธ์ระหว่างโครงสร้างต่างๆที่ประกอบใน ประโยคนัน้ ๆโดยไม่พิจารณาในเชิงความหมายของประโยค ไวยากรณ์ context-free จะมีชื่อเรียกต่างๆกัน เช่น โดย นักภาษาศาสตร์จะเรียกว่าหลักไวยากรณ์ ส่วนประชิด (immediate constituent grammars) และนักวิทยาการคอมพิวเตอร์จะเรียกว่า Backus Normal Form (BNF) หรือ Recursive Patterns การเขียนไวยากรณ์แบบ CFG โดยมีลกั ษณะเป็ นกฎจะเรียกว่า กฎการ เขียนใหม่ (rewriting rules) ของการเขียนสัญลักษณ์ทางซ้ายของลูกศร ใหม่ได้เป็ นสัญลักษณ์ ทางขวาของลูกศร สัญลักษณ์ N, Art และ V เรียกว่า สัญลักษณ์ จบท้าย (terminal symbols) สัญลักษณ์ S, NP และ VP เรียกว่า สัญลักษณ์ ไม่จบท้าย (nonterminal symbols) S NP VP N Art V NP + VP Art + N V + NP birds, worms, cars, ….. the eat, drive, learn, ….. การแจงประโยค สาหรับไวยากรณ์ CFG นั้นอาจทาได้ 2 ทางคือ 1) การแจงประโยคจากบนลงล่าง (top-down parsing) เริ่มจาก ประโยค แล้วพิจารณาถึงโครงสร้ างของส่ วนประกอบ ในประโยค ซึ่งได้ แก่ประเภทของคาต่ าง ๆ ทาให้ เกิดการสร้ างประโยค ขึน้ ใหม่ ที่ประกอบด้ วยลาดับของชนิดคาตามหลักไวยากรณ์ (พิจารณาจากซ้ ายไปขวา) 2) การแจงประโยคจากล่างขึน้ บน (bottom-up parsing) ใช้ ตรวจสอบประโยค โดยพิจารณาจากลาดับของชนิดคาที่เรียง กันอยู่ในประโยค เพือ่ พิจารณาว่ า การเรียงลาดับนั้นถูกต้ องหรือไม่ (พิจารณาจากขวาไปซ้ าย) Context Free Grammars SMC Example: Sue, mouse & the cat Parse tree 1 (Parse tree is also known as derivation tree) Parse tree 2 Context Free Grammars SMC Example: Top-down parsing (A) Top-down parsing starts with the S symbol and tries to rewrite it into the sentence. Context Free Grammars SMC Example: Bottom-up parsing (A) Bottom-up parsing starts with the words and tries to find symbols that generate them. Context Free Grammars SMC Example: Top-down parsing (B) - using parse tree Context Free Grammars SMC Example: Bottom-up parsing (B) - using parse tree Context Free Grammars JA Example: John and apple Top-down Parsing Bottom-up Parsing กฎไวยากรณ์ เหล่านี้ ยังไม่ได้รวมถึงส่วนที่เวียนเกิดซา้ (recursive) อัน หมายถึงสัญลักษณ์นี้จะเวียนกลับมากาหนดตัวเองได้อีก กฎไวยากรณ์ที่ สมบูรณ์ จะต้องรวมถึงการเวียนเกิดซา้ ด้วย ตัวอย่างกฎไวยากรณ์ ที่รวมการเวียนเกิดซา้ ของภาษาอังกฤษ กฎไวยากรณ์ S NP Mod VP VP V V V V ADV ADV PP NP + VP Mod + N + (PP) (Art) + (Adj) V + (ADV) Aux + V Vi Vt + NP Vc + Adj Vc + Adj PP Adv Prp + NP ข่ ายงานการเปลีย่ นเวียนเกิดซ้า ข่ ายงานการเปลีย่ นเวียนเกิดซ้า ข่ายงานการเปลี่ยน (Transition networks) เป็ นเครื อข่าย ประกอบด้วย โหนด(nodes) แทนด้ วยวงกลม ส่ วนโค้ ง (arc) ที่มอี กั ษรสั ญลักษณ์ กากับพร้ อมลูกศรบอกทิศทาง เช่ น ข่ ายงานการเปลีย่ นทางเดินของนามวลีที่มาจากกฎไวยากรณ์ CFG NP Art + NP1 NP1 Adj + NP1 NP1 N + NP2 Recursive Transition Networks ข่ ายงานการเปลีย่ นแบบเวียนเกิดซ้า เรียกย่ อๆว่ า RTN ทีม่ ีการกระโดดข้ ามระหว่ างข่ ายงานหนึ่งไปหาอีกข่ ายงานหนึง่ โดยแต่ ละข่ ายงานจะมีชื่อเรียกกากับไว้ ขัน้ ตอนการแจงประโยคจากบนลงล่าง ในการแจงประโยคตามกฎไวยากรณ์ หรือข่ายงานการเปลี่ยน RTN จาเป็ นต้องมีขนั ้ ตอนวิธีที่แน่ นอน เพื่อว่าเราจะนาไปโปรแกรมและให้ คอมพิวเตอร์ช่วยในการตรวจวิเคราะห์ความถูกต้องทางไวยากรณ์ ของ ประโยค ตัวอย่างการแจงประโยคจากข่ายงานการเปลี่ยนทางเดิน RTN (ใน ระหว่างการแจงประโยคนี้ จะต้องทาการเก็บบันทึกข้อมูลเพื่อติดตาม ทางเดินอยู่ตลอดเวลา) ข้อมูลที่สาคัญได้แก่ ตาแหน่ งปัจจุบนั เพื่อบอกว่าได้แจงประโยคไปถึงส่วนไหนของ ประโยคแล้ว โหนดปัจจุบนั เพื่อบอกว่าการแจงประโยคเพื่อเดินตามเส้นโค้งของ ข่ายงาน RTN ไปถึงโหนดไหนแล้ว ตาแหน่ งเดินทางกลับ เนื่ องจากการเดินทางในข่ายงาน RTN จะมีการ กระโดดข้ามจากข่ายงานหนึ่ งไปยังข่ายงานอื่น เพื่อให้การเดินทางนี้ สามารถกลับไปจากจุดกระโดดเดิม หลักไวยากรณ์ ข่ายงาน RTN ที่ประกอบด้วยข่ายงาน NP และข่ายงาน S รวมกับการมีรายการคาศัพท์หรือ lexicon ให้เลือกใช้ตามข้างล่างนี้ Art :- the, a number :- one pronoun :- one Adj :- wild, green noun :- dogs, men, saw, green verb :- ried, saw, broke, faded นอกจากนัน้ การแจงประโยคแบบบนลงล่างยังจะต้องมีขนั ้ ตอนวิธีมาใช้ กากับการเดินทางข่ายงานด้วยดังนี้ 1. ถ้าสัญลักษณ์ กากับเส้นโค้งมีชนิดของคาตรงกับชนิดคาของประโยคที่ กากับตรวจสอบ ให้ ก. ปรับปรุงตาแหน่ งปัจจุบนั ไปยังคาต่อไป ข. ปรับปรุงโหนดปัจจุบนั เป็ นโหนดปลายทางของเส้นโค้ง 2. ถ้าเส้นโค้งนัน้ เป็ นการกระโดดไปยังข่ายงานย่อยอื่น (N) ให้ ก. บรรจุโหนดปลายทางของเส้นโค้งเป็ นตาแหน่ งเดินทางกลับ ข. ปรับปรุงโหนดปัจจุบนั เป็ นโหนดเริ่มต้นของข่ายงาน N 3. ถ้าเส้นโค้งเป็ นสัญลักษณ์ pop ที่บอกการสิ้นสุดของข่ายงานและข้อมูล ในตาแหน่ งเดินทางกลับมีค่าอยู่ ให้ ก. ถึงข้อมูลนัน้ ออกมาเพื่อใช้เป็ นโหนดปัจจุบนั 4. ถ้าเส้นโค้งสัญลักษณ์ pop และข้อมูลในตาแหน่ งเดินทางกลับว่างเปล่า ว่าแสดงว่า การแจงประโยคเสร็จสิ้นแล้ว ขัน้ ตอนการแจงประโยคจากล่างขึน้ บน วิธีนี้จะซับซ้อนยุ่งยากกว่าการแจงประโยคจากบนลงล่าง ตัวอย่างเช่น กฎไวยากรณ์ NP Art + Adj + Noun ในระบบล่างขึน้ บน จะต้องใช้กฎหาคาที่เรียงลาดับติดต่อกันตามกฎ ด้านขวาและจัดเรียงคาต่างๆให้เข้ากับกฎ ด้วยวิธีนี้การแจงประโยค จึงมีรปู แบบที่ตรงกับกฎหลายทาง ในการเปรียบเทียบคากับกฎจึงมี การพิจารณาทีละคา ที่เรียกว่า คียต์ ามลาดับไป ไวยากรณ์ ปริวรรต ไวยากรณ์ ปริวรรต หลักไวยากรณ์ CFG ยังไม่สามารถนามาใช้อธิบายภาษา ธรรมชาติ ที่เป็ นจริ งได้สมบูรณ์ เช่น ไม่สามารถตรวจความเข้ากัน ได้ของประธานกับกริ ยา (การเติม s หรื อ es ของประธานกับกริ ยา ที่เป็ นเอกพจน์) หลักไวยากรณ์การแปลงหรื อไวยากรณ์ปริ วรรต (transformational grammar) เป็ นความพยายามทางหนึ่งที่ใช้เป็ น พื้นฐานให้เข้าใจภาษาธรรมชาติมากยิง่ ขึ้น โดยให้มองเสมือนเป็ น ขบวนการเรี ยนรู้ การแบ่งโครงสร้างของประโยค นอกจาก ประกอบเป็ นโครงสร้างลึก ซึ่งมีโครงสร้างวลีแบบแผนภูมิตน้ ไม้ แล้ว แต่จะมีโครงสร้างผิว ที่มาจากการแปลงรู ปของโครงสร้างลึก ดังที่กล่าวมาแล้วว่า Chomsky ได้พฒั นาหลักไวยากรณ์ปริ วรรต เพิ่มพูน โดยในไวยากรณ์น้ ีนอกจากประกอบด้วยส่ วนที่เป็ น แผนภูมิตน้ ไม้ของโครงสร้างวลีแล้ว ยังประกอบด้วยส่ วนที่ใช้ใน การสร้างประโยคที่ยอมรับได้ของภาษา คือการแปลงรู ป (transformational component) และส่ วนโครงสร้างคา (morphophonemic component) ประโยคทางภาษาเมื่อผ่านกฎไวยากรณ์โครงสร้างวลีแล้ว เรา สามารถทาการประยุกต์ผา่ นกฎของการแปลง ทาการแปลงประโยค active voice ให้เป็ น passive voice หรื อการแปลงเปลี่ยนประโยค บอกเล่าให้เป็ นประโยคคาถาม กฎการแปลงรูปหรือกฎปริวรรต เป็ นกฎที่ใช้เปลี่ยนโครงสร้างวลีลึกให้เป็ นโครงสร้าง ผิว โดยการเพิ่ม ลดหรื อ เปลี่ยนตาแหน่งลาดับของคา ซึ่ งอาจแบ่งเป็ นกฎบังคับที่ตอ้ งใช้ในการเปลี่ยนรู ป โครงสร้างเพราะถ้าไม่เปลี่ยนจะทาให้ประโยคผิดหลัก ไวยากรณ์ อีกประเภทจะเป็ นกฎให้เลือกที่ใช้หรื อไม่ใช้ก็ ได้ กฎปริวรรตจะประกอบด้ วยส่ วนสาคัญ 3 ส่ วนคือ 1. 2. 3. 4. 5. 1. ส่ วนอธิบายโครงสร้ าง (structural description เขียนย่อว่า SD) เพื่อแสดงโครงสร้างของประโยคว่าควรเป็ นอย่างไรจึงจะใช้กฎ ปริ วรรตกฎนี้ 2. ส่ วนแสดงการเปลีย่ นแปลง (structural change เขียนย่อว่า SC) เพื่อแสดงโครงสร้างของประโยคที่เปลี่ยนแปลงไปหลังจากการ ประยุกต์ใช้กฎปริ วรรตแล้ว 3. ชุ ดของเงื่อนไขทีต่ ้ องทาการเปรียบเทียบให้ ตรงกัน ส่ วนที่เป็ น SD และส่ วนเงื่อนไขรวมกันก็คือ ส่ วนที่อยูท่ างซ้ายของ กฎการเขียนใหม่รวม และส่ วน SC ก็คือส่ วนที่อยูท่ างขวาของกฎ ตัวอย่างการใช้กฎปริ วรรต จากประโยค แม่รักแดงมาก + แม่รักน้า เมื่อใช้กฎปริ วรรตจะสร้างประโยคได้ 2 รู ปแบบคือ 1. แม่รักแดงมากกว่าแม่รักน้า ( มีการเพิ่มคาว่า “กว่า” ) 2. แม่รักแดงมากกว่าน้า ( มีการตัดคาว่า “แม่รัก” ออก ) การตัดคา เติมคา ย้ายตาแหน่งคา และใช้คาแทนทีถ่ ือว่าเป็ นการ ใช้กฎปริ วรรต ทฤษฎีความหมายของแคทซ์ และโฟเดอร์ ทฤษฎีความหมายของแคทซ์ และโฟเดอร์ Jerrold J. Katz และ Jerry A. Foder ได้ ร่วมกันพัฒนาวิธีการนาความหมาย ของคาเข้ ามารวมในไวยากรณ์ ปริวรรต ตั้งเป็ นกฎทีร่ วมความหมายของคาให้ เป็ น ความหมายของวลีและรวมความหมายของวลีเพือ่ นาไปสู่ ความหมายของประโยค กฎดังกล่าวเรียกว่ า กฎถ่ ายทอด (projection rules) แล้วยังประกอบด้ วย พจนานุกรมทีจ่ ะเก็บคาศัพท์ ของภาษาไว้ ด้วย โดยมีการเก็บส่ วนอธิบายการออก เสี ยง ส่ วนวากยสั มพันธ์ หรือไวยากรณ์ ทเี่ ก็บชนิดของคา และส่ วนอรรถศาสตร์ หรือความหมาย ซึ่งจะมีหลายชุ ดแยกตามชนิดของคาทีอ่ าจมีหลายกลุ่มได้ ข่ ายงานการเปลีย่ นเพิม่ ขยาย (Augmented Transition Network : ATN) ในการแจงประโยคภาษาที่กากวม ข่ ายงาน RTN จึงควรมีการเพิม่ เติม ขยายส่ วนทีเ่ ป็ นลักษณะสาคัญด้ าน grammar และเพิม่ เติมคาศัพท์ เข้ ามาโดย ส่ วนทีเ่ พิม่ ขึน้ นีจ้ ะได้ แก่ เงื่อนไข และการกระทาที่จะกากับไว้ กบั ส่ วนโค้ งของ ข่ ายงาน ซึ่งส่ วนเงือ่ นไขนีจ้ ะเป็ นการตรวจสอบตามลักษณะความสั มพันธ์ ของ ไวยากรณ์ หากตรงกับเงือ่ นไข ส่ วนกระทาจะกากับลักษณะสาคัญ และทาการ สร้ างโครงสร้ างของประโยค โดยแต่ ละจุดหรือโหนดของโครงสร้ างวลีทสี่ ร้ างขึน้ จะมีตวั เก็บค่ า (register) เพือ่ บันทึกบทบาทของคาเช่ น เป็ นประธาน, กรรมตรง, กรรมรอง, กริยาหลัก หรือกริยาช่ วย และเพือ่ บันทึกลักษณะสาคัญของคา เช่ น เป็ นเอกพจน์ , พหูพจน์ , สกรรมกริยา, อกรรมกริยา หรือกาล ดังนั้น ตัวเก็บค่ าจะแบ่ งเป็ นตัวเก็บค่ าบทบาทของคา และตัวเก็บค่ าลักษณะ สาคัญ ขั้นตอนของ ATN จะเป็ นกฎไวยากรณ์ ทคี่ ล้ายคลึงข่ ายงาน RTN โดยมีชุดตัวเก็บค่ าประจา อยู่ในข่ ายงาน การกระโดดจากโหนดของข่ ายงานไปยังข่ ายงานอืน่ ก็จะได้ ชุ ดตัวเก็บค่ าเกิดขึน้ ซึ่งตัวเก็บค่ าต่ าง ๆ นีจ้ ะมีชื่อกากับพร้ อมกับมีค่าบรรจุ ใส่ ตัวเก็บค่ า ซึ่งสามารถเรียกค่ าจากตัวเก็บค่ ามาเปรียบเทียบตรวจสอบ ตามเงือ่ นไข โครงสร้ างความรู้ และความเข้ าใจ Roger Schank ได้ พฒ ั นาทฤษฎี Conceptual Dependency Theory ซึ่ง เป็ นทฤษฎีทจี่ ะใช้ ในการอธิบายเรื่องการแทนความหมายและการเข้ าใจ ของมนุษย์ โดยโรเจอร์ ได้ ใช้ ทฤษฎีนีอ้ ธิบายเรื่องต่ าง ๆ เช่ น เรื่องเกีย่ วกับ การจดจาความคิดและการใช้ ความรู้ จากสมอง (dynamic memory) ทฤษฎีนีเ้ น้ นทีจ่ ะแทนความหมายเป็ นสาคัญ ดังนั้นประโยคทีม่ รี ู ป ประโยคต่ างกันหรือแม้ แต่ ใช้ กริยาต่ างกัน แต่ ความเดียวกันจะต้ องได้ โครงสร้ างทีแ่ ทนแบบ CD เหมือนกัน เช่ น John gave the book to Mary. Mary received the book from John. ทฤษฎี CD ในทฤษฎีนีไ้ ด้ ทาการกาหนดการกระทาพืน้ ฐานที่เรียกว่ า primitive act เพือ่ ที่จะใช้ การกระทาพืน้ ฐานนีเ้ ป็ นส่ วนประกอบทีส่ ร้ างโครงสร้ างทาง ความหมายหรือใช้ แทนความหมาย หรือการกระทาซึ่งเป็ นหลักที่สร้ าง ความสั มพันธ์ ของผู้กระทาและผู้ถูกกระทา เช่ น ATRANS หมายถึง Transfer of an abstract relationship จากตัวอย่ างประโยคข้ างต้ น สามารถเขียนตามรู ปแบบ CD ได้ ดงั นี้ EVENT1 ACTOR : John ACTION : ATRANS OBJECT : the book DIRECTION : FROM : John TO : Mary การสร้ างโมเดลการแทนความหมายด้ วย CD การมองในระดับลึกนั้นประกอบเป็ นโครงสร้ างที่ใช้ แทนความหมาย หรือที่เรียกว่ า primitive conceptual categories ดังนี้ PP แทนผู้สร้ างหรือเหตุการณ์ อันอาจได้ แก่ วตั ถุรวมถึงสิ่ งมีชีวิต ACT แทนการกระทาซึ่งทาโดยผู้กระทาที่กระทาต่ อวัตถุรวมถึงสิ่ งมีชีวิต LOC แทนตาแหน่ งทีอ่ ยู่ T แทนเวลา PA แทนแอททริบิวแสดงสถานะมีค่าเป็ นตัวเลข เช่ น HUNGER (-8) เทียบได้ กบั starving สั ญลักษณ์ ในการกาหนดเวลา (null) p f / ts tf c k ? แทน present แทน past แทน future แทน negation แทน จุดเริ่มต้ นของเหตุการณ์ แทน จุดสุ ดท้ ายของเหตุการณ์ แทนเงื่อนไข แทนต่ อเนื่อง แทนคาถาม การกระทาขั้นพืน้ ฐาน ATRANS PTRANS PROPEL MOVE INGEST EXPEL GRASP SPEAK ATTEND MTRANS MBUILD transfer of an abstract relationship transfer of the physical location of an object application of physical force to an object movement of a body part by its owner ingesting of an object by an animal expulsion of something from the body of an animal grasping of an object by an actor producing of sounds focusing of a sense organ toward a stimulus transfer of mental information building new information out of old