سطوح پردازش زبان طبيعي

Transcript سطوح پردازش زبان طبيعي

‫پردازش زبان طبيعي‬
‫سطوح پردازش‬
‫‪‬‬
‫‪‬‬
‫نيما ماليي‬
‫تهيه كننده‪:‬‬
‫با تشكر فراوان از استاد گرامي جناب آقاي دكتر عبدهللا زاده‬
‫دانش‬
‫دانش‬
‫سيگنال صوتي‬
‫‪2‬‬
‫زبان طبيعي‬
‫‪ ‬زبان طبيعي زباني است هر انساني از محيط آموخته و‬
‫در تعامالت خود با ديگران بكار مي برد (مي نويسد و‬
‫صحبت مي كند ) (‪)1‬‬
‫‪ ‬در مقابل زبان طبيعي‪ ،‬زبانهاي مصنوعي‪ ،‬زبانهايي‬
‫هستند كه بوسيله انسانها به منظور تعامل با فناوريهاي‬
‫خود ساخته اند‪ .‬مانند زبانهاي برنامه نويسي (‪)1‬‬
‫‪3‬‬
‫‪National processing Language‬‬
‫‪ NLP ‬اين ادعا را دارد که با خودکار‬
‫کردن پردازش زبان‪ ،‬سيستم هاي مفيدي بر‬
‫پايه اين توصيفات بوجود آورد‪)2( .‬‬
‫‪4‬‬
5
‫پردازش زبان طبيعي‬
‫‪‬‬
‫‪‬‬
‫هدف از پردازش زبان طبيعي اين است که کامپيوترها از زبان طبيعي به‬
‫عنوان ورودي و خروجي استفاده نمايند‪)2( .‬‬
‫به عبارت ديگر تعيين سيستمي از نشانه ها‪ ،‬ارتباطات و اطالعات مفهومي‬
‫كه مي تواند توسط كامپيوتر در ترجمه ماشيني بكار گرفته شود‪)3(.‬‬
‫‪6‬‬
‫مثالهايي از كاربردهاي ‪NLP‬‬
‫‪7‬‬
‫کاربرد هاي‪NLP‬‬
‫‪ ‬کاربرد ها مي توانند به راه هاي مختلفي دسته بندي‬
‫شوند‪.‬به عنوان مثال‪ :‬وسيله‪/‬بعد‪،‬عمق تحليلها ‪،‬درجه‬
‫تعامالت‪.‬‬
‫ کاربرد هاي بر پايه متن‪.‬‬‫ فهم زبان طبيعي‪.‬‬‫ سيستم هاي مکالمه‪.‬‬‫ چند بعدي‪.‬‬‫‪8‬‬
‫کاربرد هاي بر پايه متن‬
‫‪ ‬پردازش متون نوشته شده مثل‪،‬کتابها‪،‬اخبار‪،‬مقاالت‪،‬گزارش‬
‫ها‬
‫ يافتن سند مناسب در عنوان هاي مشخص از يک پايگاه‬‫داده متني‪.‬‬
‫ استخراج اطالعات از پيام ها مقاالت‪،‬صفحات وب و ‪...‬‬‫ ترجمه سند از يک زبان به زبان ديگر‪.‬‬‫ تلخيص متن‪.‬‬‫* نکته‪ :‬همه اين کاربرد ها نيازمند ‪ NLP‬نيستند‪.‬‬
‫تکنيک هايي که بر پايه کلمات کليدي هستند مي توانند‬
‫براي شناخت نواحي موضوعي خاص موفق باشند‪.‬‬
‫‪9‬‬
‫سطوح پردازش زبان طبيعي‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫(‪Phonology & Phonotics‬‬
‫تجزيه و تحليل آوايي‬
‫)‬
‫تجزيه و تحليل صرفي (‪)Morphology‬‬
‫تجزيه و تحليل نحوي (‪)Syntatic‬‬
‫تجزيه و تحليل معنايي (‪)Semantic‬‬
‫تجزيه و تحليل كاربردي يا عملي (‪)Progmatic‬‬
‫‪10‬‬
‫سطح ‪1‬‬
‫تجزيه و تحليل آوايي‬
‫( ‪)phonetics & phonology‬‬
‫‪11‬‬
‫تجزيه و تحليل آوايي‬
‫‪ ‬هر زباني كلمات خود را از تعداد محدودي از آواها‬
‫(‪)Phonemes‬مي سازد‪.‬‬
‫‪ ‬صدا شناسي (‪ )Phonology‬به ترتيب آواها و درك‬
‫قوانين آنها در گفتار مرتبط مي باشد‬
‫‪ ‬آوا شناسي (‪)Phonotic‬به ويژگيهاي صوتي گفتار و‬
‫شيوه بيان آنها مرتبط مي باشد (‪)3‬‬
‫‪12‬‬
‫سطح ‪2‬‬
‫تجزيه و تحليل صرفي‬
‫(‪)Morphology‬‬
‫‪13‬‬
‫تجزيه و تحليل صرفي‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫واژك ( ‪ :)morpheme‬كوچكترين بخش از يك كلمه كه مي تواند يك معني‬
‫مجرد را به هراه داشته باشد‪)3( .‬‬
‫در اين سطح‪ ،‬تشخيص تك تك كلمات ورودي زبان طبيعي انجام مي‬
‫گيرد‪.‬‬
‫براي انجام اين كار نياز به يك فرهنگ لغات است‪ .‬اما مي توان برخي از‬
‫كلمات را از برخي ديگر بدست آورد‪.‬‬
‫منطقي ترين راه‪ :‬ريشه كلمات در فرهنگ لغت جاي گرفته و بقيه كلمات‬
‫با استفاده از قواعد الزم‪ ،‬ساخته شوند‪ .‬اين قواعد را قواعد صرفي‬
‫(‪)Morpholigical rules‬مي تامند (‪)4‬‬
‫با قواعد صرفي مي توان بوسيله يك كلمه‪ ،‬مجموعه وسيعي از كلمات را‬
‫توليد يا آنكه ريشه يك كلمه را بدست آورد‪.‬‬
‫‪14‬‬
‫تجزيه و تحليل صرفي (‪)Morphology‬‬
‫‪ ‬در سطح تجزيه و تحليل صرفي‪ ،‬كلمه مورد‬
‫بررسي قرار مي گيرد تا در صورت بكار‬
‫رفتن قواعد صرفي‪ ،‬ريشه آن استخراج‬
‫گردد‪.‬‬
‫‪15‬‬
:)forml Language( ‫ زبان رسمي‬
 Is set of strings, each string composed
of symbols, from a finite symbol-set
called Alphbet
 Formal Language <> Natural Language

16
Formal Language = Part Of Natural Language
‫‪Morphology & Finite state transdure‬‬
‫‪ ‬عبارات با قاعده (‪)R.E.‬مي تواند در جستجوي‬
‫يك كلمه در جمله استفاده شود‪ .‬اما اين عمل براي‬
‫كلمات مفرد يا جمع مي تواند مشكل باشد‪.‬‬
‫‪‬‬
‫مثال‪ :‬برخي كلمات خود جمع هستند و برخي ‪ s‬يا ‪ es‬مي گيرند‪.‬‬
‫‪Animal ->Animals‬‬
‫‪Fish->fish‬‬
‫‪Fox->Foxes‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪17‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫براي حل اين مشكل از ‪ Morphological Rule‬استفاده مي نمايند‪.‬‬
‫مسئله تشخيص آنكه ‪ Foxes‬به دو قسمت ‪ fox & es‬تقسم‬
‫شده است‪ ،‬در ‪ Morpholigical Parsing‬مطرح مي شود‪.‬‬
‫‪ Parsing‬آن است كه يك ورودي گرفته و ساختار آنرا‬
‫مشخص نمايد‪.‬‬
‫عبارت ‪ Parsing‬براي ‪ Morpholocal‬و ‪ Syntatic‬و‬
‫‪ symantic‬و ‪ Progmatic‬نيز بكار مي رود‪.‬‬
‫‪18‬‬
‫‪ ‬مسايل مورد بحث در ‪ Parsing‬ريشه‬
‫يابي مي باشد‪.‬‬
‫‪ Morphology ‬مطالعه بروي آن است كه‬
‫كلمات از قسمت معني دار كوچكتري بنام‬
‫‪ Morphemes‬تشكيل شده است‪ .‬مثال‬
‫‪ Fox‬يك ‪ morpheme‬است‪.‬‬
‫‪19‬‬
‫‪Finite State Morphological Parsing‬‬
‫براي ساخت ‪ Morphological Parser‬حداقل به موارد زير نياز‬
‫است‪:‬‬
‫‪ :Lexicon -1‬همه ريشه ها و وند ها را ليست كرده است‪.‬‬
‫‪ :Morphotectics -2‬مدلي از ترتيب ‪ Morpheme‬كه تشريح مي‬
‫كند كه كدام كالس به دنبال كالس ديگري مي آيد‪.‬‬
‫‪ :orthographic rules -3‬اين قواعد اماليي براي مدل كردن‬
‫تغييراتي كه در يك كلمه رخ مي دهد بكار مي رود‪ .‬معموال هنگامي‬
‫كه در ‪ Morpheme‬تركيب مي شوند‪City -> sites (y->ie) :‬‬
‫‪20‬‬
‫‪Lexicon & Morphotactics‬‬
‫‪ Lexicon ‬در حالت ساده مي بايست شامل همه كلمات‬
‫يك زبان باشد‪ .‬اما بر اساس آنچه كه قبال گفته شد‪ ،‬كلمات‬
‫مي توانند از ريشه و وند ها ساخته شوند‪.‬‬
‫‪ ‬يكي از ساده ترين روشها استفاده از ‪ F.S.A‬مي باشد‪.‬‬
‫‪21‬‬
‫‪Finite State transducers‬‬
‫توسعه اي از ‪ F.S.A‬است كه مي تواند سيمبولهاي‬
‫خروجي توليد نمايد‬
‫‪22‬‬
‫‪Porter Algorithm‬‬
‫‪ ‬به دقت مدل ‪ Transducer‬نمي باشد اما در‬
‫كاربردهايي كه دقيقا ‪ Morphological‬مورد نياز‬
‫نميباشد مانند بازيابي اطالعات ‪ IR‬مناسب تر است‪.‬‬
‫‪ ‬به ‪ Lexicon Fraa FST‬معروف است‪.‬‬
‫‪ ‬مانند هنگامي كه يك كلمه را در وب جستجو مي نماييم‪.‬‬
‫‪ ‬مبتني بر يكسري قواعد به صورت آبشاري است‪.‬‬
‫‪23‬‬
‫مدلهاي آماري‬
‫(‪)pronunciation & Spelling‬‬
‫‪ ‬آمارها نشان مي دهد كه حدود ‪ %0.05‬از هر نوشته و‬
‫حدود ‪ %38‬از نوشته هاي سخت داراي غلط اماليي‬
‫هستند‪.‬‬
‫‪ Access -> actress or acress‬‬
‫‪ ‬بررسي كلمه (‪ )access‬به حالتهاي ممكن در‬
‫ديكشنري و انتساب يك عدد احتمال به هر يك از‬
‫حالتهاي ممكن‪.‬‬
‫‪24‬‬
‫انواع غلطهاي اماليي‬
‫‪ KUKICH(1992) ‬در بررسيهاي خود بروي تصحيح خطا‪،‬‬
‫آنها را به ‪ 3‬مشكل دسته بندي كرد‪:‬‬
‫‪ -1‬تشخيص غلطهاي اماليي كه كلمه نيستند‪Non-word .‬‬
‫‪error detection‬‬
‫‪ -2‬تشخيص غلطهاي اماليي كه كلمه نبوده ولي داراي حروف‬
‫اضافي هستند‪Isolated-word error .‬‬
‫‪ -3‬براي تشخيص و تصحيح غلط اماليي نياز به متن مي باشد‪.‬‬
‫‪Contex-dependendent error detection and‬‬
‫‪correction‬‬
‫‪25‬‬
‫مدلهاي تشخيص غلط‬
‫مدلهاي احتمالي زير استفاده مي گردد‪:‬‬
‫‪Bayson Interface -1‬‬
‫‪Noisy channel -2‬‬
‫‪26‬‬
‫‪Baysian Model‬‬
‫‪ ‬احتمال وقوع هر حرف در يك كلمه به شكل‬
‫زير محاسبه گرديده و مبنايي براي مقايسه‬
‫كلمات كانديد براي جانشين مي باشد‪.‬‬
‫‪27‬‬
‫‪N-Gram Model‬‬
‫‪ ‬در برخي مواقع به علت نويز شديد محيط‬
‫تشخيص كلمه بسيار سخت بوده و مي‬
‫بايست از روش پيش بيني كلمه استفاده‬
‫نماييم‪.‬‬
‫‪ ‬براي تعيين كلمه‪ ،‬يك راه استفاده از تمام‬
‫كلمات فرهنگ لغات مي باشد ولي مي‬
‫بايست ارتباطي با كلمات قبلي در جمله‬
‫‪28‬‬
‫‪Simle N-Grams‬‬
‫‪ N-Gram ‬يك مدل ماركوف مرتبه ‪ n-1‬است‬
‫كه به ‪ n-1‬امين گره قبل از خود نگاه مي كند‪.‬‬
‫‪29‬‬
‫سطح ‪2‬‬
‫تجزيه و تحليل نحوي‬
‫(‪)Syntax‬‬
‫‪30‬‬
‫تجزيه و تحليل نحوي (‪)Syntatic‬‬
‫‪ ‬نحو در زبان‪ ،‬عبارت است از مجموعه قواعدي‬
‫كه جمالت صحيح دستوري را مشخص مي‬
‫نمايد‪)4( .‬‬
‫‪ ‬در اين سطح پردازنده زبان طبيعي بر روي‬
‫اطالعات ساختاري و ارتباطات آنها متمركز مي‬
‫گردد‪)3( .‬‬
‫‪ ‬جمله ورودي از لحاظ مراعات قواعد دستوري‬
‫‪31‬‬
‫تجزيه و تحليل نحوي (‪)Syntatic‬‬
‫‪ ‬در سيستمهاي پردازش زبان طبيعي به‬
‫علت تنوع قواعد نحوي‪ ،‬معموال‬
‫زيرمجموعه اي كه بتواند حداكثر جمالت‬
‫ممكن در يك محدوده يا كاربرد را پوشش‬
‫دهد‪ ،‬انتخاب مي گردد‪)4( .‬‬
‫‪32‬‬
‫نحو ‪Syntax -‬‬
‫‪ ‬اگر كلمات اساس پردازش گفتار زبان باشند‪،‬‬
‫‪ Syntax‬اسكلت آن است‪.‬‬
‫‪ ‬نحو‪ ،‬مطالعه رابطه رسمي بين كلمات است‪.‬‬
‫‪33‬‬
‫نحو‪ -‬در اين سطح‪ ،‬موارد ذيل مطالعه مي گردد‪:‬‬
‫‪ -1‬چگونگي دسته بندي كلمات به كالسهايي كه بخشهاي‬
‫گفتار (‪ )Part-Of-Speech‬ناميده مي شود‪.‬‬
‫‪ -2‬چگونگي گروه بندي آنها به همسايگانشان درون‬
‫عبارت‬
‫‪ -3‬چگونگي وابستگي كلمات به ساير كلمات در جمله‬
‫‪34‬‬
‫ مدلهاي مورد تشريح‬-‫نحو‬
Contex – Free – Grammar -1
Lexicalized Grammar -2
Feacher Structure-3
Mata Theorical Issues such as -4
Chomeskey Hierarchey
35
‫ الگوريتمها‬-‫نحو‬
Combination ‫ براي نشان دادن‬Unification -1
Parsing ‫ براي‬CYK -2
:‫همچنين شامل مدلهاي احتمالي‬
Hiden Markov Model (HMM) ,
Probabilistic Contex-Free-Grammar
36
‫‪Word Classes & Part-of-Speech Tagging‬‬
‫‪‬‬
‫دسته بندي كلمات در كالسها‬
‫‪‬‬
‫كالسهاي عمده كلمات زبان انگليسي‪:‬‬
‫‪ : Closed Class -1‬معموال ثابت است‪ .‬مانند حروف اضافه‬
‫‪ : Open class-2‬از زبانهاي ديگر اضافه مي شود‪ .‬مانند اسامي‬
‫و افعال‬
‫‪37‬‬
‫برچسب زدن – ‪Part Of Speech Tagging‬‬
‫‪ ‬فرايندي از انتخاب يك بر چسب به دنباله اي از كلمات‬
‫است‪.‬‬
‫‪ Tagging ‬مي تواند قاعده مند يا تصادفي باشد‪:‬‬
‫ ‪ :Rule Base Tagging‬از قواعد دستي استفاده مينمايد‪.‬‬‫‪ :Stochastic‬بر اساس مدل مخفي ماركوف يا ‪Cue-‬‬‫‪ Base‬از درخت تصميم يا مدلهاي بي نظم استفاده‬
‫مينمايد‪.‬‬
‫‪38‬‬
Context-free-Grammar for English
39
‫ سه ايده براي مرتب قرار گرفتن كلمات در‬
:‫) وجود دارد‬Syntax( ‫يك جمله‬
Consisty -1
Grammatical-Relations -2
SubCategorization & -3
Dependencies
40
‫‪Consisty‬‬
‫‪ ‬گروهي از كلمات كه مي توانند بعنوان يك‬
‫واحد يا اصطالح باشند‪.‬‬
‫‪ ‬مانند‪Noun Phrase :‬‬
‫‪ C.F.G ‬اجازه مي دهد تا بتوانيم‬
‫‪ Consisty‬را مدل نماييم‬
‫‪41‬‬
‫‪Grammatical-Relations‬‬
‫‪ ‬ارتباطات بين اجزاي جمله مانند فاعل و‬
‫مفعول را نشان مي دهد‪.‬‬
‫‪42‬‬
‫& ‪SubCategorization‬‬
‫‪Dependencies‬‬
‫‪ ‬به انواع معيني از ارتباطات بين كلمات و‬
‫اصطالحات ارجاع مي دهد‪.‬‬
‫‪ ‬مثال‪ :‬فعل ‪Want‬مي تواند پس از آن اسم‬
‫يا مصدر بيايد‪:‬‬
‫‪I Want to fly to Birjand‬‬
‫‪I want a flight to Birjand‬‬
‫‪43‬‬
‫‪Context-free-Grammar & Trees‬‬
‫‪ C.F.G ‬الزمه بسياري از مدلهاي نحوي زبان طبيعي‬
‫ميباشد‪.‬‬
‫‪ ‬يك سيستم عمومي رياضي براي مدل كردن‬
‫‪ Constituency‬در انگليسي يا ساير زبانهاي طبيعي‬
‫استفاده از ‪ C.F.G‬مي باشد‪.‬‬
‫‪ ‬بنام ‪ Phrase-Structure-Grammar‬نيز معروف‬
‫است‬
‫‪44‬‬
‫‪Context-free-Grammar & Trees‬‬
‫‪ ‬يك ‪ CFG‬شامل مجموعه قوانيني است كه نشان مي‬
‫دهد كه چگونه عاليم زباني در يك گروه قرار گرفته يا‬
‫آنكه با ساير لغات و سيبولها به صورت منظم درآيند‪.‬‬
‫‪ ‬مثال‪:‬‬
‫‪45‬‬
‫‪Context-free-Grammar & Trees‬‬
‫‪ ‬مي توانيم اشتقاق (‪ )Drivation‬را با‬
‫درخت ‪ Parse Tree‬نشان دهيم‬
‫‪ ‬در زبان ‪ Lisp‬به صورت زير نمايش‬
‫داده ميشود‪:‬‬
‫‪46‬‬
‫‪ Syntax‬در زبان گفتاري‬
‫‪ ‬زبانهاي نوشتاري و گفتاري در عين شباهات بسيار‪،‬‬
‫داراي تفاوتهايي هستند‪.‬‬
‫‪ ‬در سخن گفتن‪ ،‬مكث‪ ،‬عباراتي اضافي مانند ‪em, uh‬‬
‫كه به ‪ non verbal events‬معروف هستند وجود‬
‫دارد‪.‬‬
‫‪ ‬عباراتي كه در نوشتار كمتر استفاده مي شود وجود‬
‫دارد‪.‬‬
‫‪ ‬امكان تكرار و تصحيح يك كلمه وجود دارد‪.‬‬
‫‪47‬‬
‫‪F.S & C.F.G‬‬
‫‪ ‬يكي از مشكالت استفاده از ‪Finite State‬‬
‫‪ Grammar‬عبارتست از بازگشت‬
‫‪ ‬براي حل اين مشكل از مكانيزم ‪RTN‬‬
‫(‪)Recursive Transition Network‬‬
‫استفاده مي شود‪.‬‬
‫‪ ‬با استفاده از اين مكانيزم مي توان يك دستور‬
‫زبان مستقل از متن را تجزيه و تشريح كرد‪.‬‬
‫‪48‬‬
‫‪Recursive Transition Network‬‬
‫‪ ‬شامل مجموعه اي از شبكه ها (گرافها)‬
‫است‪.‬‬
‫‪ ‬هر شبكه داراي مجموعه اي از گره ها و‬
‫كمانهاي جهت دار متناظر با موارد زير‪:‬‬
‫‪ -1‬عالمت تهي‬
‫‪ -2‬نام يك شبكه ديگر‬
‫‪49‬‬
‫‪Parsing With Context Free Grammar‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ :Parsing‬تشخيص يك رشته ورودي و انتساب برخي‬
‫از ساختارها به آن‪.‬‬
‫‪ :Syntactic Parsing‬وظيفه تشخيص يك كلمه و انتساب‬
‫يك ساختار نحوي به آن‪.‬‬
‫‪ :Parsing Tree‬در مواردي مانند ‪Grammar‬‬
‫‪ Checking‬كاربرد دارد‪.‬‬
‫‪ Parsing‬يك مرحله مياني براي تحليل معنايي بوده ‪.‬‬
‫بنابراين نقش مهمي در كاربردهايي مانند ترجمه ماشيني‬
‫و پاسخگويي به سئوال و استخراج دانش دارد‪.‬‬
‫‪50‬‬
َAlgorithms
Early
Algorithm
CFG Algorithms Such as:
–Minimum-Edit-Distance
–Viterbi
–Forward
Cocke-Younger-Kasami
(CYK)
Graham-Harrison-Ruzzo (HGR)
51
‫‪Parsing ‬همانند جستجو ديده مي شود‪.‬‬
‫‪ ‬در ‪ Parsing‬فضاي جستجو بوسيله گرامر‬
‫تعريف مي شود‪.‬‬
‫‪ ‬در نوع معماري جستجو ‪:‬‬
‫‪ ‬باال به پاييي‬
‫‪ ‬پايين به باال‬
‫‪52‬‬
53
54
Top-down Parse ‫مشكالت‬
1- Left recursion
55
‫مشكالت ‪Top-down Parse‬‬
‫‪‬‬
‫‪2- Ambiguity‬‬
‫در صورتيكه گرامر به يك جمله بيشتر از يك پيمايش بدهد‬
‫داراي ابهام ساختاري است‪.‬‬
Top-down Parse ‫مشكالت‬
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
Top down Parse ‫رفع مشكالت‬
1- Early Algorithm
2- Recursive Transition Network
‫‪Probabilitistic Context free Grammar‬‬
‫‪ ‬يكي از كاربردهاي آن از بين بردن ابهام‬
‫است‪.‬‬
‫‪ ‬يك مقدار احتمال به يك جمله يا دنباله اي از‬
‫كلمات اختصاص مي دهد‪.‬‬
‫‪ ‬يك ‪ PCFG‬نوعي از ‪ CFG‬است كه‬
‫بطوريكه هر قانون با ”احتمال انتخاب آن‬
‫قانون“ مشخص شده است‪.‬‬
Parseres ‫ارزيابي‬
:‫ با سه ابزار ارزيابي مي گردند‬
1- labaled recall
2- Labeled Precision
3- Cross-bracker
‫‪ ‬انسانها نيز براي كارهايي مانند دسته بندي‬
‫اطالعات از روشهاي دانش گرامري‬
‫احتمالي استفاده مي نمايند‪.‬‬
‫سطح‪4‬‬
‫تجزيه و تحليل معنايي‬
‫(‪)Semantic‬‬
‫‪66‬‬
‫تجزيه و تحليل معنايي (‪)Semantic‬‬
‫‪ ‬جمالتي كه از نظر دستوري درست بوده و‬
‫از سطح تجزيه و تحليل نحوي عبور نمايند‬
‫به سطح تجزيه و تحليل معنايي مي رسند‪.‬‬
‫‪ ‬در اين سطح پردازنده يك معني مطلق را از‬
‫متن استخراج مي نمايد (‪)3‬‬
‫‪67‬‬
‫تجزيه و تحليل معنايي (‪)Semantic‬‬
‫‪ ‬ارتباط بين عبارات در يك جمله گاهي‪ ،‬بدون ارجاع به‬
‫محتواي جمالت ديگر ممكن نيست‪.‬‬
‫‪ John told Bob That he hah lost his hat.‬‬
‫‪ Joe works on the Marry Ann‬‬
‫‪ ‬در جمله اول ‪ he , His‬داراي ابهام است‪.‬‬
‫‪ ‬در جمله دوم ‪ Marry Ann‬نام يك كشتي مي باشد‪.‬‬
‫‪68‬‬
‫‪Semantic‬‬
‫‪ ‬مطالعه معني گفتار مي باشد‪.‬‬
‫‪ ‬مرحله ‪:1‬بر روي منطق مرتبه اول تمركز مي نمايد‪.‬‬
‫‪ ‬مرحله ‪ :2‬براي حل مسايل اجرايي زير استفاده مي‬
‫گردد‪:‬‬
‫استخراج اطالعات ‪Information extraction‬‬
‫پاسخگويي به پرسش ‪Question Answering‬‬
‫‪ ‬مرحله ‪ :3‬معاني كلمات‪ ،‬معني مختلف در فرهنگ‬
‫لغات و الگوريتمهايي براي تشخيص ابهام كلملت در‬
‫مفهوم نمايشي ‪Representing Meaning‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ساخت نمايش مفهومي رسمي (‪)Formal Meaning Representation‬‬
‫كه معاني مرتبط با محتويات ورديهاي زبان را نگه مي دارد‪ ،‬يك‬
‫روش مهم در معاني زبانهاي محاسباتي مي باشد‪.‬‬
‫زبان بازنمايي مفهوم (‪:)meaning Representitional Lang.‬‬
‫محيطي است كه صرف و نحور اين بازنمايي را مشخص مي‬
‫نمايد‪.‬‬
‫چنين زبانهايي به صورت گسترده در ‪ NLP‬و ‪ AI‬كاربرد دارد‪.‬‬
‫‪ ‬الزمه چنين بازنمايي‪ ،‬توانايي در پشتيباني نيازمنديهاي‬
‫محاسباتي پردازش معنايي مي باشد‪ ،‬نياز براي ‪:‬‬
‫‪ -1‬تعيين درستي گزاره ها‬
‫‪ -2‬پشتيباني از بازنماييهاي غير مبهم‬
‫‪ -3‬بيان و نمايش متغيرها‬
‫‪ -4‬پشتيباني از استنتاج‬
‫‪ -5‬آنكه با معني باشد‬
‫‪ ‬كالسهاي اصلي معنا‪:‬‬
‫‪1- Categories‬‬
‫‪2-Events‬‬
‫‪3- Time‬‬
‫‪ ‬فريمها و شبكه هاي معنايي مي توانند درون محيط‬
‫‪ EOPC‬مي توانند نگهداري گردند‪.‬‬
‫‪Semantic Analysis‬‬
‫‪ ‬تحليل معنايي‪،‬ورودي (جمله) به ‪Parser‬‬
‫فرستاده شده تا تحليل نحوي را توليد و سپس به‬
‫تحليلگر معنايي ارسال مي نمايد تا نمايش معنايي‬
‫را توليد نمايد‬
‫‪‬‬
‫در شكل ‪parse tree‬بعنوان ورودي نشان داده شده‪ ،‬ولي‬
‫نمايشهاي ديگري مانند ‪ feature structures‬و ‪lexical‬‬
‫‪ dependency diagrams‬مي توانند بكار روند‪.‬‬
‫‪74‬‬
‫‪ Parse tree‬بعنوان ورودي‬
‫سيستمهاي استخراج اطالعات‬
‫‪ ‬سيستمهاي استخراج اطالعات مبتني بر‬
‫‪ -1‬دانش مورد نظر مي تواند (‪ )Template‬ساده‬
‫و ثابت يا فريمها تشريح گردند‪.‬‬
‫‪-2‬تنها بخش كوچكي از متن براي پركردن فريمها‬
‫مورد نياز بوده و بقيه صرف نظر مي گردد‪.‬‬
‫سطح ‪5‬‬
‫تجزيه و تحليل كاربردي يا‬
‫عملي (‪)Progmatic‬‬
‫‪77‬‬
‫تجزيه و تحليل كاربردي‬
‫‪ ‬مسئله ‪ :‬آيا مفهومي كه سيستم براي جمله ورودي در‬
‫نظر گرفته‪ ،‬همان است كه منظور كاربر بود يا خير؟‬
‫‪ ‬براي آنكه مفهومي كه سيستم از ورودي درك مي كند‬
‫بر مفهومي كه منظور كاربر بوده‪ ،‬منطبق گردد‪ ،‬بايد‬
‫دانش ضمني كاربر در آن محدوده‪ ،‬به شكلي براي‬
‫سيستم تعريف گردد‪.‬‬
‫‪ ‬دايره المعارف يا پايگاه دانش پياده سازي مي گردد‪.‬‬
‫تجزيه و تحليل كاربردي يا عملي (‪)Progmatic‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫پردازنده زبان طبيعي‪ ،‬دانشي را درباره درك عمومي (برداشتي‬
‫كه ديگران از جمله مي نمايند) را مي دهد‪ .‬در اين سطح مسئله‬
‫اين است كه آيا سيستم همان مفهومي را براي جمله ورودي در‬
‫نظر گرفته كه منظور كاربر بوده است يا خير‪)3( .‬‬
‫براي آنكه مفهومي كه سيستم از ورودي درك مي نمايد با مفهوم‬
‫مورد نظر كاربر منطبق گردد‪ ،‬مي بايست دانش ضمني‬
‫(‪ )Impilicit Knowledge‬كاربر براي سيستم تعريف گردد‪.‬‬
‫براي اين منظور مي بايست يك پايگاه دانش براي سيستم در‬
‫نظر گرفته شود‪.‬‬
‫‪79‬‬
‫كاربرد‬
 Discourse
 Dialogue
and Conversational
Agents
 Generation
 Machine Translation
‫سخن گفتن ( ‪)Discourse‬‬
‫‪ ‬كامپيوترها بوجود آمده اند تا اجازه دهند تا انجام‬
‫اعمال متقابل كامپيوتر و انسان (‪)HCI‬صورت‬
‫پذيرد‪.‬‬
‫‪ HCI ‬داراي ويژگيهايي است كه آنرا از گفتگوي‬
‫متداول انسان‪-‬انسان مجزا مي نمايد‪.‬‬
‫‪ ‬گفتگوها ‪Monolog & Dialog :‬‬
‫‪ ‬تفسير گفتگو نياز به ساخت مدلي با نام مدل‬
‫گفتگو دارد كه شامل نمايشي از اجزايي كه‬
‫به جايي اشاره نموده و ارتباط بين آنها مي‬
‫باشد‪.‬‬
‫مشكالت‬
‫‪ -1‬استفاده از روشهاي ارجاع مانند ضماير‬
‫‪ -2‬استفاده از حروف ربط‬
‫‪ -3‬تشخيص ساختار گفتار‬
‫الگوريتم ها‬
Lappin and Leass (1994)
 A Tree Search Algorithm
 Acetering Algorithm

‫‪Dialog & Conversational Agents‬‬
‫‪ -1‬تفاوت ديالوگ با نوشته يا منولوگ‬
‫‪ -2‬ديالوگ به صورت نوبتي انجام مي گيرد‬
‫‪ -3‬يك عمل دسته جمعي بين شنونده وگوينده است و‬
‫شنونده بايد صحبتهاي گوينده را تاييد كند‪.‬‬
‫تفاوت ديالوگ با نوشته ‪ -‬ادامه‬
‫‪ -4‬گاهي تفسير بيشتر از آنچه كه در يك جمله‬
‫خواسته شده است مي باشد‪.‬‬
‫نقشهاي عمل گفتگو‬
‫‪ -1‬بيان يك معني‬
‫‪ -2‬پاسخ به سئوال‪ ،‬پرسيدن سئوال‪ ،‬وعده دادن و‪...‬‬
‫‪ -3‬بيان احساس و فكر‬
‫تفسير و ترجمه اتوماتيك نقشهاي گفتگو‬
‫در ابتدا بايد بدانيم كه ورودي داده شده‪،‬‬
‫سئوال‪ ،‬عبارت‪ ،‬راهنمايي يا تصديق است‪.‬‬
‫سپس بر اساس آن تصميم بگيريم‪.‬‬
‫مدل گفتگو‬
‫‪‬‬
‫‪‬‬
‫يكي از مهمترين اجزاي مدل كردن گفتگو‪،‬تفسير نقشهاي گفتگو‬
‫است‪.‬‬
‫براي اينكار الگوريتمهاي زير ارايه شده است‪:‬‬
‫‪1- Cue-Based‬‬
‫‪2-Plan-Based‬‬
‫مدير گفتگو‪ ،‬براي عاملهاي محاوره اي از سيستمهاي توليد ‪Frame‬‬
‫‪ Base‬تا )‪ Belief-desire-intention (EBI‬استفاده مينمايد‪.‬‬
‫توليد (‪)Generation‬‬
‫‪ ‬توليد زبان يكي از مهمترين بخشهاي پردازش‬
‫زبان است‪.‬‬
‫‪ ‬يكي از مهمترين و نخستين بخشهايي كه براين‬
‫اساس كار مي كرد‪ Eliza ،‬طراحي شده توسط‬
‫‪ Wiezenbaum‬بود‪.‬‬
‫‪ ‬وظيفه آن شبيه سازي سخنان يك روانشناس بود‪.‬‬
‫توليد (‪)Generation‬‬
‫‪Natural Language Generation ‬‬
‫)‪ : (NLG‬فرايند ساخت خرئجي زبان‬
‫طبيعي از ورودي غير زباني است‪.‬‬
‫‪ ‬هدف آن برعكس درك زبان طبيعي است‪.‬‬
‫‪ NLG ‬معني را به متن تبديل كرده در‬
‫حاليكه ‪ NLU‬متن را به معني تبديل مي‬
‫نمايد‪.‬‬
‫انتخابهاي سيستمهاي توليد‬
‫‪ -1‬انتخاب محتوا‬
‫‪ -2‬انتخاب لغت‬
‫‪ -3‬انتخاب ساختار جمله‬
‫‪ -4‬انتخاب سخن (‪)Discourse‬‬
‫معماري سيستمهاي توليد‬
‫مراجع‬
1- Introduction to Natural Language Processing by Mary Dee
Harris Reston Publishers, Reston, Virginia; 1985
‫ دانشگاه صنعتي‬،‫ پايان نامه كارشناسي ارشد الكترونيك‬،‫ جواد نصير زاده‬-2
1375 ،‫امير كبير‬
‫ آزمايشگاه سيستمهاي خبره به‬،‫ وب سايت دانشگاه صنعتي امير كبير‬-3
: ‫آدرس‬
http://ceit.aut.ac.ir/islab/courses/NLP/home.php
4- Speech and Language Processing An Introduction to
Natural Language Processing, Computational
Linguistics and Speech Recognition; Daniel Jurafsky
and James H. Martin ;Prentice-Hall, Inc. ; 2000

سطوح پردازش زبان طبيعي

Transcript سطوح پردازش زبان طبيعي

Directory