سطوح پردازش زبان طبيعي
Download
Report
Transcript سطوح پردازش زبان طبيعي
پردازش زبان طبيعي
سطوح پردازش
نيما ماليي
تهيه كننده:
با تشكر فراوان از استاد گرامي جناب آقاي دكتر عبدهللا زاده
دانش
دانش
سيگنال صوتي
2
زبان طبيعي
زبان طبيعي زباني است هر انساني از محيط آموخته و
در تعامالت خود با ديگران بكار مي برد (مي نويسد و
صحبت مي كند ) ()1
در مقابل زبان طبيعي ،زبانهاي مصنوعي ،زبانهايي
هستند كه بوسيله انسانها به منظور تعامل با فناوريهاي
خود ساخته اند .مانند زبانهاي برنامه نويسي ()1
3
National processing Language
NLP اين ادعا را دارد که با خودکار
کردن پردازش زبان ،سيستم هاي مفيدي بر
پايه اين توصيفات بوجود آورد)2( .
4
5
پردازش زبان طبيعي
هدف از پردازش زبان طبيعي اين است که کامپيوترها از زبان طبيعي به
عنوان ورودي و خروجي استفاده نمايند)2( .
به عبارت ديگر تعيين سيستمي از نشانه ها ،ارتباطات و اطالعات مفهومي
كه مي تواند توسط كامپيوتر در ترجمه ماشيني بكار گرفته شود)3(.
6
مثالهايي از كاربردهاي NLP
7
کاربرد هايNLP
کاربرد ها مي توانند به راه هاي مختلفي دسته بندي
شوند.به عنوان مثال :وسيله/بعد،عمق تحليلها ،درجه
تعامالت.
کاربرد هاي بر پايه متن. فهم زبان طبيعي. سيستم هاي مکالمه. چند بعدي.8
کاربرد هاي بر پايه متن
پردازش متون نوشته شده مثل،کتابها،اخبار،مقاالت،گزارش
ها
يافتن سند مناسب در عنوان هاي مشخص از يک پايگاهداده متني.
استخراج اطالعات از پيام ها مقاالت،صفحات وب و ... ترجمه سند از يک زبان به زبان ديگر. تلخيص متن.* نکته :همه اين کاربرد ها نيازمند NLPنيستند.
تکنيک هايي که بر پايه کلمات کليدي هستند مي توانند
براي شناخت نواحي موضوعي خاص موفق باشند.
9
سطوح پردازش زبان طبيعي
.1
.2
.3
.4
.5
(Phonology & Phonotics
تجزيه و تحليل آوايي
)
تجزيه و تحليل صرفي ()Morphology
تجزيه و تحليل نحوي ()Syntatic
تجزيه و تحليل معنايي ()Semantic
تجزيه و تحليل كاربردي يا عملي ()Progmatic
10
سطح 1
تجزيه و تحليل آوايي
( )phonetics & phonology
11
تجزيه و تحليل آوايي
هر زباني كلمات خود را از تعداد محدودي از آواها
()Phonemesمي سازد.
صدا شناسي ( )Phonologyبه ترتيب آواها و درك
قوانين آنها در گفتار مرتبط مي باشد
آوا شناسي ()Phonoticبه ويژگيهاي صوتي گفتار و
شيوه بيان آنها مرتبط مي باشد ()3
12
سطح 2
تجزيه و تحليل صرفي
()Morphology
13
تجزيه و تحليل صرفي
واژك ( :)morphemeكوچكترين بخش از يك كلمه كه مي تواند يك معني
مجرد را به هراه داشته باشد)3( .
در اين سطح ،تشخيص تك تك كلمات ورودي زبان طبيعي انجام مي
گيرد.
براي انجام اين كار نياز به يك فرهنگ لغات است .اما مي توان برخي از
كلمات را از برخي ديگر بدست آورد.
منطقي ترين راه :ريشه كلمات در فرهنگ لغت جاي گرفته و بقيه كلمات
با استفاده از قواعد الزم ،ساخته شوند .اين قواعد را قواعد صرفي
()Morpholigical rulesمي تامند ()4
با قواعد صرفي مي توان بوسيله يك كلمه ،مجموعه وسيعي از كلمات را
توليد يا آنكه ريشه يك كلمه را بدست آورد.
14
تجزيه و تحليل صرفي ()Morphology
در سطح تجزيه و تحليل صرفي ،كلمه مورد
بررسي قرار مي گيرد تا در صورت بكار
رفتن قواعد صرفي ،ريشه آن استخراج
گردد.
15
:)forml Language( زبان رسمي
Is set of strings, each string composed
of symbols, from a finite symbol-set
called Alphbet
Formal Language <> Natural Language
16
Formal Language = Part Of Natural Language
Morphology & Finite state transdure
عبارات با قاعده ()R.E.مي تواند در جستجوي
يك كلمه در جمله استفاده شود .اما اين عمل براي
كلمات مفرد يا جمع مي تواند مشكل باشد.
مثال :برخي كلمات خود جمع هستند و برخي sيا esمي گيرند.
Animal ->Animals
Fish->fish
Fox->Foxes
17
براي حل اين مشكل از Morphological Ruleاستفاده مي نمايند.
مسئله تشخيص آنكه Foxesبه دو قسمت fox & esتقسم
شده است ،در Morpholigical Parsingمطرح مي شود.
Parsingآن است كه يك ورودي گرفته و ساختار آنرا
مشخص نمايد.
عبارت Parsingبراي Morpholocalو Syntaticو
symanticو Progmaticنيز بكار مي رود.
18
مسايل مورد بحث در Parsingريشه
يابي مي باشد.
Morphology مطالعه بروي آن است كه
كلمات از قسمت معني دار كوچكتري بنام
Morphemesتشكيل شده است .مثال
Foxيك morphemeاست.
19
Finite State Morphological Parsing
براي ساخت Morphological Parserحداقل به موارد زير نياز
است:
:Lexicon -1همه ريشه ها و وند ها را ليست كرده است.
:Morphotectics -2مدلي از ترتيب Morphemeكه تشريح مي
كند كه كدام كالس به دنبال كالس ديگري مي آيد.
:orthographic rules -3اين قواعد اماليي براي مدل كردن
تغييراتي كه در يك كلمه رخ مي دهد بكار مي رود .معموال هنگامي
كه در Morphemeتركيب مي شوندCity -> sites (y->ie) :
20
Lexicon & Morphotactics
Lexicon در حالت ساده مي بايست شامل همه كلمات
يك زبان باشد .اما بر اساس آنچه كه قبال گفته شد ،كلمات
مي توانند از ريشه و وند ها ساخته شوند.
يكي از ساده ترين روشها استفاده از F.S.Aمي باشد.
21
Finite State transducers
توسعه اي از F.S.Aاست كه مي تواند سيمبولهاي
خروجي توليد نمايد
22
Porter Algorithm
به دقت مدل Transducerنمي باشد اما در
كاربردهايي كه دقيقا Morphologicalمورد نياز
نميباشد مانند بازيابي اطالعات IRمناسب تر است.
به Lexicon Fraa FSTمعروف است.
مانند هنگامي كه يك كلمه را در وب جستجو مي نماييم.
مبتني بر يكسري قواعد به صورت آبشاري است.
23
مدلهاي آماري
()pronunciation & Spelling
آمارها نشان مي دهد كه حدود %0.05از هر نوشته و
حدود %38از نوشته هاي سخت داراي غلط اماليي
هستند.
Access -> actress or acress
بررسي كلمه ( )accessبه حالتهاي ممكن در
ديكشنري و انتساب يك عدد احتمال به هر يك از
حالتهاي ممكن.
24
انواع غلطهاي اماليي
KUKICH(1992) در بررسيهاي خود بروي تصحيح خطا،
آنها را به 3مشكل دسته بندي كرد:
-1تشخيص غلطهاي اماليي كه كلمه نيستندNon-word .
error detection
-2تشخيص غلطهاي اماليي كه كلمه نبوده ولي داراي حروف
اضافي هستندIsolated-word error .
-3براي تشخيص و تصحيح غلط اماليي نياز به متن مي باشد.
Contex-dependendent error detection and
correction
25
مدلهاي تشخيص غلط
مدلهاي احتمالي زير استفاده مي گردد:
Bayson Interface -1
Noisy channel -2
26
Baysian Model
احتمال وقوع هر حرف در يك كلمه به شكل
زير محاسبه گرديده و مبنايي براي مقايسه
كلمات كانديد براي جانشين مي باشد.
27
N-Gram Model
در برخي مواقع به علت نويز شديد محيط
تشخيص كلمه بسيار سخت بوده و مي
بايست از روش پيش بيني كلمه استفاده
نماييم.
براي تعيين كلمه ،يك راه استفاده از تمام
كلمات فرهنگ لغات مي باشد ولي مي
بايست ارتباطي با كلمات قبلي در جمله
28
Simle N-Grams
N-Gram يك مدل ماركوف مرتبه n-1است
كه به n-1امين گره قبل از خود نگاه مي كند.
29
سطح 2
تجزيه و تحليل نحوي
()Syntax
30
تجزيه و تحليل نحوي ()Syntatic
نحو در زبان ،عبارت است از مجموعه قواعدي
كه جمالت صحيح دستوري را مشخص مي
نمايد)4( .
در اين سطح پردازنده زبان طبيعي بر روي
اطالعات ساختاري و ارتباطات آنها متمركز مي
گردد)3( .
جمله ورودي از لحاظ مراعات قواعد دستوري
31
تجزيه و تحليل نحوي ()Syntatic
در سيستمهاي پردازش زبان طبيعي به
علت تنوع قواعد نحوي ،معموال
زيرمجموعه اي كه بتواند حداكثر جمالت
ممكن در يك محدوده يا كاربرد را پوشش
دهد ،انتخاب مي گردد)4( .
32
نحو Syntax -
اگر كلمات اساس پردازش گفتار زبان باشند،
Syntaxاسكلت آن است.
نحو ،مطالعه رابطه رسمي بين كلمات است.
33
نحو -در اين سطح ،موارد ذيل مطالعه مي گردد:
-1چگونگي دسته بندي كلمات به كالسهايي كه بخشهاي
گفتار ( )Part-Of-Speechناميده مي شود.
-2چگونگي گروه بندي آنها به همسايگانشان درون
عبارت
-3چگونگي وابستگي كلمات به ساير كلمات در جمله
34
مدلهاي مورد تشريح-نحو
Contex – Free – Grammar -1
Lexicalized Grammar -2
Feacher Structure-3
Mata Theorical Issues such as -4
Chomeskey Hierarchey
35
الگوريتمها-نحو
Combination براي نشان دادنUnification -1
Parsing برايCYK -2
:همچنين شامل مدلهاي احتمالي
Hiden Markov Model (HMM) ,
Probabilistic Contex-Free-Grammar
36
Word Classes & Part-of-Speech Tagging
دسته بندي كلمات در كالسها
كالسهاي عمده كلمات زبان انگليسي:
: Closed Class -1معموال ثابت است .مانند حروف اضافه
: Open class-2از زبانهاي ديگر اضافه مي شود .مانند اسامي
و افعال
37
برچسب زدن – Part Of Speech Tagging
فرايندي از انتخاب يك بر چسب به دنباله اي از كلمات
است.
Tagging مي تواند قاعده مند يا تصادفي باشد:
:Rule Base Taggingاز قواعد دستي استفاده مينمايد. :Stochasticبر اساس مدل مخفي ماركوف يا Cue- Baseاز درخت تصميم يا مدلهاي بي نظم استفاده
مينمايد.
38
Context-free-Grammar for English
39
سه ايده براي مرتب قرار گرفتن كلمات در
:) وجود داردSyntax( يك جمله
Consisty -1
Grammatical-Relations -2
SubCategorization & -3
Dependencies
40
Consisty
گروهي از كلمات كه مي توانند بعنوان يك
واحد يا اصطالح باشند.
مانندNoun Phrase :
C.F.G اجازه مي دهد تا بتوانيم
Consistyرا مدل نماييم
41
Grammatical-Relations
ارتباطات بين اجزاي جمله مانند فاعل و
مفعول را نشان مي دهد.
42
& SubCategorization
Dependencies
به انواع معيني از ارتباطات بين كلمات و
اصطالحات ارجاع مي دهد.
مثال :فعل Wantمي تواند پس از آن اسم
يا مصدر بيايد:
I Want to fly to Birjand
I want a flight to Birjand
43
Context-free-Grammar & Trees
C.F.G الزمه بسياري از مدلهاي نحوي زبان طبيعي
ميباشد.
يك سيستم عمومي رياضي براي مدل كردن
Constituencyدر انگليسي يا ساير زبانهاي طبيعي
استفاده از C.F.Gمي باشد.
بنام Phrase-Structure-Grammarنيز معروف
است
44
Context-free-Grammar & Trees
يك CFGشامل مجموعه قوانيني است كه نشان مي
دهد كه چگونه عاليم زباني در يك گروه قرار گرفته يا
آنكه با ساير لغات و سيبولها به صورت منظم درآيند.
مثال:
45
Context-free-Grammar & Trees
مي توانيم اشتقاق ( )Drivationرا با
درخت Parse Treeنشان دهيم
در زبان Lispبه صورت زير نمايش
داده ميشود:
46
Syntaxدر زبان گفتاري
زبانهاي نوشتاري و گفتاري در عين شباهات بسيار،
داراي تفاوتهايي هستند.
در سخن گفتن ،مكث ،عباراتي اضافي مانند em, uh
كه به non verbal eventsمعروف هستند وجود
دارد.
عباراتي كه در نوشتار كمتر استفاده مي شود وجود
دارد.
امكان تكرار و تصحيح يك كلمه وجود دارد.
47
F.S & C.F.G
يكي از مشكالت استفاده از Finite State
Grammarعبارتست از بازگشت
براي حل اين مشكل از مكانيزم RTN
()Recursive Transition Network
استفاده مي شود.
با استفاده از اين مكانيزم مي توان يك دستور
زبان مستقل از متن را تجزيه و تشريح كرد.
48
Recursive Transition Network
شامل مجموعه اي از شبكه ها (گرافها)
است.
هر شبكه داراي مجموعه اي از گره ها و
كمانهاي جهت دار متناظر با موارد زير:
-1عالمت تهي
-2نام يك شبكه ديگر
49
Parsing With Context Free Grammar
:Parsingتشخيص يك رشته ورودي و انتساب برخي
از ساختارها به آن.
:Syntactic Parsingوظيفه تشخيص يك كلمه و انتساب
يك ساختار نحوي به آن.
:Parsing Treeدر مواردي مانند Grammar
Checkingكاربرد دارد.
Parsingيك مرحله مياني براي تحليل معنايي بوده .
بنابراين نقش مهمي در كاربردهايي مانند ترجمه ماشيني
و پاسخگويي به سئوال و استخراج دانش دارد.
50
َAlgorithms
Early
Algorithm
CFG Algorithms Such as:
–Minimum-Edit-Distance
–Viterbi
–Forward
Cocke-Younger-Kasami
(CYK)
Graham-Harrison-Ruzzo (HGR)
51
Parsing همانند جستجو ديده مي شود.
در Parsingفضاي جستجو بوسيله گرامر
تعريف مي شود.
در نوع معماري جستجو :
باال به پاييي
پايين به باال
52
53
54
Top-down Parse مشكالت
1- Left recursion
55
مشكالت Top-down Parse
2- Ambiguity
در صورتيكه گرامر به يك جمله بيشتر از يك پيمايش بدهد
داراي ابهام ساختاري است.
Top-down Parse مشكالت
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
3- Repeated Parse of sub tree
Top down Parse رفع مشكالت
1- Early Algorithm
2- Recursive Transition Network
Probabilitistic Context free Grammar
يكي از كاربردهاي آن از بين بردن ابهام
است.
يك مقدار احتمال به يك جمله يا دنباله اي از
كلمات اختصاص مي دهد.
يك PCFGنوعي از CFGاست كه
بطوريكه هر قانون با ”احتمال انتخاب آن
قانون“ مشخص شده است.
Parseres ارزيابي
: با سه ابزار ارزيابي مي گردند
1- labaled recall
2- Labeled Precision
3- Cross-bracker
انسانها نيز براي كارهايي مانند دسته بندي
اطالعات از روشهاي دانش گرامري
احتمالي استفاده مي نمايند.
سطح4
تجزيه و تحليل معنايي
()Semantic
66
تجزيه و تحليل معنايي ()Semantic
جمالتي كه از نظر دستوري درست بوده و
از سطح تجزيه و تحليل نحوي عبور نمايند
به سطح تجزيه و تحليل معنايي مي رسند.
در اين سطح پردازنده يك معني مطلق را از
متن استخراج مي نمايد ()3
67
تجزيه و تحليل معنايي ()Semantic
ارتباط بين عبارات در يك جمله گاهي ،بدون ارجاع به
محتواي جمالت ديگر ممكن نيست.
John told Bob That he hah lost his hat.
Joe works on the Marry Ann
در جمله اول he , Hisداراي ابهام است.
در جمله دوم Marry Annنام يك كشتي مي باشد.
68
Semantic
مطالعه معني گفتار مي باشد.
مرحله :1بر روي منطق مرتبه اول تمركز مي نمايد.
مرحله :2براي حل مسايل اجرايي زير استفاده مي
گردد:
استخراج اطالعات Information extraction
پاسخگويي به پرسش Question Answering
مرحله :3معاني كلمات ،معني مختلف در فرهنگ
لغات و الگوريتمهايي براي تشخيص ابهام كلملت در
مفهوم نمايشي Representing Meaning
ساخت نمايش مفهومي رسمي ()Formal Meaning Representation
كه معاني مرتبط با محتويات ورديهاي زبان را نگه مي دارد ،يك
روش مهم در معاني زبانهاي محاسباتي مي باشد.
زبان بازنمايي مفهوم (:)meaning Representitional Lang.
محيطي است كه صرف و نحور اين بازنمايي را مشخص مي
نمايد.
چنين زبانهايي به صورت گسترده در NLPو AIكاربرد دارد.
الزمه چنين بازنمايي ،توانايي در پشتيباني نيازمنديهاي
محاسباتي پردازش معنايي مي باشد ،نياز براي :
-1تعيين درستي گزاره ها
-2پشتيباني از بازنماييهاي غير مبهم
-3بيان و نمايش متغيرها
-4پشتيباني از استنتاج
-5آنكه با معني باشد
كالسهاي اصلي معنا:
1- Categories
2-Events
3- Time
فريمها و شبكه هاي معنايي مي توانند درون محيط
EOPCمي توانند نگهداري گردند.
Semantic Analysis
تحليل معنايي،ورودي (جمله) به Parser
فرستاده شده تا تحليل نحوي را توليد و سپس به
تحليلگر معنايي ارسال مي نمايد تا نمايش معنايي
را توليد نمايد
در شكل parse treeبعنوان ورودي نشان داده شده ،ولي
نمايشهاي ديگري مانند feature structuresو lexical
dependency diagramsمي توانند بكار روند.
74
Parse treeبعنوان ورودي
سيستمهاي استخراج اطالعات
سيستمهاي استخراج اطالعات مبتني بر
-1دانش مورد نظر مي تواند ( )Templateساده
و ثابت يا فريمها تشريح گردند.
-2تنها بخش كوچكي از متن براي پركردن فريمها
مورد نياز بوده و بقيه صرف نظر مي گردد.
سطح 5
تجزيه و تحليل كاربردي يا
عملي ()Progmatic
77
تجزيه و تحليل كاربردي
مسئله :آيا مفهومي كه سيستم براي جمله ورودي در
نظر گرفته ،همان است كه منظور كاربر بود يا خير؟
براي آنكه مفهومي كه سيستم از ورودي درك مي كند
بر مفهومي كه منظور كاربر بوده ،منطبق گردد ،بايد
دانش ضمني كاربر در آن محدوده ،به شكلي براي
سيستم تعريف گردد.
دايره المعارف يا پايگاه دانش پياده سازي مي گردد.
تجزيه و تحليل كاربردي يا عملي ()Progmatic
پردازنده زبان طبيعي ،دانشي را درباره درك عمومي (برداشتي
كه ديگران از جمله مي نمايند) را مي دهد .در اين سطح مسئله
اين است كه آيا سيستم همان مفهومي را براي جمله ورودي در
نظر گرفته كه منظور كاربر بوده است يا خير)3( .
براي آنكه مفهومي كه سيستم از ورودي درك مي نمايد با مفهوم
مورد نظر كاربر منطبق گردد ،مي بايست دانش ضمني
( )Impilicit Knowledgeكاربر براي سيستم تعريف گردد.
براي اين منظور مي بايست يك پايگاه دانش براي سيستم در
نظر گرفته شود.
79
كاربرد
Discourse
Dialogue
and Conversational
Agents
Generation
Machine Translation
سخن گفتن ( )Discourse
كامپيوترها بوجود آمده اند تا اجازه دهند تا انجام
اعمال متقابل كامپيوتر و انسان ()HCIصورت
پذيرد.
HCI داراي ويژگيهايي است كه آنرا از گفتگوي
متداول انسان-انسان مجزا مي نمايد.
گفتگوها Monolog & Dialog :
تفسير گفتگو نياز به ساخت مدلي با نام مدل
گفتگو دارد كه شامل نمايشي از اجزايي كه
به جايي اشاره نموده و ارتباط بين آنها مي
باشد.
مشكالت
-1استفاده از روشهاي ارجاع مانند ضماير
-2استفاده از حروف ربط
-3تشخيص ساختار گفتار
الگوريتم ها
Lappin and Leass (1994)
A Tree Search Algorithm
Acetering Algorithm
Dialog & Conversational Agents
-1تفاوت ديالوگ با نوشته يا منولوگ
-2ديالوگ به صورت نوبتي انجام مي گيرد
-3يك عمل دسته جمعي بين شنونده وگوينده است و
شنونده بايد صحبتهاي گوينده را تاييد كند.
تفاوت ديالوگ با نوشته -ادامه
-4گاهي تفسير بيشتر از آنچه كه در يك جمله
خواسته شده است مي باشد.
نقشهاي عمل گفتگو
-1بيان يك معني
-2پاسخ به سئوال ،پرسيدن سئوال ،وعده دادن و...
-3بيان احساس و فكر
تفسير و ترجمه اتوماتيك نقشهاي گفتگو
در ابتدا بايد بدانيم كه ورودي داده شده،
سئوال ،عبارت ،راهنمايي يا تصديق است.
سپس بر اساس آن تصميم بگيريم.
مدل گفتگو
يكي از مهمترين اجزاي مدل كردن گفتگو،تفسير نقشهاي گفتگو
است.
براي اينكار الگوريتمهاي زير ارايه شده است:
1- Cue-Based
2-Plan-Based
مدير گفتگو ،براي عاملهاي محاوره اي از سيستمهاي توليد Frame
Baseتا ) Belief-desire-intention (EBIاستفاده مينمايد.
توليد ()Generation
توليد زبان يكي از مهمترين بخشهاي پردازش
زبان است.
يكي از مهمترين و نخستين بخشهايي كه براين
اساس كار مي كرد Eliza ،طراحي شده توسط
Wiezenbaumبود.
وظيفه آن شبيه سازي سخنان يك روانشناس بود.
توليد ()Generation
Natural Language Generation
) : (NLGفرايند ساخت خرئجي زبان
طبيعي از ورودي غير زباني است.
هدف آن برعكس درك زبان طبيعي است.
NLG معني را به متن تبديل كرده در
حاليكه NLUمتن را به معني تبديل مي
نمايد.
انتخابهاي سيستمهاي توليد
-1انتخاب محتوا
-2انتخاب لغت
-3انتخاب ساختار جمله
-4انتخاب سخن ()Discourse
معماري سيستمهاي توليد
مراجع
1- Introduction to Natural Language Processing by Mary Dee
Harris Reston Publishers, Reston, Virginia; 1985
دانشگاه صنعتي، پايان نامه كارشناسي ارشد الكترونيك، جواد نصير زاده-2
1375 ،امير كبير
آزمايشگاه سيستمهاي خبره به، وب سايت دانشگاه صنعتي امير كبير-3
: آدرس
http://ceit.aut.ac.ir/islab/courses/NLP/home.php
4- Speech and Language Processing An Introduction to
Natural Language Processing, Computational
Linguistics and Speech Recognition; Daniel Jurafsky
and James H. Martin ;Prentice-Hall, Inc. ; 2000