دانلود - FUMblog
Download
Report
Transcript دانلود - FUMblog
ارائه دهنده :سید محمد
اصغری
استاد درس :دکترمحسن
کاهانی
1
فروردین 1392
2
فهرست مطالب
تعریف
نمونه ها
تعریف NLP
کاربردها
مبتنی بر قاعده
مشکالت
اماری
Tagger n-gram
ابزارها ی مورد
استفاده
NLP
نمونه ابزارها
کاربردها
برچسب Pos
گذاری اجزای
کالم
مدل مخفی
مارکوف
ویتربی
انواع روشها
ارزیابی
مبتنی بر حافظه
پیدایش
تالشهای انجام
شده
برچسب گذاری
در سیستم های
متنی فارسی
مشکالت ویژه
زبان فارسی
مدلهای موجود
ایده های جدید
3
NLP تعریف
پردازش زبانهای طبیعی
natural
intelligence
علوم زبان شناسی
هوش مصنوعی
آمار
A
B
interrogator
artificial
intelligence
4
کاربردهای NLP
شناسايي گفتار
سيستمهاي ديکته ،سيستم هاي کنترل روبات
ترکيب گفتار
سيستم هاي متن به گفتار
مقوله بندي متن
خالصه سازی متن
5
کاربردهای ( NLPادامه)
نمایه سازی متن
بازیابي متن
استخراج اطالعات
ترکیب داده ها و استخراج داده هاي متن
6
کاربردهای ( NLPادامه)
پاسخ به پرسش
ایجاد گزارش
ترجمه ماشینی
7
ابزارهای پردازش زبان طبیعی
نرمال ساز یا یکسان ساز
تشخیص دهنده جمالت
تشخیص دهنده لغات
حذف کننده کلمات ایست
ریشه یاب
برچسب زن اجزای کالم ()POS
پارسر ()parser
برچسب زن معنایی کالم ()SRL
شبکه واژگان
...
8
نمونه های ابزار انگلیسی
instance
OpenNLP ،Stanford NLP ،NLTK
Freeling
Flex ،JLex ،JFLex , ANTLR ،Ragel ,
Quex
Porter, Krovetz
Illinois POS Tagger , Stanford POS
Tagger
NLP tools
تشخیص دهنده جمالت
تشخیص دهنده لغات
ریشه یاب
برچسب زن اجزای کالم
)POS(
OpenNlP ،Illinois SRL , Swirl , LTHSRL
برچسب زن معنایی کالم
)SLR(
Princeton Wordnet , Euro Wordnet
شبکه واژگان
9
تا اینجا
تعریف
نمونه ها
تعریف NLP
ابزارها ی مورد
استفاده
NLP
نمونه ابزارها
کاربردها
برچسب Pos
گذاری اجزای
کالم
مبتنی بر قاعده
Tagger n-gram
مشکالت
آماری
انواع روشها
ویتربی
پیدایش
کاربردها
تالشهای انجام
شده
برچسب گذاری
در سیستم های
متنی فارسی
مدل مخفی
مارکوف
مشکالت ویژه
زبان فارسی
مدلهای موجود
ایده های جدید
10
pos تعریف
. مقوله نحوی که هر کلمه به آن تعلق دارد:) یا جزء کالمPOS( Part-of-Speech
tags ،lexical tags ،word classes :نامهای دیگر
فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی:)tagging( POS tagging
:های اصلی در انگلیسیPOS
Nouns
Verbs
Adjectives
Adverbs
Prepositions (on, to, by, from, with, …)
Determiners (a, an, the)
Pronouns (she, who, my, others, …)
Conjunctions (and, but, if, …)
Auxiliaries (can, should, are, …)
Particles (up, down, off, in, out, …)
Numerals (one, two, three, first, second, …)
11
) (ادامهpos تعریف
: های جزئی تری در پیکره های متنی به کار روندPOS ممکن است،بسته به کاربرد
Singular nouns
Plural nouns
Comparative adjectives
Superlative adjectives
Modal verbs
Personal pronouns
Possessive pronouns
…
. های متفاوتی ممکن است به کار رودtag برای عالئم نقطه گذاری هم
:های مختلف در انگلیسیtag set
tag 45 شامل:Penn Treebank tag set
tag 87 شامل:Brown Corpus tag set
tag 61 شامل:C5 tag set
tag 146 شامل:C7 tag set
. به کار رفته استtag 660 در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود
12
مثال
ورودی:
خروجی
13
14
نکات مورد توجه
مجموعه تگ ()tagset
انتخاب مجموعه تگ مناسب
طبقه بندی گرامری واژگان
عبارات
واژگان چند نقش
کلمات ناشناخته
15
کاربردها
مدل سازی زبانی (در بازشناسی گفتار و :)...مقوله نحوی یک کلمه میی توانید در
پیش بینی کلمه بعدی کمک کند.
سنتز گفتار :مقوله نحوی یک کلمه می تواند اطالعاتی در مورد نحوه تلفیظ صیحی
یک کلمه به ما بدهد.
مثال :تلفظ )noun( OBjectو )verb( obJECT
تلفظ” َمرد“ (اسم)” ،مُرد“ (فعل)
بازیابی اطالعات :دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهیم در
متن کمک کند.
رفع ابهام معنایی :دانستن مقوله نحوی کلمات میی توانید بیه رفیع ابهیام معنیایی کلمیه
کمک کند.
مثال :انگلیسی :ضمایر ملکی +اسم
فارسی :حرف اضافه (اسم یا ضمیر)
مثال :کلمه watchدر انگلیسی و کلمه ”در“ در فارسی
تجزیییه نحییوی ( :)parsingبییرای parsingپییایین بییه بییاب در ابتییدا نیییاز بییه تعیییین
مقوله نحوی کلمات داریم.
16
روش ها
:POS tagging روش های کلی
)rule based POS tagging( روش های مبتنی بر قاعده
)probabilistic/stochastic POS tagging( روش های آماری
)transformation-based POS tagging( روش های ترکیبی
17
برچسب گذار مبتنی بر قاعده
با استفاده از یک سری ruleمقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور
تعیین می کند.
Rule ها به وسیله زبان شناسان نوشته می شوند.
دو مرحله کلی از POS taggingمبتنی بر قاعده
tags
>--- دیکشنری
tag >--- قواعد +مجاور
18
)برچسب گذار مبتنی بر قاعده (ادامه
I think that you are clever :مثال
)ENGTWOL tagger (ازrule مثالی از یک
I: PRON
think: V
that: PRON, DET, COMP, ADV
you: PRON
are: AUX
clever: ADJ
56,000
Adverbial-that rule:
Given input: “that”
If
(+1 ADJ/ADV)
(+2 SENT-LIM)
(NOT -1 V-SVO)
then eliminate non-ADV tags
else eliminate ADV tag
19
مدل مارکوف
.1
افق محدود
.2
مستقل از زمان بودن
برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است (افق محدود )
اين وابستگي در طول زمان تغيير نمي كند (مستقل از زمان بودن )
برراي ملررال ،اگررر يررك صررفت در اوايررل جملرره بررا احتمررال 0.2بعررد از يررك اسررم ظرراهر مرري
شررود ،ايررن احتمررال در حررين برچسررب گررذاري بقيرره جملرره يررا يررك جلمرره دي ررر تغييررر نمرري
كند و ثابت فرض مي شود.
نکته :اشتباه بودن این فرض
21
مدل مارکوف (ادامه)
هدف :با فرض داشتن دنباله کلمات ،W=w1…wnدنباله tagهای T=t1…tnرا طوری پیدا کنید که
) P(T|Wماکزیمم شود:
) Tˆ arg max P(T | W
T
با استفاده از قانون بيز:
باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم:
باتوجه به رابطه قبلی و جای زاری
22
آموزش مدل مارکوف
مجموعه یادگيری
1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB
the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP
29/CD ./.
2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP
N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3
Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC
chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP
,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT
British/JJ industrial/JJ conglomerate/NN ./.
...
38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN
of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD helping/VBG
Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP
to/TO San/NNP Francisco/NNP instead/RB ./.
23
محاسبه احتماالت مدل مارکوف
براي آموزش مدل فوق باید احتمابت انتقال و احتمابت خروجي
از روي پیكره برچسب خورده بیه دسیت آیید .احتمیابت انتقیال بیه
سادگي به صورت زیر به دست مي آید:
و همچنین احتمالت خروجي به صورت زیر محاسبه مي شود:
24
مدلهای n-gram
Bigram
برچسب گذاری که فقط به کلمه قبل وابسته باشد
Trigram
به دو کلمه قبل از خود وابسته است
25
trigram مثال از مدل
S =the boy laughed
T =DT NN VBD
P(T,S)=
P(END|NN, VBD)×
P(DT|START, START)×
P(NN|START, DT)×
P(VBD|DT, NN)×
P(the|DT)×
P(boy|NN)×
P(laughed|VBD)
26
زنجیره ماركوف :مثال
فرض كنید كه در یك 4 ،corpusبرچسب V ،N ،ARTو Pبا شمارش هاي
زیر داریم:
احتمال وقوع برچسب هاي مختلف پس از یكدیگر را مي توان با زنجیره
ماركوف زیر نشان داد:
27
مدل مخفي ماركوف :مثال
محاسبه احتمال ) P(W|Tبا استفاده از مدل مخفي ماركوف:
فرض كنید كه احتمابت lexical-generationدر corpusفرضي به صورت زیر است:
28
مدل مخفي ماركوف :مثال
32
مدلهای مبتنی بر حافظه
استفاده از یادگيری ماشين
عدم نیاز به پیکره بزرگ برای یادگيری
تلفیقی از دو روش قبل:
نمونه ذخيره شده = قانون ،استدالل مبتنی بر تشابه = انتخاب قانون
استفاده از یادگيری ماشين
دارای سه بخش
واژگان = کلمات و نشانه ها
پایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها
پایگاه کلمات ناشناخته
33
ارزیابي
پيكره متني به دو بخش تقسيم مي شود:
%90-80از پيكره براي آموزش ()train
%20-10از پيكره براي آزمون ()test
با استفاده از داده آموزش آمارهاي الزم استخراج مي گردد و سپس POS taggingبرروي داده
آزمون تست مي شود.
انواع متون در پیکره:
تكنيك اعتبارسنجي متقابل 5قسمتي:
رسمی
غير رسمی
محاوره ای
پيكره متني به Kقسمت مساوي تقسيم مي شود.
در هر مرحله از ارزيابي ،يك بخش براي آزمون و K-1بخش دي ر براي آموزش به كار مي رود.
اين روند Kبار تكرار مي گردد و درنهايت از نتايج ارزيابي Kمرحله ميان ين گرفته مي شود.
دقت :POS tagging
تعداد كلمات با برچسب
100
تعداد كل كلمات
صحیح
Acc
34
با سپاس از توجه شما