PREP N N N PREP N PUNC PREP N
Download
Report
Transcript PREP N N N PREP N PUNC PREP N
ساختار ارائه
• معرفی برچسب گذار
– کاربردها
– روشها
• شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارس ی
– ایجاد دیکشنری
– ایجاد و ارزیابی قواعد
– کلمات ناشناخته
– شناسایی فعل
– ارزیابی
نمونه ابزار انگلیس ی
• ورودی:
• خروجی
نمونه ابزار انگلیس ی (ادامه)
کاربردها
• م دددز س ددازی زب ددا ی (در بازشناس د ی گ ت ددار و :)...مقول دده نی ددوی ی ددا کلم دده م ددی وان ددد در پ ددی
کلمه بعدی کما کند.
– مثاز :انگلیس ی :ضمایر ملکی +اسم
– فارس ی :حرف اضافه (اسم یا ضمیر)
• سنتز گ تار :مقوله نیوی یا کلمده مدی واندد ااتعداری در مدورد نیدوه ل د
به ما بدهد.
بین ددی
د ی یدا کلمده
– مثاز :ل )noun( OBjectو )verb( obJECT
– ل ” َمرد“ (اسم)ُ ” ،مرد“ (فعل)
• بازیابی ااتعات :دا ستن مقوله نیوی کلمات می واند به استخراج کلمات مهم در متن کمدا
کند.
• رفع ابهام معنایی :دا ستن مقوله نیوی کلمات می واند به رفع ابهام معنایی کلمه کما کند.
– مثاز :کلمه watchدر انگلیس ی و کلمه ”در“ در فارس ی
• جزیدده نیددوی ( :)parsingبدرای parsingپددایین بدده بدداب در ابتدددا نیدداز بدده رعیددین مقولدده نیدوی
کلمات داریم.
روشها
:POS tagging • روش های کلی
)rule based POS tagging( – روش های مبتنی بر قاعده
tags
tag
>--->----
• دیکشنری
مجاور+ • قواعد
)probabilistic/stochastic POS tagging( – روش های آماری
)transformation-based POS tagging( – روش های رکیبی
ارزیابی
• پيكره متني به دو بخ
قسيم مي شود:
– %90-80از پيكره براي آموزش ()train
– %20-10از پيكره براي آزمون ()test
• با است اده از داده آموزش آمارهاي بزم استخراج مي گردد و سپس POS
taggingبرروي داده آزمون رست مي شود.
• كنيك اعتبارسنجي متقابل 5قسمتي:
– پيكره متني به Kقسمت مساوي قسيم مي شود.
– در هر مرحله از ارزيابي ،يك بخ براي آزمون و K-1بخ ديگر براي آموزش به كار مي رود.
– اين روند Kبار كرار مي گردد و درنهايت از نتايج ارزيابي Kمرحله ميانگین گرفته مي شود.
• دقت :POS tagging
تعداد كلمات با برچسب
100
تعداد كل كلمات
صحيح
Acc
بخ
دوم
پیاده سازی برچسب گذار زبان فارس ی
ایجاد دیکشنری
• رکیب هر سه پیکره (آموزش ،رست و ارزیابی)
• نرمالسازی متن
• شمارش گهای هر کلمه
–
–
167
12
وارد
وارد
ADJ
N
• پر کرار رین برچسب به عنوان گ پیش رض
قواعد
• انواع قوانین
TAG-1 TAG-2 TAG-3
TAG-3 TAG-X when TAG-2 @ (-1) TAG-1 @ (-2)
TAG-1 TAG-X when TAG-2 @ (+1) TAG-3 @ (+2)
TAG-2 TAG-X when TAG-3 @ (+1)
• است اده از قواعد قبلی
• ساخت قواعد جدید
ایجاد قواعد جدید
• استخراج سه گانه های داخل متن
به
PREP
گزارش خبرنگار مهر
N
N
N
باورها
دینی ترکمنها در
ی
N
ADJ
N
در
گرگان
،
بر
PREP
N
PUNC
PREP
این
PREM PREP
روز
برای
پیامبر
N
PREP
N
• میاسبه مجموع دفعات ظهور هر سه گانه
N
N
PREP
N
PUNC
اساس PREP
N
N
N
ADJ
اکرم
N
PREP ADJ
N
N
N
PREP
N
PUNC
PREP
N
N
ADJ
N
PREP
N
N
N
PREP
N
PUNC
PREP
N
N
ADJ
...
ایجاد قواعد جدید (ادامه)
• دسته بندی و میاسبه درصد وقوع در هر دسته
سه گانه های بیشتر از 20درصد
سه گانه های کمتر از 10درصد
32.75%
26.95%
15.37%
10.33%
4.03%
3.27%
2.27%
2.02%
1.76%
1.26%
N
PREP
V
DJ
PRENUM
ADV
PUNC
SUBR
PREM
PR
ADV
ADV
ADV
ADV
ADV
ADV
ADV
ADV
ADV
ADV
DJ
DJ
DJ
DJ
DJ
DJ
DJ
DJ
DJ
DJ
•
•
•
•
•
•
•
•
•
•
• بدیل سه گانه های کم کرار به سه گانه های پر کرار
)PR N when ADV @ (-1) DJ @ (-2
)PR PREP when ADV @ (-1) DJ @ (-2
• رست قواعد
دسته بندی قواعد
PREM بهN
PREM
POSNUM
N
PRENUM
دو
PRENUM
ADJ
N
POSNUM
دوم
PREP
N
PART
POSTP
را
ADJ
IDEN
PREP
N
سر
ADV
PREM
ADJ
N
سراسر
N
ADJ
IDEN
N
عتمه
N
ADJ
N
ADJ
علمیه
کتس بدیل
ADJ بهN
ADV بهN
»• کلمه «سراسر
کتس بدیل
N -> ADJ
if
POSNUM @ [-1] PR @ [-2]
N -> ADJ
if
PSUS @ [-1] PREM @ [-2]
N -> ADJ
if
POSTP @ [-1] PRENUM @ [-2]
کتس بدیل
...
بهبود عملکرد
• افعاز چند بخش ی
– شناسایی فعل کمکی و رکیب با فعل اصلی
• شناسایی کلمات ناشناخته= وجه به وندها
– وندهای سازنده ص ات نظیر :انگیز ،گیر ،مند و ...
– وندهای صرف افعاز :اند ،اید ،ایم و ...
– وندهای اسامی جمع :ان ،گان ،ها
– ...
– گ پیش رض = اسم م رد
ارزیابی
کارهای آری
• رست قواعد و بهبود آنها
• وسعه برچسب گذار در بیه دوم
• ایجاد پارسر زبان فارس ی
با سپاس از توجهتان