PREP N N N PREP N PUNC PREP N

Download Report

Transcript PREP N N N PREP N PUNC PREP N

‫ساختار ارائه‬
‫• معرفی برچسب گذار‬
‫– کاربردها‬
‫– روشها‬
‫• شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارس ی‬
‫– ایجاد دیکشنری‬
‫– ایجاد و ارزیابی قواعد‬
‫– کلمات ناشناخته‬
‫– شناسایی فعل‬
‫– ارزیابی‬
‫نمونه ابزار انگلیس ی‬
‫• ورودی‪:‬‬
‫• خروجی‬
‫نمونه ابزار انگلیس ی (ادامه)‬
‫کاربردها‬
‫• م دددز س ددازی زب ددا ی (در بازشناس د ی گ ت ددار و ‪ :)...‬مقول دده نی ددوی ی ددا کلم دده م ددی وان ددد در پ ددی‬
‫کلمه بعدی کما کند‪.‬‬
‫– مثاز‪ :‬انگلیس ی‪ :‬ضمایر ملکی‪ +‬اسم‬
‫– فارس ی‪ :‬حرف اضافه (اسم یا ضمیر)‬
‫• سنتز گ تار‪ :‬مقوله نیوی یا کلمده مدی واندد ااتعداری در مدورد نیدوه ل د‬
‫به ما بدهد‪.‬‬
‫بین ددی‬
‫د ی یدا کلمده‬
‫– مثاز‪ :‬ل ‪ )noun( OBject‬و ‪)verb( obJECT‬‬
‫– ل ” َمرد“ (اسم)‪ُ ” ،‬مرد“ (فعل)‬
‫• بازیابی ااتعات‪ :‬دا ستن مقوله نیوی کلمات می واند به استخراج کلمات مهم در متن کمدا‬
‫کند‪.‬‬
‫• رفع ابهام معنایی‪ :‬دا ستن مقوله نیوی کلمات می واند به رفع ابهام معنایی کلمه کما کند‪.‬‬
‫– مثاز‪ :‬کلمه ‪ watch‬در انگلیس ی و کلمه ”در“ در فارس ی‬
‫• جزیدده نیددوی (‪ :)parsing‬بدرای ‪ parsing‬پددایین بدده بدداب در ابتدددا نیدداز بدده رعیددین مقولدده نیدوی‬
‫کلمات داریم‪.‬‬
‫روشها‬
:POS tagging ‫• روش های کلی‬
)rule based POS tagging( ‫– روش های مبتنی بر قاعده‬
tags
tag
>--->----
‫• دیکشنری‬
‫مجاور‬+ ‫• قواعد‬
)probabilistic/stochastic POS tagging( ‫– روش های آماری‬
)transformation-based POS tagging( ‫– روش های رکیبی‬
‫ارزیابی‬
‫• پيكره متني به دو بخ‬
‫قسيم مي شود‪:‬‬
‫– ‪ %90-80‬از پيكره براي آموزش (‪)train‬‬
‫– ‪ %20-10‬از پيكره براي آزمون (‪)test‬‬
‫• با است اده از داده آموزش آمارهاي بزم استخراج مي گردد و سپس ‪POS‬‬
‫‪ tagging‬برروي داده آزمون رست مي شود‪.‬‬
‫• كنيك اعتبارسنجي متقابل ‪ 5‬قسمتي‪:‬‬
‫– پيكره متني به ‪ K‬قسمت مساوي قسيم مي شود‪.‬‬
‫– در هر مرحله از ارزيابي‪ ،‬يك بخ براي آزمون و ‪ K-1‬بخ ديگر براي آموزش به كار مي رود‪.‬‬
‫– اين روند ‪ K‬بار كرار مي گردد و درنهايت از نتايج ارزيابي ‪ K‬مرحله ميانگین گرفته مي شود‪.‬‬
‫• دقت ‪:POS tagging‬‬
‫تعداد كلمات با برچسب‬
‫‪100‬‬
‫تعداد كل كلمات‬
‫صحيح‬
‫‪Acc ‬‬
‫بخ‬
‫دوم‬
‫پیاده سازی برچسب گذار زبان فارس ی‬
‫ایجاد دیکشنری‬
‫• رکیب هر سه پیکره (آموزش ‪ ،‬رست و ارزیابی)‬
‫• نرمالسازی متن‬
‫• شمارش گهای هر کلمه‬
‫–‬
‫–‬
‫‪167‬‬
‫‪12‬‬
‫وارد‬
‫وارد‬
‫‪ADJ‬‬
‫‪N‬‬
‫• پر کرار رین برچسب به عنوان گ پیش رض‬
‫قواعد‬
‫• انواع قوانین‬
TAG-1 TAG-2 TAG-3
TAG-3  TAG-X when TAG-2 @ (-1) TAG-1 @ (-2)
TAG-1  TAG-X when TAG-2 @ (+1) TAG-3 @ (+2)
TAG-2  TAG-X when TAG-3 @ (+1)
‫• است اده از قواعد قبلی‬
‫• ساخت قواعد جدید‬
‫ایجاد قواعد جدید‬
‫• استخراج سه گانه های داخل متن‬
‫به‬
‫‪PREP‬‬
‫گزارش خبرنگار مهر‬
‫‪N‬‬
‫‪N‬‬
‫‪N‬‬
‫باورها‬
‫دینی ترکمن‌ها در‬
‫ی‬
‫‪N‬‬
‫‪ADJ‬‬
‫‪N‬‬
‫در‬
‫گرگان‬
‫‪،‬‬
‫بر‬
‫‪PREP‬‬
‫‪N‬‬
‫‪PUNC‬‬
‫‪PREP‬‬
‫این‬
‫‪PREM PREP‬‬
‫روز‬
‫برای‬
‫پیامبر‬
‫‪N‬‬
‫‪PREP‬‬
‫‪N‬‬
‫• میاسبه مجموع دفعات ظهور هر سه گانه‬
‫‪N‬‬
‫‪N‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪PUNC‬‬
‫اساس ‪PREP‬‬
‫‪N‬‬
‫‪N‬‬
‫‪N‬‬
‫‪ADJ‬‬
‫اکرم‬
‫‪N‬‬
‫‪PREP ADJ‬‬
‫‪N‬‬
‫‪N‬‬
‫‪N‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪PUNC‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪N‬‬
‫‪ADJ‬‬
‫‪N‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪N‬‬
‫‪N‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪PUNC‬‬
‫‪PREP‬‬
‫‪N‬‬
‫‪N‬‬
‫‪ADJ‬‬
‫‪...‬‬
‫ایجاد قواعد جدید (ادامه)‬
‫• دسته بندی و میاسبه درصد وقوع در هر دسته‬
‫سه گانه های بیشتر از ‪ 20‬درصد‬
‫سه گانه های کمتر از ‪ 10‬درصد‬
‫‪32.75%‬‬
‫‪26.95%‬‬
‫‪15.37%‬‬
‫‪10.33%‬‬
‫‪4.03%‬‬
‫‪3.27%‬‬
‫‪2.27%‬‬
‫‪2.02%‬‬
‫‪1.76%‬‬
‫‪1.26%‬‬
‫‪N‬‬
‫‪PREP‬‬
‫‪V‬‬
‫‪DJ‬‬
‫‪PRENUM‬‬
‫‪ADV‬‬
‫‪PUNC‬‬
‫‪SUBR‬‬
‫‪PREM‬‬
‫‪PR‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪ADV‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫‪DJ‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫• بدیل سه گانه های کم کرار به سه گانه های پر کرار‬
‫)‪PR  N when ADV @ (-1) DJ @ (-2‬‬
‫)‪PR  PREP when ADV @ (-1) DJ @ (-2‬‬
‫• رست قواعد‬
‫دسته بندی قواعد‬
PREM ‫ به‬N
PREM
POSNUM
N
PRENUM
‫دو‬
PRENUM
ADJ
N
POSNUM
‫دوم‬
PREP
N
PART
POSTP
‫را‬
ADJ
IDEN
PREP
N
‫سر‬
ADV
PREM
ADJ
N
‫سراسر‬
N
ADJ
IDEN
N
‫عتمه‬
N
ADJ
N
ADJ
‫علمیه‬
‫کتس بدیل‬
ADJ ‫ به‬N
ADV ‫ به‬N
»‫• کلمه «سراسر‬
‫کتس بدیل‬
N -> ADJ
if
POSNUM @ [-1] PR @ [-2]
N -> ADJ
if
PSUS @ [-1] PREM @ [-2]
N -> ADJ
if
POSTP @ [-1] PRENUM @ [-2]
‫کتس بدیل‬
...
‫بهبود عملکرد‬
‫• افعاز چند بخش ی‬
‫– شناسایی فعل کمکی و رکیب با فعل اصلی‬
‫• شناسایی کلمات ناشناخته= وجه به وندها‬
‫– وندهای سازنده ص ات نظیر‪ :‬انگیز‪ ،‬گیر ‪ ،‬مند و ‪...‬‬
‫– وندهای صرف افعاز‪ :‬اند ‪ ،‬اید ‪ ،‬ایم و ‪...‬‬
‫– وندهای اسامی جمع‪ :‬ان ‪ ،‬گان‪ ،‬ها‬
‫– ‪...‬‬
‫– گ پیش رض = اسم م رد‬
‫ارزیابی‬
‫کارهای آری‬
‫• رست قواعد و بهبود آنها‬
‫• وسعه برچسب گذار در بیه دوم‬
‫• ایجاد پارسر زبان فارس ی‬
‫با سپاس از توجهتان‬