Sharif Dadegan Seminar
Download
Report
Transcript Sharif Dadegan Seminar
بسم رب الشهداء و الصدیقین
محمدصادق رسولی
rasooli.ms{@AT@}gmail.com
پروژۀ دادگان وابستگی زبان فارس ی
1
امروزه در عمدۀ روشهای هوشمند پردازش زبانی از دادگان و
پیکرههای متنی برچسبدار استفاده میشود.
با وجود هزینۀ زیاد برای آمادهسازی پیکرهها ،پروژههای بسیاری در
زبانهای مختلف تعریف شده است.
در رویکردهای مبتنی بر پیکرهها نتایج پردازش ی بهتری نسبت به
رویکردهای مبتنی بر قاعده به دست آمده است.
پروژۀ دادگان وابستگی زبان فارس ی
2
در پروژههای اخیر پژوهشهای دفاعی ایاالت متحده ،یکی از
دغدغههای اصلی در پردازش هوشمند متون ،فرایند تهیۀ دادگان
زبانی اعالم شده است.
انتخاب نظریۀ زبانی مناسب برای تهیۀ پیکرههای زبانی از اهمیت
بسیار زیادی برخوردار است
پروژۀ دادگان وابستگی زبان فارس ی
3
ً
معموال تهیۀ پیکرۀ زبانی هزینههای بسیار زیادی را از نظر زمانی و
نیروی انسانی در بر میگیرد.
به عنوان مثال دو مرحله از تهیۀ پیکرۀ درختی چینی در مجموع 5سال به
طول انجامید.
برای این که پیکرۀ متنی نمایندگی کافی برای دادگان زبانی داشته
باشد ،باید اطالعات اولیۀ مناسبی در مورد ویژگیهای زبانی کسب
کرد که این خود فرایندی زمانبر است.
پروژۀ دادگان وابستگی زبان فارس ی
4
با توجه به دغدغههای موجود در زبان فارس ی ،پروژههایی با حمایت
دبیرخانۀ شورای عالی اطالعرسانی شکل گرفت.
پروژۀ ویراستیار اولین گام جدی در کاربردی کردن مسائل علمی
دنیای پردازش متن در نرمافزارهای زبان فارس ی بوده است.
پس از اتمام نسخۀ 1ویراستیار دغدغههای پردازش ی برای تحلیل
نحو و معنا در زبان فارس ی به وجود آمد.
پروژۀ دادگان وابستگی زبان فارس ی
5
برای پردازش نحو در زبان فارس ی نیاز به دو مسألۀ اساس ی است:
انتخاب یک نمایش زبانی مناسب و اصولی با توجه به خاصیتهای زبان
فارس ی
نیاز جدی به یک پیکرۀ برچسبخوردۀ نحو در زبان فارس ی
▪ در 28زبان زندۀ دنیا چنین پیکرهای وجود داشته است.
پروژۀ دادگان وابستگی زبان فارس ی
6
تا آن زمان تنها پیکرۀ برچسبخوردۀ مناسب برای فهم زبان فارس ی،
پیکرۀ متنی بیجنخان بوده است.
تنها در آن اطالعات ساختواژی زبان برچسب خورده است و اطالعاتی در
مورد ساختار نحوی و معنایی جمالت وجود ندارد.
پروژۀ دادگان وابستگی زبان فارس ی
7
هماکنون دو نوع بازنمایی مرسوم در پیکرههای نحوی و معنایی زبانی
در دنیا وجود دارد:
.1دستور زایش ی :مانند پیکرۀ درختی پن ،در این نوع از نمایش ،جمله به
عبارتهایی و عبارات به زیرعبارات و زیرعبارتها به واژهها تقسیمبندی
میشوند.
.2دستور وابستگی :مانند پیکرۀ وابستگی پراگ که در این نوع از نمایش،
ارتباطهای وابستگی بین واژهها مشخص میشود.
پروژۀ دادگان وابستگی زبان فارس ی
8
9
در هر دو نوع از بازنمایی میتوان سطح نحو و معنا را پوشش داد.
در بازنمایی وابستگی امکان نشان دادن جمالت با بیترتیبی زبانی
نسبت به بازنمایی زایش ی بیشتر و مناسبتر است.
به همین دلیل در زبانهای بیترتیب مانند چکی ،ترکی و عربی پیکرههای
وابستگی ترجیح داده شدهاند.
در زبان فارس ی نیز بیترتیبی وجود دارد.
پیکرههای با بازنمایی دستور وابستگی قابل تبدیل به پیکرۀ زایش ی
هستند ولی عکس این مسأله به صورت صد در صد امکانپذیر نیست.
دستور وابستگی به نمایش انسانی نزدیکتر است.
در دستور وابستگی بسیاری از اطالعات واژگانی (مانند ظرفیت نحوی و
معنایی) را میتوان به طور صریح در کمانهای وابستگی نشان داد.
با وجود این مسائل به این نتیجه رسیدهایم که دستور وابستگی را به
عنوان بازنمایی نحوی پیکرۀ زبان فارس ی برگزینیم.
این اصطالح در کتاب « »Dependency Parsingدیده شد و
با توجه به غریب بودن این مطلب تحقیقات در جهت شناخت این
مسأله به وجود آمد.
در نهایت کتاب «ظرفیت فعل در زبان فارس ی» به عنوان تنها کتاب
مربوط به زبان فارس ی پیدا شد.
پروژۀ دادگان وابستگی زبان فارس ی
12
واژهها نیز مانند عناصر دارای ظرفیت هستند.
هر واژهای دارای ظرفیت ترکیب نحوی/معنایی خاص ی است.
13
پرسیدن
چیزی را...
از
َ
کس ی..
14
با دانستن ظرفیت واژهها میتوان تولید زبان انجام داد.
ترجمۀ خودکار ()Machine Translation
تحلیل نحوی ()Syntactic Analysis
تولید زبان ()Language Generation
...
امید طبیبزاده« ،ظرفیت فعل در زبان فارس ی» ،نشر مرکز.1385 ،
15
در دستور وابستگی مبنا روابط نحوی/معنایی بین واژههای درون
جمله است.
در این دستور مفهوم گروه معنا ندارد.
واژهها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابستههایی
میگیرند.
16
وابستۀ پیشین
مفعول
فعل مرکزی
حرف اضافۀ اسم
صحبت
با
وابستۀ پسین
او
فعلیار
را
دوست
دارم
”Richard Hudson, “An introduction to word grammar,
Cambridge University Press, 2010.
17
در دستور زایش ی ( ،)Generativeبا گروهها سر و کار داریم.
دستور مستقل از متن ()CFG
دستور مبتنی بر عبارات
امکان وجود بیترتیبی در جمالت وجود ندارد
در دستور وابستگی با واژهها سر و کار داریم.
امکان بیترتیبی در جمالت وجود دارد.
18
فرضهای زبانی متفاوتی در مورد درختهای وابستگی میشود.
فرضهای ما
درخت وابستگی بدون دور است.
هر جمله دارای یک واژۀ فرض ی به عنوان ریشۀ جمله است.
هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.
19
درختهای وابستگی دو نوع هستند
افکنش ی ()Projective
▪ هیچ کمانی دیگری را در صورت رسم کمانها از یک سمت بر روی کاغذ قطع
نمیکند.
غیرافکنش ی ()Non-projective
▪ ممکن است کمانی باشد که برخی دیگر از کمانها را قطع کرده باشد.
▪ در جمالت بیترتیب زبانی دیده میشود.
20
ریشه
ریشه
از
آگاه
آگاه
هستم
آمدنت
که
هستم
میآیی
افکنش ی
غیرافکنش ی
21
روشهای تجزیۀ وابستگی
مبتنی بر داده
▪ باناظر ()Supervised
▪ مبتنی بر گراف ()Graph based
▪ مبتنی بر گذار ()Transition based
▪ بیناظر ()Unsupervised
▪ نیمهناظر ()Semi-supervised
مبتنی بر دستور زبان
22
)Arc-Standard( معیار-به عنوان نمونه الگوریتم تجزیۀ یال
.روشهای مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد
) برای درختهای افکنش یarc-standard( معیار-تجزیۀ یال
.است
23
Joakim Nivre. 2004. Incrementality in deterministic dependency parsing. In Workshop
on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57.
پروژۀ دادگان وابستگی زبان فارس ی
S: Stack of processed words
I: Buffer of unprocessed words
A: Set of arcs created until now
𝛟 : An empty arcset
24
Stack
Buffer
You
are
very
good
Arc-sets
You are very good
25
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
Buffer
You
are
very
good
Arc-sets
Action
Shift
You are very good
26
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
Buffer
You
are
very
good
Arc-sets
Action
Shift
You are very good
27
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
You
Buffer
are
very
good
Arc-sets
Action
Left-Reduce
Rel(are, You)
You are very good
28
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
Buffer
are
very
good
Arc-sets
Action
Shift
Rel(are, You)
You are very good
29
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
are
Buffer
very
good
Arc-sets
Action
Shift
Rel(are, You)
You are very good
30
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
are
very
Buffer
good
Arc-sets
Left-Reduce
Action
Rel(are, You)
`
Rel(good, very)
You are very good
31
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
are
Buffer
good
Arc-sets
Action
Right-Reduce
Rel(are, You)
Rel(are, good)
32
`
Rel(good, very)
You are very good
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
Stack
Buffer
are
Arc-sets
Action
Right-Reduce
Rel(are, You)
Rel(are, good)
Rel(root, are)
33
`
Rel(good, very)
You are very good
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions
در آغاز برای دادگان نحوی زبان پیشنهاد پروژه شد.
خاصیتهای دستور وابستگی
قدرت باال برای کارهای پردازش ی
امکان تبدیل آن به ساختار زایش ی (ساختار مبتنی بر گروهها)
مناسب برای زبان فارس ی
پروژۀ دادگان وابستگی زبان فارس ی
34
ابزار
برچسبزنی
استخراج
دادگان فعلی
پژوهشهای کاربردی
در مورد دستور
وابستگی به هدف
برچسبزنی
پروژۀ دادگان وابستگی زبان فارس ی
35
تعریف اولیۀ
پروژه
پیکرۀ
وابستگی
پژوهشهای
زبانی کاربردی
برچسبزنی
دادگان
پروژۀ دادگان وابستگی زبان فارس ی
تهیۀ ابزار
برچسبزنی
تهیۀ دادهای
خام اولیه
فرهنگ
ظرفیت
تهیۀ ابزار
برچسبزنی
تهیۀ ابزار
فعلیاب و
تحلیل فعل
تهیۀ
دادههای
خام اولیه
برچسبزنی
دادگان
36
بررس یهای،با توجه به دغدغههای موجود در شناخت فعل مرکب
رایانهای متفاوتی بر روی فعل مرکب انجام شد که در مقالۀ ذیل
.این روند گزارش شده است
37
Mohammad Sadegh Rasooli, Heshaam Faili, and Behrouz Minaei-Bidgoli,
"Unsupervised Identification of Persian Compound Verbs", Advances in
Artificial Intelligence, Pages 394-406, 2011.
پروژۀ دادگان وابستگی زبان فارس ی
این ابزار در پایان پاییز 1389به پایان رسید.
پروژۀ دادگان وابستگی زبان فارس ی
38
پروژۀ دادگان زبانی از اواسط دیماه شروع شد.
در این حین تیم برنامهنویس ی به آمادهسازی ابزار برچسبزنی
پرداخت.
برای تحقیق بیشتر و اطمینان از روند طیشده ،یک سخنرانی علمی
با حضور دکتر طبیبزاده در دانشگاه تهران ترتیب دادیم.
این سخنرانی علمی با عنوان «دستور وابستگی ،نظریۀ گروههای
خودگردان» در دانشکدۀ ادبیات و علوم انسانی با حضور اساتیدی از
جمله «دکتر بیجنخان» و «دکتر غالمحسین کریمی دوستان» برگزار شد.
پروژۀ دادگان وابستگی زبان فارس ی
39
پروژۀ دادگان وابستگی زبان فارس ی
40
پروژۀ دادگان وابستگی زبان فارس ی
41
در این گردهمآیی مسائل پیشینی و آتی پروژه مورد بررس ی و مرور
قرار گرفت.
پروژۀ دادگان وابستگی زبان فارس ی
42
همزمان با اتمام این پروژۀ در خرداد ،1390وبگاه دادگان نیز فعال
شد.
این فرهنگ بارها مورد بازبینی جدی قرار گرفته است.
هماکنون نسخۀ 2.2.2از این فرهنگ بر روی وبگاه دادگان وجود
دارد.
پروژۀ دادگان وابستگی زبان فارس ی
43
:گزارش کار این فرهنگ در مقالۀ زیر نوشته شده است
44
Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Manouchehr Kouhestani,
and Behrouz Minaei-Bidgoli, "A Syntactic Valency Lexicon for Persian
Verbs: The First Steps towards Persian Dependency Treebank", in 5th
Language & Technology Conference (LTC): Human Language Technologies
as a Challenge for Computer Science and Linguistics, Poznań, Poland, pp.
227-231, 2011.
پروژۀ دادگان وابستگی زبان فارس ی
پروژۀ دادگان وابستگی زبان فارس ی
45
زمان :تیر و مرداد 1390
برای این هدف ،از افراد زبانشناس دعوت عمومی به عمل آمد و
در یک کالس آموزش ی و با تهیۀ جزوات مفصل ،به افراد
آموزشهای الزم داده شد.
پروژۀ دادگان وابستگی زبان فارس ی
46
باخبر شدیم که در دانشگاه اوپساال یک پروژۀ تجاری در حال انجام
است که این پروژه بر عهدۀ یک دانشجوی دکترای ایرانی است.
این تیم تحقیقاتی در یک مقالۀ علمی پژوهش ی ادعا کردند که
میخواهند اولین پیکرۀ وابستگی زبان فارس ی را بسازند.
هنوز این پیکره در آن دانشگاه ساخته نشده است ولی دو مقالۀ علمی از آن
استخراج کردهاند.
بر اساس اولویتهای کار در آغاز بهمن 1390نسخۀ پیشینی از پیکره را بر
روی وبگاه دادگان همراه با راهنمای 26صفحهای قرار دادیم.
پروژۀ دادگان وابستگی زبان فارس ی
47
پروژۀ دادگان وابستگی زبان فارس ی
48
هماکنون حدود 25,500جمله برچسب نحوی و صرفی کامل
خوردهاند.
به امید خدا ،این پیکره با حدود 30,000جمله در پایان بهار 1391
با برچسبزنی اولیه آماده میشود.
در تابستان ،اشکالگیریهای نهایی و مستندسازی نهایی انجام
خواهد شد.
پروژۀ دادگان وابستگی زبان فارس ی
49
فعلیاب سریع و هوشمند
تجزیهگر مبتنی بر گراف
در https://github.com/rasoolims/PersianVerbAnalyzer/
در https://github.com/rasoolims/MSTParserCSharp/
تجزیهگر مبتنی بر گذار
برنامۀ ترسیم درخت نحوی
خطایاب نحوی مبتنی بر ظرفیت فعلها در زبان فارس ی
پروژۀ دادگان وابستگی زبان فارس ی
50
این وبگاه دارای مقاالت علمی و منابع قابل دریافت و اطالعات و
اخبار مرتبط است.
این وبگاه به دو زبان فارس ی و انگلیس ی به صورت عمومی وجود
دارد.
پروژۀ دادگان وابستگی زبان فارس ی
51
امکان آموزش زبان فارس ی به صورت برخط
امکان آمارگیری از ساختهای زبانی
امکان تجزیۀ هوشمند جمالت زبان
پروژۀ دادگان وابستگی زبان فارس ی
52
پروژۀ دادگان وابستگی زبان فارس ی
53
پروژۀ دادگان وابستگی زبان فارس ی
54
اکرم شفیعی
پژوهش زبانی
سعیده قدردوست نخچی
منوچهر کوهستانی
جملهیابی
مصطفی مهدوی
امیرسعید مولودی
فائزه عباس ی ابیانه
آزاده میرزایی
شیما زمانیپور
برچسبزنی
حورا نوری
دکتر مریم فعال همدانچی فرهنگ ظرفیت تحت
نرمین قادری
وب
سحر اولیپور
سیده مانلی هاشمیان
یاسر سوری
فرزانه بختیاری
علیرضا نوریان
ندا پورمرتض ی خامنه
پریناز دادرس
ابزار برچسبزنی
سوده رسالتپو
سید مهدی حسینی
مرتض ی رضایی
سلیمه زمانی
وبگاه دادگان
محسن حسینعلیزاده
پروژۀ دادگان وابستگی زبان فارس ی
55
در صورت تعریف جامع از دادگان معنایی وابستگی ،این پروژه به
صورت کامل ادامه خواهد داشت.
پروژههای معنا بر اساس دستور وابستگی در زبانهای بسیاری مانند
چکی انجام شده است.
پروژۀ دادگان وابستگی زبان فارس ی
56
هر کس در هر مقامی که هست و هر
مسئولیتی که دارد همان مقام و همان
مسئولیت امتحان اوست ...و اهل ادارات
در همان ادارات خودشان مرکز امتحان
آنهاست.
امام خمینی 11 ،بهمن 1362
پروژۀ دادگان وابستگی زبان فارس ی
57
با تشکر از توجه شما
پروژۀ دادگان وابستگی زبان فارس ی
58