خلاصه‌سازی گزینشی چند‌سندی متون فارسی

Download Report

Transcript خلاصه‌سازی گزینشی چند‌سندی متون فارسی

‫گامی به سوی خالصه سازی چکیده ای‬
‫ارائه دهنده‬
‫فاطمه پورغالمعلی‬
‫بهار ‪1390‬‬
‫نگاهی کوتاه‬
‫مقدمه‬
‫روش پیشنهادی‬
‫‪2‬‬
‫مقدمه‬
‫خالصهسازی متن‬
‫انواع خالصه سازی‬
‫خالصهسازی چکیده ای‬
‫فشرده سازی جمالت‬
‫آمیختن اطالعات‬
‫‪3‬‬
‫خالصهسازی متن‬
‫خالصهسازی متن‬
‫فرایند تولید خودکار نسخه ای کوتاه شده از یک متن که اطالعات مفید را برای کاربر‬
‫فراهم می آورد‬
‫‪4‬‬
‫خالصهسازی متن‬
‫انواع خالصهسازی‬
‫از دیدگاه تغییر در جملهها‪:‬‬
‫گزینش ی‬
‫چکیده ای‬
‫از دیدگاه تعداد سند ورودی‪:‬‬
‫تکسندی‬
‫چندسندی‬
‫از دیدگاه انعطافپذیری در نوع سندهای ورودی‪:‬‬
‫عمومی‬
‫محدود به حوزه‬
‫از دیدگاه تعامل با کاربر‪:‬‬
‫مبتنی بر پرسوجو‬
‫غیرمبتنی بر پرسوجو‬
‫‪5‬‬
‫خالصهسازی چکیدهای‬
‫فشرده سازی جمالت‬
‫آمیختن اطالعات‬
‫‪6‬‬
‫فشردهسازی جمالت‬
‫فشردهسازی جمالت‬
‫‪ Knight‬و ‪(2002) Marcu‬‬
‫استفاده از پیکره ‪ Ziff-Davis‬و تولید ‪ 1067‬جفت جمالت فشرده شده و غیر‬
‫فشرده شده‬
‫استفاده از درخت تجزیه‬
‫استفاده از دو روش برای یادگیری فشرده سازی‬
‫‪Noisy channel‬‬
‫‪Decision tree‬‬
‫‪7‬‬
‫فشردهسازی جمالت‬
‫‪Noisy channel‬‬
‫دیگر موارد کاربرد‪ :‬ترجمه ماشینی‪ ، pos tagging ،‬تشخیص گفتار‬
‫با داشتن درخت غیرفشرده به دنبال زیردرخت فشرده اولیه هستیم‬
‫جمله کوتاه ‪ s‬و جمله بلند ‪t‬‬
‫استفاده از فرمول های احتمال شرطی‬
‫)‪P(s | t) = P(s) · P(t | s‬‬
‫محاسبه احتمال )‪ P(s | t‬برای هر زیر درخت ممکن با استفاده از پیکره‬
‫انتخاب زیر درخت محتمل تر‬
‫‪8‬‬
‫فشردهسازی جمالت‬
‫‪Decision tree‬‬
‫آموزش درخت بر اساس پیکره‬
‫انجام عمل ‪ shift‬یا ‪reduce‬‬
‫‪9‬‬
‫آمیختن اطالعات‬
‫آمیختن اطالعات‬
‫]‪ Barzilay‬و همکارانش‪[1999 ،‬‬
‫استفاده از چندین سند‬
‫خوشه بندی جمالت اسناد با استفاده از مولفه ‪Hatzivassiloglou( SimFinder‬‬
‫و همکارانش ‪)1999 ،‬‬
‫تجزیه جمالت به عبارات‬
‫‪10‬‬
‫آمیختن اطالعات‬
‫تبدیل عبارات به فرم ‪DSYNT‬‬
‫یک بازنمایی وابستگی که توسط یک تجزیه گر آماری ساخته می شود‬
‫فرم ‪ DSYNT‬برای جمله ”‪“U.S. fighter was shot by missile.‬‬
‫یافتن اشتراک بیشینه ای که همه جمله های خوشه را در برگیرد‬
‫دادن خروجی مرحله قبل به مولد زبان ‪ FUF/SURGE‬و گرفتن جمله خروجی‬
‫‪11‬‬
‫روش پیشنهادی‬
‫پیکره مورد استفاده‬
‫تشابه جمالت‬
‫حذف کلمات اضافه‬
‫حذف ویا ادغام جمالت‬
‫ارزیابی‬
‫‪12‬‬
‫روش پیشنهادی‬
‫ترکیبی از روش های خالصه سازی گزینش ی و چکیده ای‬
‫بر مبنای ‪ 30‬جمله اول از جمالت خروجی از یک روش خالصه سازی گزینش ی از پیکره‬
‫‪DUC2007‬‬
‫اطمینان از مبنای کار‬
‫حضور باالی‪ 90‬درصد از ‪ 30‬جمله انتخابی در میان جمالت گزینش شده ‪ 32‬سیستم‬
‫خالصه سازی استاندارد که نتایج آنها در مجموعه ‪ DUC2007‬موجود است‪.‬‬
‫‪13‬‬
‫اندازه گیری تشابه جمالت‬
‫تشابه جمالت‬
‫اشتراک کلمات‬
‫معیار‪tf-idf‬‬
‫معیار زبانی‬
‫‪14‬‬
‫تشابه جمالت (‪)Lee 2011‬‬
‫‪15‬‬
‫تشابه جمالت (‪)Lee 2011‬‬
‫الگوریتم‬
‫گام اول‪ :‬پیش پردازش‬
‫جداسازی لغات‪ ،‬تبدیل حروف بزرگ به کوچک‪ ،‬حذف واژه های عمومی‪ ،‬ریشه یابی‬
‫‪ : Pos tagging‬تشخیص فعل ها و اسم های هر جمله‬
‫گام دوم‪ :‬مشابهت کلمات‬
‫عمق پایین ترین پدر مشترک دو کلمه‬
‫تعداد نود ها بین ‪ H1‬و کلمه ‪A‬‬
‫‪16‬‬
‫تشابه جمالت (‪)Lee 2011‬‬
‫گام سوم‪ :‬بردار اسمی و بردار فعلی‬
‫کلمه ‪ k‬ام در فضای برداری‬
‫بردار اسمی جمله ‪ A‬در فیلد ‪i‬ام‬
‫بردار فعلی جمله ‪ A‬در فیلد ‪i‬ام‬
‫‪17‬‬
‫تشابه جمالت (‪)Lee 2011‬‬
‫گام چهارم‪ :‬محاسبه فاصله کسینوس ی بین بردارهای اسمی و فعلی دو جمله‬
‫‪18‬‬
‫تشابه جمالت (‪)Lee 2011‬‬
‫گام پنجم‪ :‬محاسبه تشابه کل‬
‫ضریبی برای وفق دادن ‪ NC‬و ‪NV‬‬
‫‪19‬‬
‫حذف کلمات اضافه‬
‫عناوین خبرگزاری ها‬
‫در ابتدای بسیاری از جمالت نام خبرگزاری ذکر شده که برای ما بار معنایی ندارد‬
‫‪BONN, April 2 (Xinhua) --‬‬
‫نقل قول ها‬
‫در برخی جمالت و در ابتدا ویا انتهای آن ها خبرگزاری ها خبر را از کس ی و یا از جایی‬
‫نقل کرده اند‪.‬‬
‫یافتن این زیرجمله ها توسط الگوی خاص ی که دارند قابل انجام است‬
‫نهاد ‪ +‬فعل هایی از قبیل‪ :‬گفت‪ ،‬بیان کرد‪ ،‬اشاره کرد و‪...‬‬
‫‪European Central Bank President Wim Duisenberg said‬‬
‫‪20‬‬
‫حذف کلمات اضافه‬
‫عبارات توضیحی‬
‫عبارات توضیحی که در ادامه برخی از اسم ها می آید و معموال توسط دو ویرگول‬
.‫متمایز شده اند‬
Thailand is considering using the European single
currency, the euro, in the country's foreign reserves
Rudolph, a 32-year-old itinerant carpenter who lived for
a while in western North Carolina, is being sought in the
fatal bombing
‫زمان اعمال این قوانین یکسان نیست‬
21
‫حذف و یا ادغام جمالت‬
‫تبدیل جمالت مشابه به یک جمله‬
‫بررس ی میزان مشابهت دو جمله‬
)‫جمالت بسیار مشابه (مشابهت بیش از یک میزان آستانه‬
‫تشابه نقش های معنایی متناظر در دو جمله‬
‫حذف جمالت‬
‫ تایی‬30 ‫استفاده از شماره جمله در لیست‬
‫در نظر گرفتن طول جمله‬
‫حذف تصادفی‬
The mass printing of the banknotes of the single European currency, the
euro, would be started at the beginning of 1999
22
Despite skepticism about the actual realization of a single European currency
as scheduled on January 1, 1999, preparations for the design of the Euro note
have already begun.
‫حذف و یا ادغام جمالت‬
‫جمالتی که تنها در یک بخش از نقش های معنایی جمله متفاوت اند‬
‫بررس ی رابطه بین قسمت های غیر همسان در ‪WordNet‬‬
‫انتخاب جمله ای که معنای کلی تری را بیان می نماید بر اساس روابط‬
‫‪ hyponomy‬در ‪( WordNet‬حذف جمالت دیگر)‬
‫استفاده از مفهوم سطح باالتر(پدر) برای آنها که به طور مستقیم به یک پدر‬
‫وصل اند (ادغام دو جمله)‬
‫استفاده از ترکیب عطفی برای جمالت مشابهی که برای قسمت غیر همسان آنها‬
‫هیچ رابطه ای یافت نشده است (ادغام دو جمله)‬
‫‪23‬‬
‫حذف و یا ادغام جمالت‬
Thailand is considering using the European single
currency, the euro, in the country's foreign reserves
Italy and France have adopted the euro, as the European
Union's new single currency is known.
Some countries have adopted the euro, as the European
Union's new single currency is known.
Or
Some countries such as Thailand and Italy and France
have adopted the euro, as the European Union's new single
currency is known.
24
‫روش ارزیابی‬
‫روش ارزیابی روش پیشنهادی با استفاده از ابزار ‪ Rouge‬می باشد‬
‫‪ 4‬بار ارزیابی با ‪ 4‬خالصه انسانی موجود در پیکره‬
‫میانگین گیری بین ‪ 4‬دقت محاسبه شده‬
‫‪25‬‬
‫مراجع‬
،»‫ «خالصهسازی چندسندی متون فارس ی با استفاده از یک روش مبتنی بر خوشهبندی‬،)‫الف‬-1388( .‫ آنالویی م‬،.‫] مشکی م‬1[
.1388 ،‫ دانشگاه آزاد رودهن‬،‫اولین کنفرانس ملی مهندس ی نرمافزار‬
[2] Barzilay R., McKeown K. R., and Elhadad M. (1999), Information fusion in the
context of multi-document summarization, in Proceedings of the 37th Association
for Computational Linguistics, 1999, Maryland.
[3] Knight K. and Marcu D. (2002), Summarization beyond sentence extraction: A
probabilistic approach to sentence compression, Artificial Intelligence, 139(1),
2002.
[4] Aliguliyev R.M. (2009) A new sentence similarity measure and sentence based
extractive technique for automatic text summarization , aInstitute of Information
Technology of National Academy of Sciences of Azerbaijan, 9, F.Agayev str.,
AZ1141 Baku, Azerbaijan
[5] Lee M.Ch . (2011), A novel sentence similarity measure for semantic-based expert
systems,
a Department of Computer and Communication Engineering,
Ming Chuan University, Taoyuan, Taiwan
26