خلاصهسازی گزینشی چندسندی متون فارسی
Download
Report
Transcript خلاصهسازی گزینشی چندسندی متون فارسی
گامی به سوی خالصه سازی چکیده ای
ارائه دهنده
فاطمه پورغالمعلی
بهار 1390
نگاهی کوتاه
مقدمه
روش پیشنهادی
2
مقدمه
خالصهسازی متن
انواع خالصه سازی
خالصهسازی چکیده ای
فشرده سازی جمالت
آمیختن اطالعات
3
خالصهسازی متن
خالصهسازی متن
فرایند تولید خودکار نسخه ای کوتاه شده از یک متن که اطالعات مفید را برای کاربر
فراهم می آورد
4
خالصهسازی متن
انواع خالصهسازی
از دیدگاه تغییر در جملهها:
گزینش ی
چکیده ای
از دیدگاه تعداد سند ورودی:
تکسندی
چندسندی
از دیدگاه انعطافپذیری در نوع سندهای ورودی:
عمومی
محدود به حوزه
از دیدگاه تعامل با کاربر:
مبتنی بر پرسوجو
غیرمبتنی بر پرسوجو
5
خالصهسازی چکیدهای
فشرده سازی جمالت
آمیختن اطالعات
6
فشردهسازی جمالت
فشردهسازی جمالت
Knightو (2002) Marcu
استفاده از پیکره Ziff-Davisو تولید 1067جفت جمالت فشرده شده و غیر
فشرده شده
استفاده از درخت تجزیه
استفاده از دو روش برای یادگیری فشرده سازی
Noisy channel
Decision tree
7
فشردهسازی جمالت
Noisy channel
دیگر موارد کاربرد :ترجمه ماشینی ، pos tagging ،تشخیص گفتار
با داشتن درخت غیرفشرده به دنبال زیردرخت فشرده اولیه هستیم
جمله کوتاه sو جمله بلند t
استفاده از فرمول های احتمال شرطی
)P(s | t) = P(s) · P(t | s
محاسبه احتمال ) P(s | tبرای هر زیر درخت ممکن با استفاده از پیکره
انتخاب زیر درخت محتمل تر
8
فشردهسازی جمالت
Decision tree
آموزش درخت بر اساس پیکره
انجام عمل shiftیا reduce
9
آمیختن اطالعات
آمیختن اطالعات
] Barzilayو همکارانش[1999 ،
استفاده از چندین سند
خوشه بندی جمالت اسناد با استفاده از مولفه Hatzivassiloglou( SimFinder
و همکارانش )1999 ،
تجزیه جمالت به عبارات
10
آمیختن اطالعات
تبدیل عبارات به فرم DSYNT
یک بازنمایی وابستگی که توسط یک تجزیه گر آماری ساخته می شود
فرم DSYNTبرای جمله ”“U.S. fighter was shot by missile.
یافتن اشتراک بیشینه ای که همه جمله های خوشه را در برگیرد
دادن خروجی مرحله قبل به مولد زبان FUF/SURGEو گرفتن جمله خروجی
11
روش پیشنهادی
پیکره مورد استفاده
تشابه جمالت
حذف کلمات اضافه
حذف ویا ادغام جمالت
ارزیابی
12
روش پیشنهادی
ترکیبی از روش های خالصه سازی گزینش ی و چکیده ای
بر مبنای 30جمله اول از جمالت خروجی از یک روش خالصه سازی گزینش ی از پیکره
DUC2007
اطمینان از مبنای کار
حضور باالی 90درصد از 30جمله انتخابی در میان جمالت گزینش شده 32سیستم
خالصه سازی استاندارد که نتایج آنها در مجموعه DUC2007موجود است.
13
اندازه گیری تشابه جمالت
تشابه جمالت
اشتراک کلمات
معیارtf-idf
معیار زبانی
14
تشابه جمالت ()Lee 2011
15
تشابه جمالت ()Lee 2011
الگوریتم
گام اول :پیش پردازش
جداسازی لغات ،تبدیل حروف بزرگ به کوچک ،حذف واژه های عمومی ،ریشه یابی
: Pos taggingتشخیص فعل ها و اسم های هر جمله
گام دوم :مشابهت کلمات
عمق پایین ترین پدر مشترک دو کلمه
تعداد نود ها بین H1و کلمه A
16
تشابه جمالت ()Lee 2011
گام سوم :بردار اسمی و بردار فعلی
کلمه kام در فضای برداری
بردار اسمی جمله Aدر فیلد iام
بردار فعلی جمله Aدر فیلد iام
17
تشابه جمالت ()Lee 2011
گام چهارم :محاسبه فاصله کسینوس ی بین بردارهای اسمی و فعلی دو جمله
18
تشابه جمالت ()Lee 2011
گام پنجم :محاسبه تشابه کل
ضریبی برای وفق دادن NCو NV
19
حذف کلمات اضافه
عناوین خبرگزاری ها
در ابتدای بسیاری از جمالت نام خبرگزاری ذکر شده که برای ما بار معنایی ندارد
BONN, April 2 (Xinhua) --
نقل قول ها
در برخی جمالت و در ابتدا ویا انتهای آن ها خبرگزاری ها خبر را از کس ی و یا از جایی
نقل کرده اند.
یافتن این زیرجمله ها توسط الگوی خاص ی که دارند قابل انجام است
نهاد +فعل هایی از قبیل :گفت ،بیان کرد ،اشاره کرد و...
European Central Bank President Wim Duisenberg said
20
حذف کلمات اضافه
عبارات توضیحی
عبارات توضیحی که در ادامه برخی از اسم ها می آید و معموال توسط دو ویرگول
.متمایز شده اند
Thailand is considering using the European single
currency, the euro, in the country's foreign reserves
Rudolph, a 32-year-old itinerant carpenter who lived for
a while in western North Carolina, is being sought in the
fatal bombing
زمان اعمال این قوانین یکسان نیست
21
حذف و یا ادغام جمالت
تبدیل جمالت مشابه به یک جمله
بررس ی میزان مشابهت دو جمله
)جمالت بسیار مشابه (مشابهت بیش از یک میزان آستانه
تشابه نقش های معنایی متناظر در دو جمله
حذف جمالت
تایی30 استفاده از شماره جمله در لیست
در نظر گرفتن طول جمله
حذف تصادفی
The mass printing of the banknotes of the single European currency, the
euro, would be started at the beginning of 1999
22
Despite skepticism about the actual realization of a single European currency
as scheduled on January 1, 1999, preparations for the design of the Euro note
have already begun.
حذف و یا ادغام جمالت
جمالتی که تنها در یک بخش از نقش های معنایی جمله متفاوت اند
بررس ی رابطه بین قسمت های غیر همسان در WordNet
انتخاب جمله ای که معنای کلی تری را بیان می نماید بر اساس روابط
hyponomyدر ( WordNetحذف جمالت دیگر)
استفاده از مفهوم سطح باالتر(پدر) برای آنها که به طور مستقیم به یک پدر
وصل اند (ادغام دو جمله)
استفاده از ترکیب عطفی برای جمالت مشابهی که برای قسمت غیر همسان آنها
هیچ رابطه ای یافت نشده است (ادغام دو جمله)
23
حذف و یا ادغام جمالت
Thailand is considering using the European single
currency, the euro, in the country's foreign reserves
Italy and France have adopted the euro, as the European
Union's new single currency is known.
Some countries have adopted the euro, as the European
Union's new single currency is known.
Or
Some countries such as Thailand and Italy and France
have adopted the euro, as the European Union's new single
currency is known.
24
روش ارزیابی
روش ارزیابی روش پیشنهادی با استفاده از ابزار Rougeمی باشد
4بار ارزیابی با 4خالصه انسانی موجود در پیکره
میانگین گیری بین 4دقت محاسبه شده
25
مراجع
،» «خالصهسازی چندسندی متون فارس ی با استفاده از یک روش مبتنی بر خوشهبندی،)الف-1388( . آنالویی م،.] مشکی م1[
.1388 ، دانشگاه آزاد رودهن،اولین کنفرانس ملی مهندس ی نرمافزار
[2] Barzilay R., McKeown K. R., and Elhadad M. (1999), Information fusion in the
context of multi-document summarization, in Proceedings of the 37th Association
for Computational Linguistics, 1999, Maryland.
[3] Knight K. and Marcu D. (2002), Summarization beyond sentence extraction: A
probabilistic approach to sentence compression, Artificial Intelligence, 139(1),
2002.
[4] Aliguliyev R.M. (2009) A new sentence similarity measure and sentence based
extractive technique for automatic text summarization , aInstitute of Information
Technology of National Academy of Sciences of Azerbaijan, 9, F.Agayev str.,
AZ1141 Baku, Azerbaijan
[5] Lee M.Ch . (2011), A novel sentence similarity measure for semantic-based expert
systems,
a Department of Computer and Communication Engineering,
Ming Chuan University, Taoyuan, Taiwan
26