متن كاوي

Download Report

Transcript متن كاوي

‫سيستمهاي متن كاوي‬
‫‪Text Mining Systems‬‬
‫نيما ماليي‬
‫مقدمه‬
‫متن كاوي چيست؟‬
‫متن كاوي چيست؟‬
‫در حاليكه حجم داده هاي متني غير ساختيافته به‬
‫صورت مداوم افزايش مي يابد‪ ،‬توانايي انسانها‬
‫براي بهره برداري از اين اطالعات ثابت مانده‬
‫است‬
‫يك ويراستار انساني‪ ،‬تنها به وسيلة دنبال كردن‬
‫دقيق همه صفحات وب و يا ساير منابع متني مي‬
‫تواند قادر به پاسخگويي دقيق به يك مسألة‬
‫جديد شود‬
‫متن كاوي چيست؟‬
‫‪ ‬متن كاوي = كشف دانش از داده ها متني = متن داده كاوي‬
‫‪ ‬عبارتست از كشف اطالعات جديد و ناشناخته با استخراج‬
‫اتوماتيك اطالعات از منابع داده هاي متني غير ساختيافته‬
‫بوسيله كامپيوتر‬
‫متن كاوي چيست؟‬
‫‪ ‬داده هاي متني غير ساختيافته = مجموعه اي از‬
‫مستندات‬
‫‪ ‬متن كاوي بر روي داده هاي متني غير ساختيافته‬
‫و نيمه ساختيافته تعريف مي گردد‬
‫‪ ‬داده هاي متني غير ساختيافته ‪ :‬صفحات وب‪،‬‬
‫يادداشت‪ ،‬صورتحساب و ‪...‬‬
‫‪ ‬نيمه ساختيافته‪... . XML, SGML :‬‬
‫هدف متن كاوي‬
‫‪ ‬هدف اصلي از متن كاوي آن است كه‬
‫كاربران قادر باشند تا اطالعات را از منابع‬
‫متني استخراج نمايند‪.‬‬
‫‪ ‬تكنيكهاي پردازش زبان طبيعي‪ ،‬داده كاوي ‪.‬‬
‫يادگيري ماشين‪ ،‬به همراه هم براي كشف‬
‫خودكار الگوها در اطالعات استخراج شده‬
‫و متاديتاي بدست آمده از مستندات بكار مي‬
‫روند‪.‬‬
‫تاريخچه‬
‫‪ ‬كشف دانش براي اولين بار توسط آقاي فلدمن در سال‬
‫‪ 1995‬مطرح گرديد‪.‬‬
‫‪ ‬وي پيشنهاد داد تا از مفهوم طبقه بندي مستندات جهت‬
‫تفسير مقاالت با توجه به معنا و مغهومشان و‬
‫سازماندهي آنها در ساختارهاي سلسله مراتبي مطرح‬
‫نمود‪.‬‬
‫‪ ‬براي اولين بار‪ ،‬بحث خالصه سازي داده ها و كشف‬
‫الگوهاي مفيد را مطرح نمود‪.‬‬
‫تفاوت متن كاوي و داده كاوي‬
‫‪ ‬داده كاوي بر روي داده هاي ساختيافته‬
‫پايگاه داده كار مي كند‪.‬‬
‫‪ ‬متن كاوي‪ ،‬بر روي داده هاي غير ساختيافته‬
‫و نيم ساختيافته مانند ‪ Email‬و مستندات‬
‫تمام متني كار مي كند‪.‬‬
‫تشابه متن كاوي و داده كاوي‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫در متن كاوي سعي مي گردد از همان تكنيكهاي داده كاوي‬
‫استفاده گردد‪.‬‬
‫براي اين منظور به تكنولوژيهايي ديگري مانند پردازش زبان‬
‫طبيعي‪ ،‬يادگيري ماشين و ‪ ...‬نياز است تا به صورت اتوماتيك‬
‫آمارهايي را جمع آوري نموده و ساختار و معني مناسبي از‬
‫متن استخراج گردد‪.‬‬
‫در اين موارد‪ ،‬ديدگاه عمومي استخراج ويژگيهاي كليدي از متن‬
‫است‪.‬‬
‫ويژگيهاي استخراج شده بعنوان داده براي تحليل استفاده مي‬
‫گردد‪.‬‬
‫متن كاوي و بازيابي اطالعات‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫متن كاوي ربطي به جستجوي كلمات كليدي در وب ندارد‪ .‬اين‬
‫عمل در حوزه اي بنام بازيابي اطالعات گنجانده مي شود‪.‬‬
‫بازيابي اطالعات‪ :‬جستجو‪ ،‬كاوش‪ ،‬طبقه بندي و فيلتر نمودن‬
‫اطالعاتي كه در حال حاضر شناخته شده اند و در متن قرار‬
‫داده شده است‪.‬‬
‫متن كاوي‪ :‬مجموعه اي از مستندات بررسي شده و اطالعاتي‬
‫كه در هيچيك از مستندات‪ ،‬به صورت مجرد يا صريح وجود‬
‫ندارد‪ ،‬استخراج مي گردد‪.‬‬
‫متن كاوي و كشف دانش‬
‫‪ ‬متن كاوي براي آن قسمت از كشف دانش از‬
‫متن بكار مي رود كه مربوط به استخراج الگوها‬
‫از داده ها متني است‪.‬‬
‫‪ ‬مراحل كشف دانش از متن‪:‬‬
‫جمع آوري مستندات مرتبط‬
‫پردازش اوليه مستندات‬
‫عمليات متن كاوي‬
‫روشهاي متن كاوي‬
‫تكنولوژيهايي كه در متن كاوي بكار مي روند‪:‬‬
‫استخراج اطالعات‬
‫طبقه بندي‬
‫خوشه بندي‬
‫خالصه سازي‬
‫رديابي موضوع‬
‫ارتباط دهنده مفاهيم‬
‫نمايش اطالعات‬
‫پرسش و پاسخ‬
‫كاوش مبتني بر متن‬
‫تجزيه و تحليل گرايشها‬
‫استخراج اطالعات‬
‫‪ ‬در استخراج اطالعات‪ ،‬عبارات كليدي و ارتباط آنها در‬
‫متن تشخيص داده مي شود‪.‬‬
‫‪ ‬اين عمل بوسيله پردازش تطبيق دهنده الگو انجام مي‬
‫پذيرد‪.‬‬
‫‪ ‬عبارات و اصطالحات استخراج شده بايد بصورت‬
‫استاندارد باشد‪:‬‬
‫‪ ‬مثال‪ :‬يادگيري و فراگيري‪ ،‬يك كلمه تشخيص داده شود‪.‬‬
‫طبقه بندي‬
‫‪ ‬عبارتست از تشخيص موضوع اصلي يك سند‪.‬‬
‫‪ ‬هدف از طبقه بندي‪ ،‬ايجاد امكان استفاده از مدلي بر اي پيش‬
‫بيني كالسي از اشيا است كه با عنوان ناشناخته برچسب خورده‬
‫است‬
‫‪ ‬طبقه بندي يك فرايند ‪ 2‬مرحله اي است‪:‬‬
‫الف‪ -‬ساخت مدل‬
‫ب‪ -‬استفاده از مدل‬
‫طبقه بندي در مواردي مانند‪ :‬تعيين اعتبار‪ ،‬مشخص نمودن‬
‫گروههايي از مشتري ها كه خصوصيات و عاليث مشتركي‬
‫دارند‪ ،‬تشخيص ميزان تاثير داروها و موثر بودن درمان بكار‬
‫مي رود‪.‬‬
‫خوشه بندي‬
‫‪ ‬خوشه‪ :‬مجموعه اي از مستندات مرتبط به هم‬
‫است‪.‬‬
‫‪ ‬خوشه بندي‪ ،‬تكنيكي است كه براي دسته بندي‬
‫نمودن مستندات مشابه مورد استفاده قرار مي‬
‫گيرد‪.‬‬
‫در خوشه بندي دسته ها به صورت ديناميك تشكيل‬
‫خالصه سازي‬
‫‪‬‬
‫عملياتي است كه مقدار متن را در يك مستند‪ ،‬با حفظ معناي‬
‫اصلي آن‪ ،‬كاهش مي دهد‪.‬‬
‫استراتژيهاي مهم‪:‬‬
‫‪ -1‬روشهاي آماري‬
‫‪ -2‬روشهاي مكاشفه اي‬
‫در خالصه سازي‪ ،‬كاربر تعيين مي نمايد كه متن خالصه شده‪،‬‬
‫چند درصد از متن اصلي باشد‪.‬‬
‫رديابي موضوع‬
‫‪ ‬سيستم رديابي موضوع بوسيله نگهداري پروفايل‬
‫كاربران و و بر اساس مستنداتي كه كاربر تاكنون‬
‫ديده است‪ ،‬پيش بيني ساير مستنداتي كه ممكن است‬
‫براي كاربر جالب باشد را انجام مي دهد‪.‬‬
‫مثال كاربردي‪ :‬اعالم داروي جديد يا اعالم رقيب‬
‫جديد‬
‫ارتباط دهنده مفاهيم‬
‫‪ ‬مستندات موجود را از طريق تشخيص‬
‫مفاهيم مشتركي كه دارند به هم ارتباط داده‬
‫و به اين وسيله كاربران قادر خواهند بود تا‬
‫اطالعاتي را پيدا نمايند كه از طريق‬
‫روشهاي جستجوي سنتي قادر به يافتن آنها‬
‫نيستند‪.‬‬
‫نمايش اطالعات‬
‫‪ ‬منابع متني زياد ار در سلسله مراتب بصري يا‬
‫نقشه قرار داده و امكان جستجو بر روي آنها را‬
‫فراهمي مي آورد‪.‬‬
‫‪ Informatik V’S docminer ‬ابزاري است‬
‫كه قادر به نمايش حجم زيادي از اطالعات در‬
‫نقشه بوده و بدين طريق تحليل تصويري آنرا‬
‫ارايه مي دهد‪.‬‬
‫پرسش و پاسخ‬
‫در پاسخ به پرسشهاي زبان طبيعي‪ ،‬طريقه پيدا كردن‬
‫بهترين پاسخ به پرسشهاي مطرح شده مورد توجه است‬
‫دانشگاه ‪ MIT‬اولين سيستم پاسخگويي به سئواالت زبان‬
‫طبيعي را با نام ‪ START‬را پياده سازي نموده است‪.‬‬
‫در پرسش و پاسخ مي تواند از تكنيكهاي مختلف متن‬
‫كاوي استفاده گردد‬
‫كاوش مبتني بر متن‬
‫‪ ‬كاربر را قادر مي سازد تا در مجموعه اي‬
‫از مستندات بر اساس موضوعات مرتبط و‬
‫عبارات مشخص حركت كرده و مفاهيم‬
‫كليدي را تشخيص دهد‪.‬‬
‫تجزيه و تحليل گرايشها‬
‫‪ ‬براي مشخص نمودن گرايشهاي مستنداتي‬
‫كه در طول زمان مشخص جمع آوري شده‬
‫اند بكاربرده مي شود‪.‬‬
‫‪ ‬مثال براي تشخيص آنكه يك شركت عاليق‬
‫خود را از يك موضوع به موضوع ديگري‬
‫تغيير داده بكار مي رود‬
‫سيستمهاي متن كاوي‬
‫نمونه هايي از نرم افزارهاي متن كاوي‬
1-Copernic Summarizer
(www.Copernic.com)
2- Wizdoc
(www.wizsoft.com)
3-Insight Discoverer Categorizer(www.temis-group.com)
4- Insight Discoverer Clusterer (www.temis-group.com)
5- TextAnalyst
(www.megaputer.com)
6- SPSS
(www.spss.com )
‫نمونه متن كاوي بر خط‬
‫)‪TAPoR (www.TAPoR.ca‬‬
‫نمونه هاي متن كاوي متن باز‬
 Dragon
Toolkit (www.Dragon.org)
 Gate ( www.gate.ac.uk )
Copernic Summarizer
Company
Copernic Technologies inc.
Software Name Copernic Summarizer
Version
2.1
Product Year
2003
Languages
English, French, Germany,
Spanish
Platform
Windows , Linux
Make the Most of Your Reading Time
‫‪Copernic Summarizer‬‬
‫قابليتها‪:‬‬
‫‪ -1‬دستيار شخصي براي خواندن و خالصه سازي‬
‫فايلهاي متني در زبانهاي انگليسي‪ ،‬فرانسوي‪،‬‬
‫آلماني و اسپانيايي‬
‫‪ -2‬بكارگيري هوش مصنوعي دراين محصول‪ ،‬به‬
‫آن اجازه مي دهد تا محتواي اسناد را درك كرده‬
‫و مفاهيم جمالت كليدي آنرا استخراج كند‬
Copernic Summarizer - inputs
Document, Webpage, ‫ وروديها مي تواند‬
.‫ باشد‬Hyperlink , Email, File, Clipboard
‫ مي تواند ويژگي خالصه سازي را به نرم افزارهاي‬
Word, IE, Netscape, Acrobat : ‫مختلفي مانند‬
.‫ اضافه نمايد‬Reader, Outlook Express
‫ مي تواند فايلهايي با پسوندهاي زير را خالصه نمايد‬
Doc, Txt, rtf , Htm, Html, Url, Pdf
‫‪Copernic Summarizer - Outputs‬‬
‫‪ ‬خروجي‪ ،‬به دو صورت زير تهيه مي گردد‪:‬‬
‫‪ -1‬مفاهيم كليدي (حداكثر ‪ 100‬كلمه)‬
‫‪ -2‬جمالت كليدي (طول آن به تنظيمات بستگي دارد)‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫خروجي (خالصه ها) به صورت فايل‪ ،‬پرينت يا ‪ Email‬تهيه‬
‫مي گردد‪.‬‬
‫خالصه مي تواند براي تمام يا بخشي از سند تهيه شود‪.‬‬
‫امكان پااليش گزارش خروجي با حذف برخي از مفاهيم كليدي‬
‫(كه توسط سيستم حدس زده شده) امكان پذير مي باشد‪.‬‬
‫‪– Copernic Summarizer‬حالتهاي خالصه سازي‬
‫‪ -1‬نوع متن‪ .‬به عوامل حجم متن و فرمت متن‬
‫(‪ )Pdf or Doc‬بستگي دارد‬
‫‪ -2‬زبان متن‪ .‬عاملهاي چند زبانه ‪ ،‬عامل‬
‫معني(ابهام در معني خالصه سازي را دچار‬
‫مشكل مي كند)‬
‫‪ -3‬مدل متن‪ .‬عوامل انساني نويسنده‪ ،‬كمتر به قواعد‬
‫دستوري توجه مي كنند‪.‬‬
‫– ‪Copernic Summarizer‬‬
‫‪Summazising Technology‬‬
‫‪ ‬براي توليد خالصه اي كه هم باالنس بوده‬
‫هم همسان با متن اصلي‪ ،‬مي بايست سيستم‬
‫دو جزء متمايز را با هم تركيب نمايد‪:‬‬
‫الف‪ -‬مدلهاي آماري‬
‫ب‪ -‬فرايندهاي مبتني بر ”تمركز دانش“‬
‫‪Copernic Summarizer – Step by Step‬‬
‫‪ -1‬استاندارد سازي سند‪ :‬اسنادي كه با فرمتهاي متفاوت‬
‫هستند‪ ،‬بايد به يك فرمت استاندارد تبديل شده تا بتوانند‬
‫تفسير گردند‪.‬‬
‫‪ -2‬تشخيص و تحليل‪ :‬اسناد مي توانند به ‪ 4‬زبان مي‬
‫توانند باشند‪ .‬تشخيص زبان به صورت اتوماتيك‬
‫صورت پذيرفته و سپس قواعد مختص همان زبان‬
‫اعمال مي گردد‬
‫‪ -3‬تشخيص محدوده جمالت و نشانه گذاري‬
‫‪Copernic Summarizer – Step by Step‬‬
‫‪ -4‬استخراج مفهومك مجموعه مفاهيم موجود در متن بوسيله‬
‫خالصه ساز هوشمند استخراج مي گردد‪.‬‬
‫اين مرحله توسط برنامه كاربردي انجمن تحقيقات ملي كانادا تهيه‬
‫شده است‪ .‬در اين مرحله در كمتر از يك ثانيه‪ ،‬كلمات كليدي‬
‫مهم استخراج مي گردد‪.‬‬
‫‪ -5‬تقسيم بندي سند‪ :‬مفاهيم كليدي فقط يكبار مشخص شده و‬
‫تكنولوژي خالصه سازي شركت‪ ،‬تركيب ”تصاوير “ بر روي‬
‫تمام سند را فرموله كرده و سپس به اجزاي متني تبديل مي كند‬
‫‪Copernic Summarizer – Step by Step‬‬
‫‪ -6‬انتخاب جمله‬
‫هر جمله در متن‪ ،‬وزني دارد‪ .‬هر جمله كه ارزش كمتري دارد حذف مي‬
‫گرند‪.‬‬
‫‪ -7‬بازنمايي سند داخلي‬
WIZDOC
Company
WizSof
Software Name
WizDoc
Version
1.7
Product Year
2007
Languages
English,
Platform
Windows
can save the user a significant amount of manual
search time because it retrieves the relevant records or
documents immediately.
WIZDOC - Inputs
‫مي توان اين نرم افزار همانند يك موتور جستجو براي بازيابي ركوردها‬
.‫در يك بانك اطالعاتي و اسناد مرتبط با آن در نظر گرفت‬
‫ مي تواند ركوردها را از بانكهاي اطالعاتي زير استخراج‬WizDoc
:‫نمايد‬
 MsAccess
Ms SQL Server
:‫و فايلهاي مرتبط با آنها داراي فرمتهاي‬
Microsoft Word - Text files -Web pages (HTML)
Microsoft RTF documents -Microsoft - documents
-Microsoft PowerPoint files - Excel worksheets
-WordPerfect documents - Acrobat PDF documents
Non-computer documents - Email messages
(business cards, brochures, etc.)
.‫مي تواند در داخل ساير برنامه هاي كاربرده نيز قرا گيرد‬





‫‪WIZDOC - Structure‬‬
‫‪ WizDoc ‬ركوردها را به يكي از دو روش زير جستجو مي‬
‫نمايد‪:‬‬
‫الف‪ -‬جستجوي مبتني بر مفهوم‪ :‬معني متن يا ركورد‪ ،‬در خواست‬
‫مخاطب را درك كرده و اسنادي كه به موضوع درخواستي‬
‫ارتباط معنايي دارند را بر مي گرداند‪.‬‬
‫ب‪ -‬جستجوي رشته اي (‪ :)String Search‬همانند موتور‬
‫جستجو‪ ،‬كاربر درخواست جستجوي خود را اعالم نموده و‬
‫سيستم دقيقا همان رشته ها را جستجو نموده و اسنادي را كه‬
‫حاوي آن رشته هستند را بر مي گرداند‪.‬‬
‫‪WIZDOC - Phases‬‬
‫‪ ‬همانند موتورهاي جستجو در ‪ 2‬فاز عمل مي‬
‫نمايد‪:‬‬
‫الف‪ :Indexing Phase -‬متون موجود در اسناد‬
‫ايندكس مي شود‪.‬‬
‫ب‪ :Search Phase -‬كاربر درخواست جستجو‬
‫را وارد نموده و سيستم ركوردهاي مربوط به‬
‫آنرا استخراج مي نمايد‪.‬‬
‫‪WIZDOC- Indexing Phase‬‬
‫‪ ‬كاربر مي تواند فايلها و جدوالي را كه تمايل دارد كه ايندكس شود را‬
‫مشخص مي نمايد‪.‬‬
‫الف‪ -‬فايلهاي متني را به بخشهايي مي شكند‪ .‬بر اساس عناوين و ساير‬
‫مشخصات داخل متن‪.‬‬
‫ب‪ -‬معني كلمات در هر بخش متني مشخص مي گردد‪ .‬اگر يك كلمه داراي‬
‫ابهام باشد سيستم از راهنماهاي دستوري و معنايي استفاده مي نمايد‪.‬‬
‫ج‪ -‬الگوريتمهايي براي تعيين كلمات كليدي در متن را بكار مي برد‪.‬‬
‫در پايان‪ ،‬آرشيوي ساخته شده و متن آماده جستجو مي گردد‪.‬‬
‫‪WIZDOC -Search Phase‬‬
‫‪ ‬كاربر در اين مرحله‪ ،‬درخواست جستجو مي‬
‫دهد‪.‬‬
‫الف‪ -‬معني هر رشته درخواست شده مشخص مي‬
‫گردد (بوسيله بكار بردن همان روشهاي ايندكس‬
‫كردن‪).‬‬
‫ب‪ -‬الگوهايي كه در مرحله ايندكس كردن بدست‬
‫آمده بود را براي محاسبه درجه ارتباط متن يا‬
‫ركورد با درخواست ارسال شده بكار رفته و‬
‫سپس آنها را بر اساس ميزان ارتباط مرتب مي‬
‫‪WIZDOC- Soundex‬‬
‫‪ ‬نامها ممكن است به اشكال مختلفي در متن درج گردند‪.‬‬
‫‪ ‬مثال‪Gorbachov or Gorbachev :‬‬
‫‪ WizDoc ‬با اضافه نمودن الگوريتم ‪ Soundex‬اين‬
‫مشكل را حل نموده است‪.‬‬
‫‪ ‬اگر اسمي در متن بكار رفته باشد‪ ،‬سيستم‪ ،‬اسامي‬
‫مشابه آنرا كه در متن بكار رفته است را ليست نموده و‬
‫كاربر مي تواند آنرا انتخاب نمايد‪.‬‬
Insight Discover Categorizer
Company
Software Name
Version
Product Year
Temis
Languages
English, French, German, Italian, Dutch,
Spanish, Portuguese, Czech, Greek,
WizDoc Insight Discover Categorizer
Hungarian, Polish, Russian.
Platform
Windows
- Linux.
Insight Discoverer™ Categorizer is a document categorization server. It
automatically classifies unstructured documents into pre-defined categories,
combining statistical and linguistic analysis rules.
‫‪Insight Discover Categorizer‬‬
‫‪ ‬فرمت فايلهاي ورودي‪:‬‬
‫بيشتر از ‪ 50‬فرمت ورودي شامل‪:‬‬
‫‪MS Word, PDF and HTM‬‬
‫‪ ‬خروجي با فرمت ‪ XML‬تهيه مي گردد‪.‬‬
‫‪Insight Discover Categorizer‬‬
‫‪ ‬سه كاربرد عمده دارد‪:‬‬
‫‪ -1‬دسته بندي‪ :‬اسناد را به يك يا جند موضوع نسبت مي‬
‫دهد‪.‬‬
‫‪ -2‬ايندكس كردن‪ :‬عناوين را در متن بر اساس شباهت آن‬
‫با مستنداتي كه تاكنون ايندكس شده اند را مشخص‬
‫ميكند‪.‬‬
‫‪ :Routing -3‬توزبع اسناد به افراد يا سازمانهاي خاص‬
‫بر اساس عاليق آنها‬
‫ ‪Insight Discover Categorizer‬‬‫‪Structure‬‬
‫‪ -1‬فاز ياد گيري‪ :‬اسناد بر اساس شماي دسته بندي‬
‫شركت‪ ،‬دسته بندي شده و مدلهاي دسته بندي ساخته مي‬
‫شود‪.‬‬
‫‪ -2‬فاز دسته بندي‪ .‬همه اسناد جديد را به دسته هاي از‬
‫قبل تعريف شده اختصاص مي دهد‪ .‬هر سندي كه دسته‬
‫بندي مي گردد‪ ،‬بوسيله سيستم‪ ،‬تحليل گرديده و يك يا‬
‫چند گروه انتخاب مي گردد‪.‬‬
‫‪ -3‬ارزيابي دسته بندي‬
Insight Discover clusterer
Company
Software Name
Version
Product Year
Languages
Temis
WizDoc Insight Discover Clusterer
English, French, German, Italian, Dutch,
Spanish, Portuguese, Czech, Greek,
Hungarian, Polish, Russian.
Platform
Windows - Linux.
It proposes the most relevant classification for a given document
collection. Users can then browse through their documents organized
according to theme and sub-theme. They have both an overview of the
information and different avenues to explore. It is therefore easier to find
and appropriate relevant information.
‫‪Insight Discover Clusterer‬‬
‫به صورت پويا‪ ،‬اسناد را بر اساس شباهت معنايي گروه بندي مي‬
‫كند‪،‬‬
‫هدف‪ :‬دسته بندي مرتبط براي مجموعه اي از اسناد داده شده مي‬
‫باشد‪.‬‬
‫كاربرد كليدي‪ :‬ابزاري با كارايي باال براي سازماندهي اطالعات‬
‫مرتبط با رقبا و فروشگاهها را دراختيار مي گذارد‪ .‬اين سيستم‪،‬‬
‫به صورت پويا‪ ،‬مجموعه اسنادي كه توسط موتورهاي جستجو‪،‬‬
‫يافت شده است را دسته بندي مي كند‪ .‬كاربران مي توانند با‬
‫مراجعه به دسته هاي ايجاد شده‪ ،‬رفتار رقبا را مشاهده نمايند‪.‬‬
‫?‪Why Insight Discover Clusterer‬‬
‫‪ -1‬ديدن سريع اطالعات‪.‬‬
‫‪ -2‬سهولت حجم زياد اسناد براي جستجوها‬
‫‪ -3‬سهولت نمايش اطالعات‬
‫‪ -4‬بهبود توليد از طريق گروه بندي اطالعات‬
‫مشابه‬
‫‪ -5‬سهولت دسترسي به اطالعات مناسب‬
‫‪Insight Discover Clusterer-Structure‬‬
‫‪ ‬از فرايندهاي خوشه بندي ابتكاري مبتني بر تركيب‬
‫تحليلهاي آماري و گفتاري استفاده مي نمايد‪.‬‬
‫‪ ‬از تحليل ‪ Morpho-syntactic‬كه توسط شركت‬
‫ارايه شده استفاده مي نمايد‬
‫‪ ‬كاربران مي توانند عمق خوشه بندي و تعداد هر دسته‬
‫در سطح را مشخص نمايند‪.‬‬
‫‪ ‬مراحل‪:‬‬
‫‪1- Viewing 2- Analysis 3-Customization‬‬
TextAnalyst
Company
Software Name
Version
Product Year
Languages
Platform
Megaputer intelligence Inc.
Text Analyst
2.1
2002
English,
Windows
Are You Drowing in the ocean of TEXT?
‫‪TextAnalyst – input , Output‬‬
‫‪ ‬اسناد متني بدن ساختار را دريافت مي نمايد‬
‫‪ ‬چكيده مفهومي متن را مي دهد‪.‬‬
‫‪ ‬خالصه متن را مي دهد‪.‬‬
‫‪ ‬جستجوي متنها بر اساس موضوع‬
‫‪ ‬ساختار شماتيك متن را كشف مي نمايد‪.‬‬
‫‪ ‬متون را خوشه بندي مي نمايد‬
‫‪ ‬امكان بازيابي اطالعات معنايي را مي دهد‪.‬‬
‫‪TextAnalyst‬‬
‫‪ ‬تحليلهايي مبتني بر ساخت خودكار شبكه‬
‫معنايي مي باشد‪.‬‬
‫‪ ‬مزيت كليدي‪ :‬نيازي به ارايه دانش زمينه‬
‫وجود نداشته و سيستم به صورت خودكار‬
‫دانش مورد نياز را درك مي نمايد‪.‬‬
TextAnalyst
:‫ مراحل‬
1- textBase Navigation
2- Topic Struction
3- Clustring
4- Summarization
5- Natural Language Retrival
‫ابزارهاي متن باز‬
‫‪Dragon Toolkit‬‬
‫‪ ‬سيستمي ‪ Java-based‬براي استفاده دانشگاهي در‬
‫مباحث متن كاوي و بازيابي اطالعات است‪.‬‬
‫‪ ‬متن كاوي شامل موارد‪:‬‬
‫دسته بندي ‪ ،‬خوشه بندي‪ ،‬خالصه سازي‪ ،‬مدل كردن عناوين‬
‫داراي مجموعه از ابزارهاي پردازش زبان طبيعي براي ايندكس‬
‫نمودن مجموعه هاي متني است‪.‬‬
‫قابليت بكارگيري براي كاربردهاي خيلي بزرگ را نيز دارد‪ .‬زيرا از‬
‫ماتريس خلوت استفاده مي نمايد‪.‬‬
Dragon Toolkit - Architecture
‫‪Dragon Toolkit - Architecture‬‬
‫‪ -1‬براي شروع مي بايست مجموعه اي از اسناد قابل‬
‫خوندن براي كامپيوتر فراهم گردد‪.‬‬
‫‪ -2‬فرايند پردازش زبان طبيعي براي هر بخش از‬
‫مجموعه ي ارايه شده اعمال مي گردد‪ .‬شامل تكنيكهاي‬
‫زير‪:‬‬
‫ توكن بندي ‪ -‬برچسسب زني بخشهاي كالمي ‪-‬ريشه‬‫ استخراج‬‫ استخراج عبارات‬‫يابي‬
‫مفاهيم‬
‫‪Dragon Toolkit - Architecture‬‬
‫‪ -3‬هر يك از كلمات‪ ،‬عبارات و مفاهيم استخراج‬
‫شده در يك ماتريس خلوت براي استفاده هاي‬
‫بعدي ذخيره مي گردد‪.‬‬
‫‪ -4‬عملياتهاي متن كاوي شامل‪ :‬بازيابي‪ ،‬دسته‬
‫بندي‪ ،‬خوشه بندي‪ ،‬خالصه سازي بر روي داده‬
‫ها ايندكس شده اعمال مي گردد‪.‬‬
‫‪ -5‬نتايج بازبي و كاوش متن ارزيابي مي گردند‪.‬‬
‫‪Dragon Toolkit‬‬
‫‪‬‬
‫اين ابزار براي شروع‪ ،‬به گره اي اوليه دارد كه ‪ Config file‬خوانده‬
‫مي شود‪:‬‬
An IE Toolkit: GATE
University of Sheffield since 1995
–
–
–
–
–
–
–
More than 10 years old
Free open source software
Implemented in Java
language analysis contexts including Information Extraction in
English, Greek, Spanish, Swedish, German, Italian and French
Easily pluggable and used in a lot other projects
Provide interface as a standalone applications
Pretty slow and memory consuming
Information Extraction on GATE
.‫ نام دارد‬ANNIE ‫ابزار اشتخراج اطالعات‬

ANNIE = Nearly-New Information Extraction System
:‫شامل بخشهاي ذيل مي باشد‬







Tokeniser
Gazetteer
Sentence Splitter
Part of Speech Tagger
Semantic Tagger
Orthographic Coreference (OrthoMatcher)
Pronominal Coreference
‫مراجع‬
http://www.gate.ac.uk/sale/tao/i 
ndex.html