Transcript متن كاوي
سيستمهاي متن كاوي Text Mining Systems نيما ماليي مقدمه متن كاوي چيست؟ متن كاوي چيست؟ در حاليكه حجم داده هاي متني غير ساختيافته به صورت مداوم افزايش مي يابد ،توانايي انسانها براي بهره برداري از اين اطالعات ثابت مانده است يك ويراستار انساني ،تنها به وسيلة دنبال كردن دقيق همه صفحات وب و يا ساير منابع متني مي تواند قادر به پاسخگويي دقيق به يك مسألة جديد شود متن كاوي چيست؟ متن كاوي = كشف دانش از داده ها متني = متن داده كاوي عبارتست از كشف اطالعات جديد و ناشناخته با استخراج اتوماتيك اطالعات از منابع داده هاي متني غير ساختيافته بوسيله كامپيوتر متن كاوي چيست؟ داده هاي متني غير ساختيافته = مجموعه اي از مستندات متن كاوي بر روي داده هاي متني غير ساختيافته و نيمه ساختيافته تعريف مي گردد داده هاي متني غير ساختيافته :صفحات وب، يادداشت ،صورتحساب و ... نيمه ساختيافته... . XML, SGML : هدف متن كاوي هدف اصلي از متن كاوي آن است كه كاربران قادر باشند تا اطالعات را از منابع متني استخراج نمايند. تكنيكهاي پردازش زبان طبيعي ،داده كاوي . يادگيري ماشين ،به همراه هم براي كشف خودكار الگوها در اطالعات استخراج شده و متاديتاي بدست آمده از مستندات بكار مي روند. تاريخچه كشف دانش براي اولين بار توسط آقاي فلدمن در سال 1995مطرح گرديد. وي پيشنهاد داد تا از مفهوم طبقه بندي مستندات جهت تفسير مقاالت با توجه به معنا و مغهومشان و سازماندهي آنها در ساختارهاي سلسله مراتبي مطرح نمود. براي اولين بار ،بحث خالصه سازي داده ها و كشف الگوهاي مفيد را مطرح نمود. تفاوت متن كاوي و داده كاوي داده كاوي بر روي داده هاي ساختيافته پايگاه داده كار مي كند. متن كاوي ،بر روي داده هاي غير ساختيافته و نيم ساختيافته مانند Emailو مستندات تمام متني كار مي كند. تشابه متن كاوي و داده كاوي در متن كاوي سعي مي گردد از همان تكنيكهاي داده كاوي استفاده گردد. براي اين منظور به تكنولوژيهايي ديگري مانند پردازش زبان طبيعي ،يادگيري ماشين و ...نياز است تا به صورت اتوماتيك آمارهايي را جمع آوري نموده و ساختار و معني مناسبي از متن استخراج گردد. در اين موارد ،ديدگاه عمومي استخراج ويژگيهاي كليدي از متن است. ويژگيهاي استخراج شده بعنوان داده براي تحليل استفاده مي گردد. متن كاوي و بازيابي اطالعات متن كاوي ربطي به جستجوي كلمات كليدي در وب ندارد .اين عمل در حوزه اي بنام بازيابي اطالعات گنجانده مي شود. بازيابي اطالعات :جستجو ،كاوش ،طبقه بندي و فيلتر نمودن اطالعاتي كه در حال حاضر شناخته شده اند و در متن قرار داده شده است. متن كاوي :مجموعه اي از مستندات بررسي شده و اطالعاتي كه در هيچيك از مستندات ،به صورت مجرد يا صريح وجود ندارد ،استخراج مي گردد. متن كاوي و كشف دانش متن كاوي براي آن قسمت از كشف دانش از متن بكار مي رود كه مربوط به استخراج الگوها از داده ها متني است. مراحل كشف دانش از متن: جمع آوري مستندات مرتبط پردازش اوليه مستندات عمليات متن كاوي روشهاي متن كاوي تكنولوژيهايي كه در متن كاوي بكار مي روند: استخراج اطالعات طبقه بندي خوشه بندي خالصه سازي رديابي موضوع ارتباط دهنده مفاهيم نمايش اطالعات پرسش و پاسخ كاوش مبتني بر متن تجزيه و تحليل گرايشها استخراج اطالعات در استخراج اطالعات ،عبارات كليدي و ارتباط آنها در متن تشخيص داده مي شود. اين عمل بوسيله پردازش تطبيق دهنده الگو انجام مي پذيرد. عبارات و اصطالحات استخراج شده بايد بصورت استاندارد باشد: مثال :يادگيري و فراگيري ،يك كلمه تشخيص داده شود. طبقه بندي عبارتست از تشخيص موضوع اصلي يك سند. هدف از طبقه بندي ،ايجاد امكان استفاده از مدلي بر اي پيش بيني كالسي از اشيا است كه با عنوان ناشناخته برچسب خورده است طبقه بندي يك فرايند 2مرحله اي است: الف -ساخت مدل ب -استفاده از مدل طبقه بندي در مواردي مانند :تعيين اعتبار ،مشخص نمودن گروههايي از مشتري ها كه خصوصيات و عاليث مشتركي دارند ،تشخيص ميزان تاثير داروها و موثر بودن درمان بكار مي رود. خوشه بندي خوشه :مجموعه اي از مستندات مرتبط به هم است. خوشه بندي ،تكنيكي است كه براي دسته بندي نمودن مستندات مشابه مورد استفاده قرار مي گيرد. در خوشه بندي دسته ها به صورت ديناميك تشكيل خالصه سازي عملياتي است كه مقدار متن را در يك مستند ،با حفظ معناي اصلي آن ،كاهش مي دهد. استراتژيهاي مهم: -1روشهاي آماري -2روشهاي مكاشفه اي در خالصه سازي ،كاربر تعيين مي نمايد كه متن خالصه شده، چند درصد از متن اصلي باشد. رديابي موضوع سيستم رديابي موضوع بوسيله نگهداري پروفايل كاربران و و بر اساس مستنداتي كه كاربر تاكنون ديده است ،پيش بيني ساير مستنداتي كه ممكن است براي كاربر جالب باشد را انجام مي دهد. مثال كاربردي :اعالم داروي جديد يا اعالم رقيب جديد ارتباط دهنده مفاهيم مستندات موجود را از طريق تشخيص مفاهيم مشتركي كه دارند به هم ارتباط داده و به اين وسيله كاربران قادر خواهند بود تا اطالعاتي را پيدا نمايند كه از طريق روشهاي جستجوي سنتي قادر به يافتن آنها نيستند. نمايش اطالعات منابع متني زياد ار در سلسله مراتب بصري يا نقشه قرار داده و امكان جستجو بر روي آنها را فراهمي مي آورد. Informatik V’S docminer ابزاري است كه قادر به نمايش حجم زيادي از اطالعات در نقشه بوده و بدين طريق تحليل تصويري آنرا ارايه مي دهد. پرسش و پاسخ در پاسخ به پرسشهاي زبان طبيعي ،طريقه پيدا كردن بهترين پاسخ به پرسشهاي مطرح شده مورد توجه است دانشگاه MITاولين سيستم پاسخگويي به سئواالت زبان طبيعي را با نام STARTرا پياده سازي نموده است. در پرسش و پاسخ مي تواند از تكنيكهاي مختلف متن كاوي استفاده گردد كاوش مبتني بر متن كاربر را قادر مي سازد تا در مجموعه اي از مستندات بر اساس موضوعات مرتبط و عبارات مشخص حركت كرده و مفاهيم كليدي را تشخيص دهد. تجزيه و تحليل گرايشها براي مشخص نمودن گرايشهاي مستنداتي كه در طول زمان مشخص جمع آوري شده اند بكاربرده مي شود. مثال براي تشخيص آنكه يك شركت عاليق خود را از يك موضوع به موضوع ديگري تغيير داده بكار مي رود سيستمهاي متن كاوي نمونه هايي از نرم افزارهاي متن كاوي 1-Copernic Summarizer (www.Copernic.com) 2- Wizdoc (www.wizsoft.com) 3-Insight Discoverer Categorizer(www.temis-group.com) 4- Insight Discoverer Clusterer (www.temis-group.com) 5- TextAnalyst (www.megaputer.com) 6- SPSS (www.spss.com ) نمونه متن كاوي بر خط )TAPoR (www.TAPoR.ca نمونه هاي متن كاوي متن باز Dragon Toolkit (www.Dragon.org) Gate ( www.gate.ac.uk ) Copernic Summarizer Company Copernic Technologies inc. Software Name Copernic Summarizer Version 2.1 Product Year 2003 Languages English, French, Germany, Spanish Platform Windows , Linux Make the Most of Your Reading Time Copernic Summarizer قابليتها: -1دستيار شخصي براي خواندن و خالصه سازي فايلهاي متني در زبانهاي انگليسي ،فرانسوي، آلماني و اسپانيايي -2بكارگيري هوش مصنوعي دراين محصول ،به آن اجازه مي دهد تا محتواي اسناد را درك كرده و مفاهيم جمالت كليدي آنرا استخراج كند Copernic Summarizer - inputs Document, Webpage, وروديها مي تواند . باشدHyperlink , Email, File, Clipboard مي تواند ويژگي خالصه سازي را به نرم افزارهاي Word, IE, Netscape, Acrobat : مختلفي مانند . اضافه نمايدReader, Outlook Express مي تواند فايلهايي با پسوندهاي زير را خالصه نمايد Doc, Txt, rtf , Htm, Html, Url, Pdf Copernic Summarizer - Outputs خروجي ،به دو صورت زير تهيه مي گردد: -1مفاهيم كليدي (حداكثر 100كلمه) -2جمالت كليدي (طول آن به تنظيمات بستگي دارد) خروجي (خالصه ها) به صورت فايل ،پرينت يا Emailتهيه مي گردد. خالصه مي تواند براي تمام يا بخشي از سند تهيه شود. امكان پااليش گزارش خروجي با حذف برخي از مفاهيم كليدي (كه توسط سيستم حدس زده شده) امكان پذير مي باشد. – Copernic Summarizerحالتهاي خالصه سازي -1نوع متن .به عوامل حجم متن و فرمت متن ( )Pdf or Docبستگي دارد -2زبان متن .عاملهاي چند زبانه ،عامل معني(ابهام در معني خالصه سازي را دچار مشكل مي كند) -3مدل متن .عوامل انساني نويسنده ،كمتر به قواعد دستوري توجه مي كنند. – Copernic Summarizer Summazising Technology براي توليد خالصه اي كه هم باالنس بوده هم همسان با متن اصلي ،مي بايست سيستم دو جزء متمايز را با هم تركيب نمايد: الف -مدلهاي آماري ب -فرايندهاي مبتني بر ”تمركز دانش“ Copernic Summarizer – Step by Step -1استاندارد سازي سند :اسنادي كه با فرمتهاي متفاوت هستند ،بايد به يك فرمت استاندارد تبديل شده تا بتوانند تفسير گردند. -2تشخيص و تحليل :اسناد مي توانند به 4زبان مي توانند باشند .تشخيص زبان به صورت اتوماتيك صورت پذيرفته و سپس قواعد مختص همان زبان اعمال مي گردد -3تشخيص محدوده جمالت و نشانه گذاري Copernic Summarizer – Step by Step -4استخراج مفهومك مجموعه مفاهيم موجود در متن بوسيله خالصه ساز هوشمند استخراج مي گردد. اين مرحله توسط برنامه كاربردي انجمن تحقيقات ملي كانادا تهيه شده است .در اين مرحله در كمتر از يك ثانيه ،كلمات كليدي مهم استخراج مي گردد. -5تقسيم بندي سند :مفاهيم كليدي فقط يكبار مشخص شده و تكنولوژي خالصه سازي شركت ،تركيب ”تصاوير “ بر روي تمام سند را فرموله كرده و سپس به اجزاي متني تبديل مي كند Copernic Summarizer – Step by Step -6انتخاب جمله هر جمله در متن ،وزني دارد .هر جمله كه ارزش كمتري دارد حذف مي گرند. -7بازنمايي سند داخلي WIZDOC Company WizSof Software Name WizDoc Version 1.7 Product Year 2007 Languages English, Platform Windows can save the user a significant amount of manual search time because it retrieves the relevant records or documents immediately. WIZDOC - Inputs مي توان اين نرم افزار همانند يك موتور جستجو براي بازيابي ركوردها .در يك بانك اطالعاتي و اسناد مرتبط با آن در نظر گرفت مي تواند ركوردها را از بانكهاي اطالعاتي زير استخراجWizDoc :نمايد MsAccess Ms SQL Server :و فايلهاي مرتبط با آنها داراي فرمتهاي Microsoft Word - Text files -Web pages (HTML) Microsoft RTF documents -Microsoft - documents -Microsoft PowerPoint files - Excel worksheets -WordPerfect documents - Acrobat PDF documents Non-computer documents - Email messages (business cards, brochures, etc.) .مي تواند در داخل ساير برنامه هاي كاربرده نيز قرا گيرد WIZDOC - Structure WizDoc ركوردها را به يكي از دو روش زير جستجو مي نمايد: الف -جستجوي مبتني بر مفهوم :معني متن يا ركورد ،در خواست مخاطب را درك كرده و اسنادي كه به موضوع درخواستي ارتباط معنايي دارند را بر مي گرداند. ب -جستجوي رشته اي ( :)String Searchهمانند موتور جستجو ،كاربر درخواست جستجوي خود را اعالم نموده و سيستم دقيقا همان رشته ها را جستجو نموده و اسنادي را كه حاوي آن رشته هستند را بر مي گرداند. WIZDOC - Phases همانند موتورهاي جستجو در 2فاز عمل مي نمايد: الف :Indexing Phase -متون موجود در اسناد ايندكس مي شود. ب :Search Phase -كاربر درخواست جستجو را وارد نموده و سيستم ركوردهاي مربوط به آنرا استخراج مي نمايد. WIZDOC- Indexing Phase كاربر مي تواند فايلها و جدوالي را كه تمايل دارد كه ايندكس شود را مشخص مي نمايد. الف -فايلهاي متني را به بخشهايي مي شكند .بر اساس عناوين و ساير مشخصات داخل متن. ب -معني كلمات در هر بخش متني مشخص مي گردد .اگر يك كلمه داراي ابهام باشد سيستم از راهنماهاي دستوري و معنايي استفاده مي نمايد. ج -الگوريتمهايي براي تعيين كلمات كليدي در متن را بكار مي برد. در پايان ،آرشيوي ساخته شده و متن آماده جستجو مي گردد. WIZDOC -Search Phase كاربر در اين مرحله ،درخواست جستجو مي دهد. الف -معني هر رشته درخواست شده مشخص مي گردد (بوسيله بكار بردن همان روشهاي ايندكس كردن). ب -الگوهايي كه در مرحله ايندكس كردن بدست آمده بود را براي محاسبه درجه ارتباط متن يا ركورد با درخواست ارسال شده بكار رفته و سپس آنها را بر اساس ميزان ارتباط مرتب مي WIZDOC- Soundex نامها ممكن است به اشكال مختلفي در متن درج گردند. مثالGorbachov or Gorbachev : WizDoc با اضافه نمودن الگوريتم Soundexاين مشكل را حل نموده است. اگر اسمي در متن بكار رفته باشد ،سيستم ،اسامي مشابه آنرا كه در متن بكار رفته است را ليست نموده و كاربر مي تواند آنرا انتخاب نمايد. Insight Discover Categorizer Company Software Name Version Product Year Temis Languages English, French, German, Italian, Dutch, Spanish, Portuguese, Czech, Greek, WizDoc Insight Discover Categorizer Hungarian, Polish, Russian. Platform Windows - Linux. Insight Discoverer™ Categorizer is a document categorization server. It automatically classifies unstructured documents into pre-defined categories, combining statistical and linguistic analysis rules. Insight Discover Categorizer فرمت فايلهاي ورودي: بيشتر از 50فرمت ورودي شامل: MS Word, PDF and HTM خروجي با فرمت XMLتهيه مي گردد. Insight Discover Categorizer سه كاربرد عمده دارد: -1دسته بندي :اسناد را به يك يا جند موضوع نسبت مي دهد. -2ايندكس كردن :عناوين را در متن بر اساس شباهت آن با مستنداتي كه تاكنون ايندكس شده اند را مشخص ميكند. :Routing -3توزبع اسناد به افراد يا سازمانهاي خاص بر اساس عاليق آنها Insight Discover CategorizerStructure -1فاز ياد گيري :اسناد بر اساس شماي دسته بندي شركت ،دسته بندي شده و مدلهاي دسته بندي ساخته مي شود. -2فاز دسته بندي .همه اسناد جديد را به دسته هاي از قبل تعريف شده اختصاص مي دهد .هر سندي كه دسته بندي مي گردد ،بوسيله سيستم ،تحليل گرديده و يك يا چند گروه انتخاب مي گردد. -3ارزيابي دسته بندي Insight Discover clusterer Company Software Name Version Product Year Languages Temis WizDoc Insight Discover Clusterer English, French, German, Italian, Dutch, Spanish, Portuguese, Czech, Greek, Hungarian, Polish, Russian. Platform Windows - Linux. It proposes the most relevant classification for a given document collection. Users can then browse through their documents organized according to theme and sub-theme. They have both an overview of the information and different avenues to explore. It is therefore easier to find and appropriate relevant information. Insight Discover Clusterer به صورت پويا ،اسناد را بر اساس شباهت معنايي گروه بندي مي كند، هدف :دسته بندي مرتبط براي مجموعه اي از اسناد داده شده مي باشد. كاربرد كليدي :ابزاري با كارايي باال براي سازماندهي اطالعات مرتبط با رقبا و فروشگاهها را دراختيار مي گذارد .اين سيستم، به صورت پويا ،مجموعه اسنادي كه توسط موتورهاي جستجو، يافت شده است را دسته بندي مي كند .كاربران مي توانند با مراجعه به دسته هاي ايجاد شده ،رفتار رقبا را مشاهده نمايند. ?Why Insight Discover Clusterer -1ديدن سريع اطالعات. -2سهولت حجم زياد اسناد براي جستجوها -3سهولت نمايش اطالعات -4بهبود توليد از طريق گروه بندي اطالعات مشابه -5سهولت دسترسي به اطالعات مناسب Insight Discover Clusterer-Structure از فرايندهاي خوشه بندي ابتكاري مبتني بر تركيب تحليلهاي آماري و گفتاري استفاده مي نمايد. از تحليل Morpho-syntacticكه توسط شركت ارايه شده استفاده مي نمايد كاربران مي توانند عمق خوشه بندي و تعداد هر دسته در سطح را مشخص نمايند. مراحل: 1- Viewing 2- Analysis 3-Customization TextAnalyst Company Software Name Version Product Year Languages Platform Megaputer intelligence Inc. Text Analyst 2.1 2002 English, Windows Are You Drowing in the ocean of TEXT? TextAnalyst – input , Output اسناد متني بدن ساختار را دريافت مي نمايد چكيده مفهومي متن را مي دهد. خالصه متن را مي دهد. جستجوي متنها بر اساس موضوع ساختار شماتيك متن را كشف مي نمايد. متون را خوشه بندي مي نمايد امكان بازيابي اطالعات معنايي را مي دهد. TextAnalyst تحليلهايي مبتني بر ساخت خودكار شبكه معنايي مي باشد. مزيت كليدي :نيازي به ارايه دانش زمينه وجود نداشته و سيستم به صورت خودكار دانش مورد نياز را درك مي نمايد. TextAnalyst : مراحل 1- textBase Navigation 2- Topic Struction 3- Clustring 4- Summarization 5- Natural Language Retrival ابزارهاي متن باز Dragon Toolkit سيستمي Java-basedبراي استفاده دانشگاهي در مباحث متن كاوي و بازيابي اطالعات است. متن كاوي شامل موارد: دسته بندي ،خوشه بندي ،خالصه سازي ،مدل كردن عناوين داراي مجموعه از ابزارهاي پردازش زبان طبيعي براي ايندكس نمودن مجموعه هاي متني است. قابليت بكارگيري براي كاربردهاي خيلي بزرگ را نيز دارد .زيرا از ماتريس خلوت استفاده مي نمايد. Dragon Toolkit - Architecture Dragon Toolkit - Architecture -1براي شروع مي بايست مجموعه اي از اسناد قابل خوندن براي كامپيوتر فراهم گردد. -2فرايند پردازش زبان طبيعي براي هر بخش از مجموعه ي ارايه شده اعمال مي گردد .شامل تكنيكهاي زير: توكن بندي -برچسسب زني بخشهاي كالمي -ريشه استخراج استخراج عباراتيابي مفاهيم Dragon Toolkit - Architecture -3هر يك از كلمات ،عبارات و مفاهيم استخراج شده در يك ماتريس خلوت براي استفاده هاي بعدي ذخيره مي گردد. -4عملياتهاي متن كاوي شامل :بازيابي ،دسته بندي ،خوشه بندي ،خالصه سازي بر روي داده ها ايندكس شده اعمال مي گردد. -5نتايج بازبي و كاوش متن ارزيابي مي گردند. Dragon Toolkit اين ابزار براي شروع ،به گره اي اوليه دارد كه Config fileخوانده مي شود: An IE Toolkit: GATE University of Sheffield since 1995 – – – – – – – More than 10 years old Free open source software Implemented in Java language analysis contexts including Information Extraction in English, Greek, Spanish, Swedish, German, Italian and French Easily pluggable and used in a lot other projects Provide interface as a standalone applications Pretty slow and memory consuming Information Extraction on GATE . نام داردANNIE ابزار اشتخراج اطالعات ANNIE = Nearly-New Information Extraction System :شامل بخشهاي ذيل مي باشد Tokeniser Gazetteer Sentence Splitter Part of Speech Tagger Semantic Tagger Orthographic Coreference (OrthoMatcher) Pronominal Coreference مراجع http://www.gate.ac.uk/sale/tao/i ndex.html