Transcript Text mining
Text mining – definice inteligentní analýza textu textový data mining proces extrakce skrytých informací z nestrukturovaného textu používá kombinaci strojového učení, statistické analýzy.. Je to k něčemu? asi jo, jelikož 80% informací je textových ECHELON = sledování komunikačních kanálů (automatická analýza velkého množství dat..) Rozdíl od hledání na webu Na webu většinou hledáme napsané a známé věci X V text miningu hledáme neznámou informaci Similarita s data miningem Problém umístění másla v text miningu – vzory jsou extrahovány z normálního jazyka, ne ze strukturovaných databází Pro text mining jsou nejvhodnější NESTRUKTUROVANÉ dokumenty Computational linguistic = LANGUAGE PROCESSING Extrahování frází -> sumarizace (nejčastější slova bez balastních členů) !Není text mining! Konkrétní příklad 1 Jména lidí a společností zab. se bezdrátovou technologií Pokus odvodit vztahy mezi firmami, kdo je hlavní atp.. Problém zhodnocení vztahů – je jich hodně .. Příklad 2 - interakce genů Články zabývajícícmi se geny Nehledáme přímé páry názvy genů + ostatní slova V dalších článcích hledáme právě ostatní slova Překvapivě dobré výsledky Shrnutí Text Mining = objevení dosud nepublikované informace z velkého množství textu hledání na webu Existuje něco jako Computational Linguistics Text mining neřeší celý problém, ale může pomoci se dobrat výsledku Literatura a zdroje 1 http://www.klariti.com/textmining/index.shtml http://www.mundi.net/tripm/hearst/ http://www2.sims.berkeley.edu/cour ses/is296a-4/f99/Lectures/acl99.ppt Literatura a zdroje 2 http://www.dmreview.com/whitepap er/paper_sub.cfm?whitepaperId=10 080 http://www.sims.berkeley.edu/~hea rst/text-mining.html http://www.cs.waikato.ac.nz/~nzdl/t extmining/ KONEC Autor: Karel Malý kaja.maly zavinac seznam.cz