Transcript Text mining

Text mining – definice
inteligentní analýza textu
 textový data mining
 proces extrakce skrytých informací
z nestrukturovaného textu
 používá kombinaci strojového učení,
statistické analýzy..

Je to k něčemu?
asi jo, jelikož 80% informací je
textových
 ECHELON = sledování
komunikačních kanálů (automatická
analýza velkého množství dat..)

Rozdíl od hledání na webu
Na webu většinou hledáme napsané
a známé věci
X
 V text miningu hledáme neznámou
informaci

Similarita s data miningem
Problém umístění másla
 v text miningu – vzory jsou
extrahovány z normálního jazyka,
ne ze strukturovaných databází
 Pro text mining jsou nejvhodnější
NESTRUKTUROVANÉ dokumenty

Computational linguistic
= LANGUAGE PROCESSING
 Extrahování frází -> sumarizace
(nejčastější slova bez balastních
členů)
 !Není text mining!
Konkrétní příklad 1
Jména lidí a společností zab. se
bezdrátovou technologií
 Pokus odvodit vztahy mezi firmami,
kdo je hlavní atp..
 Problém zhodnocení vztahů – je jich
hodně ..

Příklad 2 - interakce genů
Články zabývajícícmi se geny
 Nehledáme přímé páry
 názvy genů + ostatní slova
 V dalších článcích hledáme právě
ostatní slova
 Překvapivě dobré výsledky

Shrnutí
Text Mining = objevení dosud
nepublikované informace z velkého
množství textu
  hledání na webu
 Existuje něco jako Computational
Linguistics
 Text mining neřeší celý problém, ale
může pomoci se dobrat výsledku

Literatura a zdroje 1
http://www.klariti.com/textmining/index.shtml
 http://www.mundi.net/tripm/hearst/
 http://www2.sims.berkeley.edu/cour
ses/is296a-4/f99/Lectures/acl99.ppt

Literatura a zdroje 2
http://www.dmreview.com/whitepap
er/paper_sub.cfm?whitepaperId=10
080
 http://www.sims.berkeley.edu/~hea
rst/text-mining.html
 http://www.cs.waikato.ac.nz/~nzdl/t
extmining/

KONEC
Autor: Karel Malý
kaja.maly zavinac seznam.cz