Transcript Text mining
Text mining – definice
inteligentní analýza textu
textový data mining
proces extrakce skrytých informací
z nestrukturovaného textu
používá kombinaci strojového učení,
statistické analýzy..
Je to k něčemu?
asi jo, jelikož 80% informací je
textových
ECHELON = sledování
komunikačních kanálů (automatická
analýza velkého množství dat..)
Rozdíl od hledání na webu
Na webu většinou hledáme napsané
a známé věci
X
V text miningu hledáme neznámou
informaci
Similarita s data miningem
Problém umístění másla
v text miningu – vzory jsou
extrahovány z normálního jazyka,
ne ze strukturovaných databází
Pro text mining jsou nejvhodnější
NESTRUKTUROVANÉ dokumenty
Computational linguistic
= LANGUAGE PROCESSING
Extrahování frází -> sumarizace
(nejčastější slova bez balastních
členů)
!Není text mining!
Konkrétní příklad 1
Jména lidí a společností zab. se
bezdrátovou technologií
Pokus odvodit vztahy mezi firmami,
kdo je hlavní atp..
Problém zhodnocení vztahů – je jich
hodně ..
Příklad 2 - interakce genů
Články zabývajícícmi se geny
Nehledáme přímé páry
názvy genů + ostatní slova
V dalších článcích hledáme právě
ostatní slova
Překvapivě dobré výsledky
Shrnutí
Text Mining = objevení dosud
nepublikované informace z velkého
množství textu
hledání na webu
Existuje něco jako Computational
Linguistics
Text mining neřeší celý problém, ale
může pomoci se dobrat výsledku
Literatura a zdroje 1
http://www.klariti.com/textmining/index.shtml
http://www.mundi.net/tripm/hearst/
http://www2.sims.berkeley.edu/cour
ses/is296a-4/f99/Lectures/acl99.ppt
Literatura a zdroje 2
http://www.dmreview.com/whitepap
er/paper_sub.cfm?whitepaperId=10
080
http://www.sims.berkeley.edu/~hea
rst/text-mining.html
http://www.cs.waikato.ac.nz/~nzdl/t
extmining/
KONEC
Autor: Karel Malý
kaja.maly zavinac seznam.cz