Transcript Document

WEDT
Wprowadzenie do eksploracji
danych tekstowych
w środowisku WWW
Piotr Gawrysiak
[email protected]
Politechnika Warszawska
Zakład Systemów Informacyjnych
2005
WUT
TWG
2005
Sprawy organizacyjne
Zaliczenie:
Egzamin – 60% oceny końcowej
Projekt – 40% oceny końcowej
Zaliczenie projektu jest warunkiem koniecznym zaliczenia
przedmiotu, ocena 5.0 z projektu zwalnia z egzaminu
Dyżur: środa, 15:15 – 16:00, 302 lub 043D lub nowe
pomieszczenia laboratorium BRAMA
Materiały do wykładu (slajdy, ew. artykuły naukowe + software):
http://bolek.ii.pw.edu.pl/~gawrysia/WEDT
Kontakt mailowy: [email protected]
W treści nagłówka proszę wpisać [WEDT]
WUT
TWG
2005
Literatura i oprogramowanie
1.
Chris Manning, Hinrich Schütze, „Foundations of Statistical Natural
Language Processing”, MIT Press, 1999
Errata: http://nlp.stanford.edu/fsnlp/errata.html
2.
Dan Jurafsky, James H. Martin „Speech and Language Processing”,
Prentice-Hall, 2000
Errata: http://www.cs.colorado.edu/~martin/SLP/slp-errata.html
3.
Mieczysław Kłopotek, „Inteligentne wyszukiwarki internetowe”, Exit,
2001
4.
Douglas R. Hofstadter, „Gödel, Escher, Bach: an Eternal Golden
Braid”, Basic Books, 1999
5.
Python NLTK (Natural Language Toolkit)
http://nltk.sourceforge.net
6.
Open NLP
http://opennlp.sourceforge.net/
7.
Oprogramowanie udostępnione PW (IBM, SAS, Reuters Corpus itp.)
WUT
TWG
2005
Plan wykładu
WWW
Zastosowania
Teoria
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Wprowadzenie /co to jest NLP i dlaczego jest ważne/
Wiadomości podstawowe /statystyka, teoria informacji,
lingwistyka/
Źródła danych /text corpora/
Słowa i zdania /regular expressions, tokenization/
Fleksja /stemming/
Analiza statystyczna /modele dokumentów, modele języka,
collocations, word sense disambiguation/
Analiza gramatyczna /HMM, POS tagging, PCFG, parsing/
Wyszukiwanie informacji
Kategoryzacja i grupowanie dokumentów
Streszczanie dokumentów
Tłumaczenie automatyczne
Analiza dokumentów hipertekstowych
Web Farming, SEO (Search Engine Optimization)
WUT
TWG
2005
WUT
TWG
Eksplozja informacyjna
2005
100000
10000
Number of books
published weekly
1000
100
10
Number of articles
published monthly
1
1970
1980
1990
2000
• Zwiększające się znaczenie Internetu jako kanału dystrybucji informacji
• Minimalne koszty powielania informacji w formie elektronicznej
• Większość ludzkiej wiedzy zapisana jest w postaci dokumentów w języku
naturalnym
Święty Graal informatyki
• Sztuczna Inteligencja (AI)
• Możliwość porozumiewania się z maszyną w języku naturalnym
• Test Turinga /... ale Chiński Pokój itd./
• To jest zwyczajnie użyteczne!
•
•
•
•
•
Wyszukiwarki internetowe
Automatyczne tłumaczenie
Speech command /Star Trek LCARS/
Tworzenie dokumentów
...
• Choć w zasadzie oznaczałoby koniec profesji programisty 
• Potrafimy liczyć znacznie szybciej niż na początku XX wieku, ale
czy potrafimy szybciej czytać?
Zakład pomiędzy Mitchem Kaporem i Ray Kurzweilem o $10,000 – test Turinga w
2029
WUT
TWG
DMG
NOV
2005
2001
NLP, NLU, NLG, ...
NLP – Natural Language Processing
•
•
Właściwie wszystko, co jest związane z przetwarzaniem informacji
zapisanej w języku naturalnym
Inne nazwy: Computational Linguistics (CL), Human Language Technology
(HLT), Natural Language Engineering (NLE)
NLU – Natural Language Understanding
•
•
•
•
Dosłownie „rozumienie języka naturalnego”
Co to jednak znaczy „rozumienie”?
Semantyka i logika
Rozumienie nie zawsze okazuje się niezbędne (Chiński Pokój - znowu)
NLG – Natural Language Generation
•
To akurat jest proste (o ile nie mamy wygórowanych wymagań)
Przykład: korpus – dzieła wszystkie Szekspira
Trigram : What it’s that cried? The sweet! How many then shall posthumus end his miseries!
Tetragram : Enter Leonato’s brother Antonio, and the rest, but seek the weary beds of people sick.
WUT
TWG
2005
WUT
TWG
Niestety NLU jest trudne
Nawet w tak prostym języku jak angielski:
•
•
•
•
•
•
•
•
•
Iraqi Head Seeks Arms
Teacher Strikes Idle Kids
Stolen Painting Found by Tree
Kids Make Nutritious Snacks
Obesity Study Looks for Larger Test Group
Red Tape Holds Up New Bridges
Man Struck by Lightning Faces Battery Charge
Clinton Wins on Budget, but More Lies Ahead
Hospitals Are Sued by 7 Foot Doctors
A może być jeszcze gorzej:
Brak reguł gramatycznych (wyjątki i wyjątki od wyjątków)
• Potato – potato es, tomato – tomato es, hero – hero es, photo es???
• new book, flower garden, garden flower
Homonimy, synonimy
To book a flight, to borrow a book
Struktura wypowiedzi
Fred’s hat was blown by the wind. He tried to catch it.
2005
W języku polskim:
• fleksja
• dowolny szyk zdania
• a pozostałe problemy nie znikają:
„jest szybka w łóżku”
Niestety NLU jest trudne
John stopped at the donut store on his way home from work.
He thought a coffee was good every few hours.
But it turned out to be too
expensive there.
store where donuts shop? or is run by donuts?
Przykład – J. Eisner
or looks like a big donut? or made of donut?
or has an emptiness at its core?
I stopped smoking freshman year, but
John stopped at the donut store
Describes where the store is? Or when he stopped?
he stopped there from hunger and exhaustion, not just from work.
At that moment, or habitually? /Similarly: Mozart composed music./
That’s how often he thought it?
But actually, a coffee only stays good for about 10 minutes before it
gets cold.
Similarly: In America a woman has a baby every 15 minutes.
Our job is to find that woman and stop her.
the particular coffee that was good every few hours? the donut
store? the situation?
...a to zaledwie trzy zdania.
WUT
TWG
2005
Jak zatem radzą sobie ludzie?
FINISHED FILES ARE
RESULT OF YEARS
OF SCIENTIFIC STUDY
COMBINED WITH THE
EXPERIENCE OF YEARS
WUT
TWG
2005
Jak zatem radzą sobie ludzie?
THE
SILLIEST
MISTAKE IN
IN THE WORLD
WUT
TWG
2005
Cechy języka naturalnego
Język naturalny
•
Nieprecyzyjny (na wszystkich poziomach)
•
•
•
•
Fonetyka, morfologia: dźwięki i słowa
Składnia: zdania i ich struktura
Semantyka: znaczenie treści wypowiedzi
Pragmatyka: znaczenie samej wypowiedzi „w świecie”
•
•
Skomplikowany (nawet jeśli uznać reguły gramatyczne)
Wymaga posiadania wiedzy o świecie
•
Narzędzia
•
•
•
Wiedza o języku
Wiedza o świecie
Sposób na ich połączenie
Ale czasami NLU jest łatwe – czasem (rzadko...) same informacje ilościowe o
tekście wystarczają
Ostatnio modny trend - modele probabilistyczne
•
•
P(“maison”  “house”) wysoko prawdopodobne
P(“L’avocat general”  “the general avocado”) nisko
WUT
TWG
2005
Cechy języka naturalnego
Sama znajomość gramatyki nie jest wystarczająca:
Every man saw the boy with his binoculars
Rozbiór zdania:
WUT
TWG
2005
Dwa podejścia w NLP
„Gramatyczne”
•
•
•
•
Język naturalny można opisać wykorzystując aparat logiki
matematycznej
Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask
Noam Chomsky – I-Language i E-language
Argument „poverty of stimulus”
„Statystyczne”
•
•
•
•
•
Przekonanie, iż struktura i reguły użycia słów w języku
naturalnym można odkryć, analizując rzeczywiste wypowiedzi
Najlepiej analizować dużo wypowiedzi...
Bardzo dużo wypowiedzi...
Statystyka
Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra
Shannona/
WUT
TWG
2005
Przykład metody statystycznej
Word sense disambiguation (WSD):
They put the money in the bank
River bank?
Savings bank?
Potrzebny jest korpus poprawnych tekstów w języku
angielskim. Na jego podstawie należy obliczyć
prawdopodobieństwa:
P1 – współwystępowanie <money, savings>
P2 – współwystępowanie <money, river>
P1 > P2
WUT
TWG
2005
Nieco historii
1900 – początki
•
•
eksperymenty w logice matematycznej, automatyczne
dowodzenie twierdzeń (to jeszcze plan Hilberta), formalna
teoria języka – Tarski, Russel, Wittgenstein
łańcuchy Markowa, rozwój statystyki
1940-1950 – lingwistyka „empiryczna” (Harris, Firth)
•
•
„You shall know a word by a company it keeps” – Firth
Model kanału transmisyjnego (Shannon)
1950-1980 – statystyka uznana za „niesłuszną”
•
•
•
Chomsky, pojęcie „gramatyczności”
„Every day I fire a linguist my efficiency goes up”
Gramatyka symboliczna (Prolog)
od 1980 – powrót do metod statystycznych
•
•
Rozwój metod eksploracji danych opartych na statystyce
Wpływ badań nad rozpoznawaniem mowy (IBM)
A co z Text Mining?
WUT
TWG
2005
Data Mining
Data Mining is understood as a process of automatically
extracting meaningful, useful, previously unknown and
ultimately comprehensible information from large
databases. – Piatetsky-Shapiro
•
•
•
•
•
•
Association rule discovery
Sequential pattern discovery
Categorization
Clustering
Statistics (mostly regression)
Visualization
WUT
TWG
2005
WUT
TWG
Piramida wiedzy
2005
Data Mining
Poziom semantyczny
Wisdom
Knowledge
Information
Data
Signals
Zasoby
WUT
WUT
DMG
TWG
Text Mining
2005
NOV
2001
Text Mining is understood as a process of automatically
extracting meaningful, useful, previously unknown and
ultimately comprehensible information from textual
document repositories.
Text Mining
=
Metody Data Mining
+
Klasyczne NLP
Tu i tak będzie wiele koncepcji statystycznego NLP
Obecna sytuacja (metody)
WUT
WUT
DMG
TWG
Zarówno statystyka jak i podejście „gramatyczne”
• „czyste” modele oparte na regułach można wzbogacić o elementy
probabilistyczne (np. PCFG)
• metody statystyczne można wzbogacić poprzez wykorzystanie
znanych reguł i źródeł „twardej” wiedzy (np. word sense
disambiguation + słowniki + ontologie)
Dodatkowo znaczenie zyskują źródła informacji nietekstowej,
związane m.in. z WWW:
• Analiza grafów hiperpołączeń
• Analiza formatowania tekstu
• Analiza ruchu w sieci Internet
• ...
2005
NOV
2001