Transcript Document
WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW Piotr Gawrysiak [email protected] Politechnika Warszawska Zakład Systemów Informacyjnych 2005 WUT TWG 2005 Sprawy organizacyjne Zaliczenie: Egzamin – 60% oceny końcowej Projekt – 40% oceny końcowej Zaliczenie projektu jest warunkiem koniecznym zaliczenia przedmiotu, ocena 5.0 z projektu zwalnia z egzaminu Dyżur: środa, 15:15 – 16:00, 302 lub 043D lub nowe pomieszczenia laboratorium BRAMA Materiały do wykładu (slajdy, ew. artykuły naukowe + software): http://bolek.ii.pw.edu.pl/~gawrysia/WEDT Kontakt mailowy: [email protected] W treści nagłówka proszę wpisać [WEDT] WUT TWG 2005 Literatura i oprogramowanie 1. Chris Manning, Hinrich Schütze, „Foundations of Statistical Natural Language Processing”, MIT Press, 1999 Errata: http://nlp.stanford.edu/fsnlp/errata.html 2. Dan Jurafsky, James H. Martin „Speech and Language Processing”, Prentice-Hall, 2000 Errata: http://www.cs.colorado.edu/~martin/SLP/slp-errata.html 3. Mieczysław Kłopotek, „Inteligentne wyszukiwarki internetowe”, Exit, 2001 4. Douglas R. Hofstadter, „Gödel, Escher, Bach: an Eternal Golden Braid”, Basic Books, 1999 5. Python NLTK (Natural Language Toolkit) http://nltk.sourceforge.net 6. Open NLP http://opennlp.sourceforge.net/ 7. Oprogramowanie udostępnione PW (IBM, SAS, Reuters Corpus itp.) WUT TWG 2005 Plan wykładu WWW Zastosowania Teoria 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Wprowadzenie /co to jest NLP i dlaczego jest ważne/ Wiadomości podstawowe /statystyka, teoria informacji, lingwistyka/ Źródła danych /text corpora/ Słowa i zdania /regular expressions, tokenization/ Fleksja /stemming/ Analiza statystyczna /modele dokumentów, modele języka, collocations, word sense disambiguation/ Analiza gramatyczna /HMM, POS tagging, PCFG, parsing/ Wyszukiwanie informacji Kategoryzacja i grupowanie dokumentów Streszczanie dokumentów Tłumaczenie automatyczne Analiza dokumentów hipertekstowych Web Farming, SEO (Search Engine Optimization) WUT TWG 2005 WUT TWG Eksplozja informacyjna 2005 100000 10000 Number of books published weekly 1000 100 10 Number of articles published monthly 1 1970 1980 1990 2000 • Zwiększające się znaczenie Internetu jako kanału dystrybucji informacji • Minimalne koszty powielania informacji w formie elektronicznej • Większość ludzkiej wiedzy zapisana jest w postaci dokumentów w języku naturalnym Święty Graal informatyki • Sztuczna Inteligencja (AI) • Możliwość porozumiewania się z maszyną w języku naturalnym • Test Turinga /... ale Chiński Pokój itd./ • To jest zwyczajnie użyteczne! • • • • • Wyszukiwarki internetowe Automatyczne tłumaczenie Speech command /Star Trek LCARS/ Tworzenie dokumentów ... • Choć w zasadzie oznaczałoby koniec profesji programisty • Potrafimy liczyć znacznie szybciej niż na początku XX wieku, ale czy potrafimy szybciej czytać? Zakład pomiędzy Mitchem Kaporem i Ray Kurzweilem o $10,000 – test Turinga w 2029 WUT TWG DMG NOV 2005 2001 NLP, NLU, NLG, ... NLP – Natural Language Processing • • Właściwie wszystko, co jest związane z przetwarzaniem informacji zapisanej w języku naturalnym Inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE) NLU – Natural Language Understanding • • • • Dosłownie „rozumienie języka naturalnego” Co to jednak znaczy „rozumienie”? Semantyka i logika Rozumienie nie zawsze okazuje się niezbędne (Chiński Pokój - znowu) NLG – Natural Language Generation • To akurat jest proste (o ile nie mamy wygórowanych wymagań) Przykład: korpus – dzieła wszystkie Szekspira Trigram : What it’s that cried? The sweet! How many then shall posthumus end his miseries! Tetragram : Enter Leonato’s brother Antonio, and the rest, but seek the weary beds of people sick. WUT TWG 2005 WUT TWG Niestety NLU jest trudne Nawet w tak prostym języku jak angielski: • • • • • • • • • Iraqi Head Seeks Arms Teacher Strikes Idle Kids Stolen Painting Found by Tree Kids Make Nutritious Snacks Obesity Study Looks for Larger Test Group Red Tape Holds Up New Bridges Man Struck by Lightning Faces Battery Charge Clinton Wins on Budget, but More Lies Ahead Hospitals Are Sued by 7 Foot Doctors A może być jeszcze gorzej: Brak reguł gramatycznych (wyjątki i wyjątki od wyjątków) • Potato – potato es, tomato – tomato es, hero – hero es, photo es??? • new book, flower garden, garden flower Homonimy, synonimy To book a flight, to borrow a book Struktura wypowiedzi Fred’s hat was blown by the wind. He tried to catch it. 2005 W języku polskim: • fleksja • dowolny szyk zdania • a pozostałe problemy nie znikają: „jest szybka w łóżku” Niestety NLU jest trudne John stopped at the donut store on his way home from work. He thought a coffee was good every few hours. But it turned out to be too expensive there. store where donuts shop? or is run by donuts? Przykład – J. Eisner or looks like a big donut? or made of donut? or has an emptiness at its core? I stopped smoking freshman year, but John stopped at the donut store Describes where the store is? Or when he stopped? he stopped there from hunger and exhaustion, not just from work. At that moment, or habitually? /Similarly: Mozart composed music./ That’s how often he thought it? But actually, a coffee only stays good for about 10 minutes before it gets cold. Similarly: In America a woman has a baby every 15 minutes. Our job is to find that woman and stop her. the particular coffee that was good every few hours? the donut store? the situation? ...a to zaledwie trzy zdania. WUT TWG 2005 Jak zatem radzą sobie ludzie? FINISHED FILES ARE RESULT OF YEARS OF SCIENTIFIC STUDY COMBINED WITH THE EXPERIENCE OF YEARS WUT TWG 2005 Jak zatem radzą sobie ludzie? THE SILLIEST MISTAKE IN IN THE WORLD WUT TWG 2005 Cechy języka naturalnego Język naturalny • Nieprecyzyjny (na wszystkich poziomach) • • • • Fonetyka, morfologia: dźwięki i słowa Składnia: zdania i ich struktura Semantyka: znaczenie treści wypowiedzi Pragmatyka: znaczenie samej wypowiedzi „w świecie” • • Skomplikowany (nawet jeśli uznać reguły gramatyczne) Wymaga posiadania wiedzy o świecie • Narzędzia • • • Wiedza o języku Wiedza o świecie Sposób na ich połączenie Ale czasami NLU jest łatwe – czasem (rzadko...) same informacje ilościowe o tekście wystarczają Ostatnio modny trend - modele probabilistyczne • • P(“maison” “house”) wysoko prawdopodobne P(“L’avocat general” “the general avocado”) nisko WUT TWG 2005 Cechy języka naturalnego Sama znajomość gramatyki nie jest wystarczająca: Every man saw the boy with his binoculars Rozbiór zdania: WUT TWG 2005 Dwa podejścia w NLP „Gramatyczne” • • • • Język naturalny można opisać wykorzystując aparat logiki matematycznej Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask Noam Chomsky – I-Language i E-language Argument „poverty of stimulus” „Statystyczne” • • • • • Przekonanie, iż struktura i reguły użycia słów w języku naturalnym można odkryć, analizując rzeczywiste wypowiedzi Najlepiej analizować dużo wypowiedzi... Bardzo dużo wypowiedzi... Statystyka Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra Shannona/ WUT TWG 2005 Przykład metody statystycznej Word sense disambiguation (WSD): They put the money in the bank River bank? Savings bank? Potrzebny jest korpus poprawnych tekstów w języku angielskim. Na jego podstawie należy obliczyć prawdopodobieństwa: P1 – współwystępowanie <money, savings> P2 – współwystępowanie <money, river> P1 > P2 WUT TWG 2005 Nieco historii 1900 – początki • • eksperymenty w logice matematycznej, automatyczne dowodzenie twierdzeń (to jeszcze plan Hilberta), formalna teoria języka – Tarski, Russel, Wittgenstein łańcuchy Markowa, rozwój statystyki 1940-1950 – lingwistyka „empiryczna” (Harris, Firth) • • „You shall know a word by a company it keeps” – Firth Model kanału transmisyjnego (Shannon) 1950-1980 – statystyka uznana za „niesłuszną” • • • Chomsky, pojęcie „gramatyczności” „Every day I fire a linguist my efficiency goes up” Gramatyka symboliczna (Prolog) od 1980 – powrót do metod statystycznych • • Rozwój metod eksploracji danych opartych na statystyce Wpływ badań nad rozpoznawaniem mowy (IBM) A co z Text Mining? WUT TWG 2005 Data Mining Data Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from large databases. – Piatetsky-Shapiro • • • • • • Association rule discovery Sequential pattern discovery Categorization Clustering Statistics (mostly regression) Visualization WUT TWG 2005 WUT TWG Piramida wiedzy 2005 Data Mining Poziom semantyczny Wisdom Knowledge Information Data Signals Zasoby WUT WUT DMG TWG Text Mining 2005 NOV 2001 Text Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from textual document repositories. Text Mining = Metody Data Mining + Klasyczne NLP Tu i tak będzie wiele koncepcji statystycznego NLP Obecna sytuacja (metody) WUT WUT DMG TWG Zarówno statystyka jak i podejście „gramatyczne” • „czyste” modele oparte na regułach można wzbogacić o elementy probabilistyczne (np. PCFG) • metody statystyczne można wzbogacić poprzez wykorzystanie znanych reguł i źródeł „twardej” wiedzy (np. word sense disambiguation + słowniki + ontologie) Dodatkowo znaczenie zyskują źródła informacji nietekstowej, związane m.in. z WWW: • Analiza grafów hiperpołączeń • Analiza formatowania tekstu • Analiza ruchu w sieci Internet • ... 2005 NOV 2001