Czym zajmuje się inżynieria lingwistyczna

Download Report

Transcript Czym zajmuje się inżynieria lingwistyczna

Inżynieria lingwistyczna
Agnieszka Mykowiecka
Instytut Podstaw Informatyki, PAN
[email protected]
materiały z wykładów na stronie:
http:\\www.ipipan.waw.pl\~agn\inl.htm
październik, 2005
1
Tematyka wykładów






czego dotyczą terminy: inżynieria lingwistyczna, lingwistyka
komputerowa przetwarzanie języka naturalnego,
dziedziny NLP: fonetyka/ortografia, fonologia, morfologia,
składnia, semantyka, pragmatyka,
rodzaje danych lingwistycznych i możliwość ich wykorzystania
(słowniki, korpusy),
tradycyjne (formalne i proceduralne) podejście do analizy i syntezy
języka,
statystyczne metody przetwarzania języka,
zastosowania: wyszukiwanie informacji tekstowych, organizacja
danych tekstowych, automatyczne streszczanie tekstów, systemy
pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.
październik, 2005
2
Literatura
Jurafsky Daniel, Martin James H. Speech and Language
Processing. An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition. Upper
Saddle River 2000 Prentice Hall.
http://www.cs.colorado.edu/~martin/slp.html
Manning Christopher D., Schutze Hinrich. Foundations of Statistical
Natural Language Processing. Cambridge 1999 The MIT Press.
Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text
Summarization. Cambridge 1999 MIT Press.
Winograd, T., Understanding Natural Language, Academic Press, New
York, 1972.
Jelinek Frederick. Statistical Methods for Speech Recognition.
Cambridge 1999 MIT Press.
Mykowiecka, A. Inżynieria Lingwistyczna. Wydawnictwo PJWSTK 2007
październik, 2005
3
Przetwarzanie języka naturalnego różne perspektywy

lingwistyka formalna i komputerowa (Computational Linguistics)

przetwarzanie języka naturalnego (Natural Language Processing)

INżynieria Lingwistyczna (Linguistic Engineering; LE;
Human Language Technology, HLT)

psycholingwistyka komputerowa (Computational
Psycholinguistics)

rozpoznawanie sygnału mowy (automatic speech recognition, ASR)

synteza sygnału mowy
październik, 2005
(speech synthesis)
4
Trochę historii (1)
Podstawy (lata 40-te, 50-te)

automaty; ( Turing, 1936; model obliczeń),

automaty skończone, wyrażenia regularne; Kleene, 1951, 1956

zastosowanie modeli Markova do analizy języka; Shanon, 1948

formalny opis języka, gramatyki bezkontekstowe, Chomsky
1956 (niezależnie Backus i Naur, 1959 i 1960)

zdefiniowanie entropii jako miary pojemności informacyjnej,
wyniki dla języka angielskiego, Shanon,

spektrograf dźwiękowy (Koenig, 1946) i pierwszy system
analizy mowy (cyfry), Bell Labs, Davis, 1952
październik, 2005
5
Trochę historii (2)

Dwa obozy, 1957-1970
– przetwarzanie symboliczne (formalne),
gramatyka generatywna
– Chomsky
– kompletny system parsujący dla angielskiego- TDAP (Z.
Haris, University of Pennsylvania)
 sztuczna inteligencja (AI), McCarthy, Minsky ...
– metody statystyczne
– pierwsze prace korpusowe
(Brown corpus of American English,
Brown University, 1mln słów)

październik, 2005
6
Trochę historii (3)

Cztery podejścia, 1970-1983
– metody statystyczne (HMM) IBM Thomas J. Watson Research
Center, Carnegie Mellon University, AT&T Bell Laboratories
– metody oparte o logiki formalne (Prolog, DCG, LFG)
– natural-language-understanding field,
 system SHRUDLU, Winograd, 1972,
 sieci semantyczne Shank („Yale School”),
 wykorzystanie logiki predykatów do reprezentacji
semantycznej - system LUNAR, Woods 1963-73;
– modelowanie dyskursu, Grosz, 1977, Perrault & Allen
październik, 2005
7
Trochę historii (4)

Ponowne „odkrycie”: metody empiryczne i automaty stanów
skończonych, 1983-1993
– wykorzystanie automatów do analizy morfologicznej (Kaplan,
Kay, 1981)
– metody analizy statystycznej mowy (IBM Research Centre)
– ...

Połączenie wysiłków od 1994
– włączenie metod statystycznych do wszystkich dziedzin NLP
All scientific discoveries are in principle multiplies, including those that
on the surface appear to be singletons,
Robert K. Merton (1961)
październik, 2005
8
Co chcemy osiągnąć?

Test Turinga: maszyna naśladuje człowieka w sposób
nieodróżnialny dla słuchacza (czytelnika) ,
– „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią
10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5minutowej rozmowy
– NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966
(przykład rozmowy z oryginalnej wersji, ale jest też ``odmłodzona'' wersja w sieci
(http://www-ai.ijs.si/eliza/eliza.html).
User: Men are all alike.
Eliza: In what way?
U: There're always bugging us about something or other.
E: Can you think of a specific example?
U: Well, my boyfriend made me come here.
E: Your boyfriend made you come here?
U: He says I'm depressed much of the time.
E: I am sorry to hear you are depressed
październik, 2005
9
Linguboty

Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW,
program tworzony do pełnienia zadań automatycznej i dobrze
poinformowanej pomocy klientom dużych firm (banków, firm
telekomunikacyjnych, ubezpieczeniowych, finansowych; z
technologii Lingubot (Kiwilogic.com AG) korzystają między innymi
SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering,
Volkswagen, grupa Zurich;

Polski przedstawiciel fidointeractive (www.fido.pl),
wdrożenie m.in. w Hestia SA
Witaj, A.!
Jestem doradcą klientów Grupy
Ergo
Hestia. W 2005
czym mogę pomóc?
październik,
Cześć! Cieszę się, że się znowu spotykamy, A.
Czy wiesz, że w "Twoim Stylu" pojawiła się wzmianka
o Hubercie – naszym nowym Lingubocie™?
Może chcesz dowiedzieć się czegoś o Lingubotach™
i ofercie fido interactive czy też wolisz sobie ze mną luźno
pogawędzić?
10
Co musimy zrobić?
We can only see a short distance ahead, but we can see plenty
there that needs to be done. Alan Turing

Ogromna przepaść między możliwościami człowieka, a
możliwościami systemów komputerowych (w odróżnieniu od
operowania na liczbach czy dużych zbiorach informacji
strukturalnych gdzie widać dużą przewagę systemów
komputerowych)

Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w
języku naturalnym wymaga udziału wiedzy spoza tekstu (z
nieograniczonego praktycznie zakresu) i skomplikowanych (nie
poznanych do końca, nieklasycznych) metod wnioskowania.
październik, 2005
11
Czym zajmuje się inżynieria
lingwistyczna ?
Inżynieria lingwistyczna to opracowywanie metod i
konstruowanie narzędzi umożliwiających automatyczne
przetwarzanie języka naturalnego.
Etapy przetwarzania: ( wypowiedź )

tekst w języku naturalnym

reprezentacja semantyczna (np. logiczna)

reakcja (wykonanie operacji, sformułowanie odpowiedzi)

( synteza mowy )
październik, 2005
12
Cele NLP

poznawcze (jak jest zbudowany język, na czym polega

posługiwanie się językiem jego rozumienie nauka ...),
gromadzenie danych lingwistycznych (słowniki ogólne i
specjalistyczne, korpusy tekstów, gramatyki, ...)

wykorzystywanie języka naturalnego w systemach
komputerowych:
– wyszukiwanie informacji,
– automatyczne streszczanie tekstów,
– systemy pytań i odpowiedzi,
– organizacja danych tekstowych,
– wspomaganie tłumaczenia
październik, 2005
13
Zadania inżynierii lingwistycznej

rozpoznawanie mowy
– rozpoznawanie sygnału mowy w otoczeniu szumu
– korekcja błędów wymowy
– czytanie z ust(?)
rozumienie języka
 generowanie wypowiedzi w języku naturalnym
 wyszukiwanie informacji (Information Retrieval IR)
 selekcja informacji (Information Extraction IE)
 wnioskowanie

październik, 2005
14
Wybrane aplikacje

dużo aplikacji dotyczących syntezy i analizy mowy
– RealSpeak (Text-To-Speach system, 19 języków, w tym polski)
http:/www.scansoft.com/realspeak
– Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst,
wspomaganie tworzenia dokumentów biurowych)
– Nuance USA http:/www.nuance.com (m.in. voice-driven systems,
synteza mowy Nuance Vocalizer - UK and US English; inne języki w
połączeniu z modułami np. ScanSoft, Voice Authentication
(rozpoznanie użytkownika po głosie)
– Telisma, France: telco-grade speech modules,
–
philsoft: rozpoznawanie mowy (ASR)
– ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu
pisanego
październik, 2005
15
Wybrane aplikacje, 2

tłumaczenia
– Lingtech A/S, Dania PaTrans (efekt projektu EURORTA): tłumaczenie
w dziedzinie medycyny i farmacji
– PROject MT Ltd, Rosja - PROMPT; system tłumaczący
– Polskie programy: Translatica, English Translator


korektory pisowni, analizatory morfologiczne, np.
Morphologics, Węgry
ekstrakcja informacji ze swobodnego tekstu
– Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)
październik, 2005
16
Przykład tłum. angielski -> francuski

But while Hollywood smashes come in the summertime, the
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
SYSTRANS

Mais tandis que les fracas de Hollywood viennent dans
l'été, les affaires de jeux roulent hors de ses grands
pistolets pour des achats de fin d'année de vacances quand
environ la moitié de tout le jeu le logiciel obtient vendu.
PROMT

Mais tandis que les coups violents de Hollywood entrent
dans l'été, l'affaire de jeux étire ses grandes armes a feu
pour des achats de jour férié(de congé) de fin d'année
quand 2005
environ moitié de tout le logiciel de jeu est vendue.
październik,
17
Przykład tłum. angielski -> niemiecki

But while Hollywood smashes come in the summertime, the
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
-> SYSTRANS angielski -> niemiecki

Aber, während Hollywood Smashes in den Summertime
kommen, rollt das Spielgeschäft aus seinen grossen
Gewehren für das year-end Feiertageinkaufen, wenn über
Hälfte alles Spiels Software verkauft erhält.
-> SYSTRANS niemiecki -> angielski

But, while Hollywood Smashes come into the buzzer time,
rolls the play business from its large rifles for year ends to
holiday buying, if over half of all play software keeps sold.
październik, 2005
18
Przykład tłum.polski -> angielski
To jedyne zmiany w podatkach, które zostaną przeprowadzone
w najbliższym czasie
-> translatica (translatica.pwn.pl)
These are only changes in taxes which will be taken in the
closest time
-> trnaslate (Ectaco, translate.pl)
These sole changes in taxes, which (who) will be carried in the
nearest future
-> These are the only changes in taxes which will be introduced
in the nearest future.
październik, 2005
19
Przykład tłum.angielski -> polski

But while Hollywood smashes come in the summertime, the
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
-> translatica
 Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą,
bułki służbowe z grami na zewnątrz jego ciężkie działa przez
koniec roku finansowego zakupy turystyczne kiedy około połowy
ze wszystkich gra oprogramowanie dostaje sprzedany.
-> trnaslate
Ale podczas gdy uderzenia Hollywoodu przybył (przybywać;
wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija
(toczy się; zwój) poza swoimi wielkimi działami dla roku kończą
zakupy Święta kiedy o połowie całego programu komputerowego
gry
otrzymuje
(dostaje; rozumie) sprzedawany.
październik,
2005
20
Wiedza o języku a realizacja
wyznaczonego celu
– Open the pod bay doors, HAL.
Stanley Kubrick i Arthur C. Clarke,
2001: A Space Odyssey
– I'm sorry Dave, I’m afraid I can’t do that.

zrozumienie polecenia
– analiza językowa (identyfikacja słów, form, związków między nimi)
– odniesienie do rzeczywistości

wybór odpowiedzi (odrzucenie polecenia mimo możliwości
wykonania go)

sformułowanie odpowiedzi
– wybór słów, ich form, porządku
– pragmatyka: uprzejma odmowa (I’m sorry...)
– odniesienie do poprzedniej części dialogu (that)
październik, 2005
21
Wiedza o języku naturalnym
nazwa dziedziny
fonetyka
fonologia
ortografia
morfologia
składnia
semantyka
pragmatyka
obszar zainteresowania
dźwięki
dźwięki należące do języka
zasady pisowni
struktura/formy wyrazów
zależności strukturalne między słowami
(budowa fraz)
znaczenie pojedynczego zdania
znaczenie w kontekście
zależności międzyzdaniowe (discourse)
październik, 2005
22
Fonetyka i fonologia

Rozpoznanie sygnału mowy
– wydzielenie fonemów
– rozpoznanie słów

Synteza mowy:
– zamiana tekstu na ciąg powiązanych fonemów
– nadanie odpowiedniej intonacji całości wypowiedzi

standaryzacja zapisu fonologii, np. IPA (International
Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko
oznaki ASCII)
parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)
październik, 2005
23
Fonetyka i fonologia, problemy

Rozpoznanie sygnału mowy:
– fonemy odpowiadające tym samym dźwiękom - fragmentom
słów, wypowiadane przez różne osoby, w różnym czasie,
różnym otoczeniu są inne
– z powodu różnorodności trudno wyznaczyć ścisłe granice
między poszczególnymi fonemami
– praktycznie zawsze otrzymujemy sieć możliwych interpretacji
– rozpoznanie słów - potrzebujemy słownika


problemy, np. kwiat -> [ k f i a t]
niejednoznaczności fonologiczne, np. [m o rz e] -> może,
morze
październik, 2005
24
Fonetyka i fonologia, problemy

Synteza mowy:
– łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie
pasowały
– dla dobrego zaakcentowania potrzebujemy informacji o
strukturze składniowej (i nie tylko...)
– praktyczne rozwiązania: gromadzenie nagrań i sklejanie możliwie
długich kawałków
październik, 2005
25
Morfologia

nauka o budowie słów z morfemów:
a) temat (stem): nośnik znaczenia
b) przed- i przyrostki (affixes): nośniki cech
gramatycznych, zmiany znaczenia

rozpoznawanie słów po ich formach fleksyjnych
– psem -> pies (l.poj, narzędnik)
– ciem -> ćma (l. mnoga. dopełniacz)

generowanie form
– iść, czas przeszły, 3osoba l.poj., rodzaj żeński -> szła
październik, 2005
26
Niejednoznaczności morfologiczne
Analiza morfologiczna: rozpoznanie form podstawowych
i wartości cech gramatycznych
Często jest wiele możliwości:
– szafy ->
szafa
(l. poj, dopełniacz
czy
l. mnoga, mianownik)
– chłopca -> chłopiec (l. poj. dopełniacz czy
l. poj. biernik)
– mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy
mamić (tryb rozkazujący) czy
mama (l.mnoga, dopełniacz)
październik, 2005
27
Składnia
wiedza o sposobie łączenia słów we frazy, a fraz w zdania
Analiza składniowa: rozpoznanie fraz i ich powiązań
składniowych (zbudowanie rozbioru syntaktycznego)
mała dziewczynka dała bukiet fiołków mamie ->
[mała mod dziewczynka] podmiot
dać
[bukiet fiołkówmod] dopełnienie
[mama] dopełnienie
październik, 2005
28
Składnia

rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie
wartości cech gramatycznych dla generowanego tekstu, a więc
rozstrzygnięcie wielu niejednoznaczności morfologicznych np.
dał słonia mamie ->
[dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik
[dać] 3os,cz. przeszły [słoń]biernik [mama]celownik
październik, 2005
29
Składnia, problemy

Dwa typy fraz: wymagania składniowe (mogą być opisane w
słownikach) i modyfikatory, które są praktycznie dowolne
– Jan widzi kota.
– Mój starszy brat Jan, który od niedawna mieszka w Krakowie,
idąc rano do pracy zwykle widzi czarnego kota siedzącego na
murku naprzeciwko okna kuchni sąsiada.

Niejednoznaczności składniowe, np.
pokazała siostrze Jana kwiaty
– [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie
– [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie
październik, 2005
30
Semantyka
ustalenie co jest znaczeniem konkretnego wyrażenia w języku
naturalnym (rozpoznanie obiektów, relacji między nimi, ...)
czyli „kolejny etap analizy”:
mała dziewczyka dała bukiet fiołków mamie
--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie
[ mama ] dopełnienie
--> [małamody dziewczynka]aktor daćakcja [ bukiet
fiołkówel.skladowy]obiekt
[ mama ] odbiorca
październik, 2005
31
Semantyka, problemy





Co to właściwie jest znaczenie wyrażenia w języku
naturalnym ?
Jak budować znaczenie zdania ze znaczenia fraz
Niepełność wszystkich dostępnych sposbów opisu znaczenia
(zawsze spotkamy sytuację, dla której nie mamy dobrej
reguły)
Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej
zaawansowanych sposobów reprezentacji (logiki)
I jak zawsze niejednoznaczności
październik, 2005
32
Semantyka, niejednoznaczności

Piła!
okrzyk radości ma widok zgubionej piły,
niezbyt pochlebna ocena nauczyciela,
wyraz zdegustowania nadużyciem alkoholu
(pierwsze dwie interpretacje semantyczne mają taką samą interpretację
morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w
mianowniku), trzecia inną (‘piła’ to czasownik)
Uszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca
 „nawiasowanie” negacji
 Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię)
 wiązane zaimków
 Jan kazał Piotrowi wyczyścić swoje buty.

październik, 2005
33
Pragmatyka
interpretacja wypowiedzi w konkretnym kontekście, w
odniesieniu do wiedzy o świecie
Informacje zewnętrzne pozwalają człowiekowi poprawnie
rozstrzygać wiele niejednoznaczności, np.
Pacjent opuścił salę operacyjną w dobrym stanie
1
pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta
2
pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]
(doświadczenie przemawia za interpretacją 1)
październik, 2005
34