Marek Świdziński

Download Report

Transcript Marek Świdziński

8.
Wiedza o języku
Studia Podyplomowe
„Polski Język Migowy”
2014-2016
Prof. dr hab. Marek Świdziński
Zakład Językoznawstwa Komputerowego
Instytut Języka Polskiego UW
e-mail: [email protected]
Konsultacje (pok. 1): śr 14.00-15.00,
sob (w dniach zjazdów)
Strona przedmiotu — szukaj pod:
http://www.mswidz.republika.pl/
Program
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Co to jest język naturalny?
Aparat pojęciowy analizy tekstu.
Poziomy struktury tekstu.
Wstęp do morfologii.
Fleksja polska.
Elementarz składni.
Derywacja i gniazda słowotwórcze.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków.
Inne: Korpusy i narzędzia ich obsługi.
–2
Wykład 8: Korpusy i narzędzia ich
obsługi
Językoznawstwo korpusowe
„[językoznawstwo XXI stulecia] to [...] lingwistyka korpusowa.
Rozwija się ona już od jakiegoś czasu; wynikła w sposób
naturalny z dość szczęśliwego splotu różnorodnych
okoliczności; zdominowała inne nurty i odmiany
językoznawstwa nieodwracalnie. Nie można być dziś
językoznawcą i nie otrzeć się o nią choćby jako użytkownik
narzędzi. A skoro tak, to warto wejść w ten świat z wyboru,
zadań bowiem jest moc i będzie ich coraz więcej. W świecie
jest na tę najnowszą lingwistykę, nie na dowolną, mnóstwo
pieniędzy – i zajmują się nią całe rzesze; to dowodzi, że coś
jest na rzeczy, że czemuś to służy...”
[Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła,
stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 2332.]
4
Szkic historii lingwistyki
1.
Lingwistyka I połowy XX wieku – strukturalizm (F. de
Saussure, J.N. Baudouin de Courtenay, M. Kruszewski, O.
Jespersen, N. Trubeckoj, L. Hjelmslev, L. Tesniére, J.
Kuryłowicz, L. Bloomfield, Z. S. Harris): opis struktury, nie
genezy. Język naturalny: dwuklasowy system semiotyczny
służący danej populacji do komunikacji uniwersalnej.
2.
Lingwistyka formalna: opisy „typu matematycznego” –
twierdzenia, dowody, rachunki. Opis na papierze!!! Wynik:
definicja drzew struktury. Język naturalny: zbiór wszystkich
wyrażeń poprawnych i tylko takich. Generatywizm: N.
Chomsky, Syntactic Structures (1957). Inne formalizmy:
GPSG, HPSG, DCG, wiele innych.
5
Szkic historii lingwistyki
3.
Lingwistyka informatyczna: zadania inżynierskie – budowa
korpusu, automatyczna analiza tekstu, przetwarzanie
tekstów, przeszukiwanie itp. Opis jest urządzeniem – na
przykład programem komputerowym. Wynik: określony
podzbiór korpusu, lista składników spełniających zadane
warunki, rzeczywiste drzewa struktury dla danego wyrażenia
(parsing trees).
Pojęcie implementacji opisu (formalnego).
Lingwistyka korpusowa.
6
Korpusy
korpus m IV, D. -u, Ms. ~sie; lm M. -y
1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów»
2. => garmond
3. archit. «główna część budowli; w architekturze pałacowej: część
centralna budynku o charakterze reprezentacyjnym; w architekturze
sakralnej: część nawowa kościoła»
4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny,
przyrządu itp.; kadłub»
Korpus obrabiarki, okrętu.
5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub
brygad; wchodzi w skład armii lub może działać samodzielnie»
Korpus zmechanizowany. Korpus piechoty, kawalerii.
FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w
skład dowództwa wojskowego»
FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska,
później średnia szkoła ogólnokształcąca, przygotowująca kandydatów
do szkół oficerskich; w Polsce istniała do roku 1956»
7
Korpusy
FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych
akredytowanych przy rządzie danego kraju; personel dyplomatyczny
oraz wszyscy członkowie obcych misji dyplomatycznych
korzystających z przywilejów i immunitetów»
FR. Korpus konsularny «ogół konsulów w określonym państwie lub
miejscowości; szefowie placówek konsularnych oraz członkowie
personelu konsularnego korzystający z przywilejów i immunitetów»
(wg KSJP)
8
Korpusy
korpus
[...]
6 Korpus tekstów to zbiór książek, czasopism, artykułów itp.
przeznaczony do jakichś prac lub badań. Termin specjalistyczny.
…komputerowy korpus języka polskiego.
(wg ISJP)
9
Korpusy
•
•
•
Korpus to dowolny zbiór tekstów.
Korpus to dowolny zbiór tekstów, w którym czegoś szukamy.
Korpus to dowolny zbiór tekstów będący podstawą badań
(np. naukowych).
•
Korpus narodowy???
10
Korpusy
Klasyfikacje:
•
•
•
•
•
Rozmiar: wielki – średni – mały
Waga: zasadniczy – pomocniczy
Cel: podstawowy – przykładowy (sample)
Zakres: ogólny – szczegółowy
Status: naukowy (kulturowy) – komercyjny
11
Korpusy
•
LOB Corpus
•
BNC
•
PELCRA
•
•
•
•
COBUILD
http://korpus.pwn.pl/
http://korpus.pl/
http://nkjp
Lancaster – Oslo/Bergen
1970-1978
Geoffrey Leech, Stig Johansson
1991-1995
Oxford, Lancaster, Longman
Polish and English Language
Corpora for Research and
Applications
Korpus PWN
Korpus IPI PAN
Narodowy Korpus Języka
Polskiego
12
Korpusy
Inne języki
•
•
•
Český Narodní Korpus
Korpus niemiecki Berlińskiej Akademii Nauk (DWDS)
Korpusy IDS (Institut für Deutsche Sprache)
•
Национальый Корпус Русского Языка
•
•
•
korpusy francuskie
korpusy hiszpańskie
korpusy portugalskie
Polski Korpus Narodowy???
13
Korpusy
●
LOB
The Lancaster/Oslo-Bergen Corpus
Approximately 1,000,000 words of British written English dating
from 1960. The corpus is made up of 15 different genre
categories. Available as orthographic text, and tagged with
the CLAWS1 part-of-speech tagging system. The LeedsLancaster Treebank and Lancaster Parsed Corpus are
analyzed subsamples of the LOB corpus. For further
information see the corpus manual (1978) and the tagged
corpus manual (1986). (There is a local on-line copy of the
tagged corpus manual at Lancaster.)
http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM
14
14
Korpusy
●
BNC (British National Corpus)
15
Korpusy
London and
Glasgow
1987
16
Korpusy
17
Korpusy
18
Korpusy
•
http://korpus.pwn.pl/
Korpus PWN
Wydawnictwo Naukowe PWN przygotowało i udostępniło
sieciową wersję Korpusu Języka Polskiego PWN
wielkości 40 milionów słów. Korpus składa się z
fragmentów 386 różnych książek, 977 numerów 185
różnych gazet i czasopism, 84 nagranych rozmów, 207
stron internetowych oraz kilkuset ulotek reklamowych.
Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln),
a bezpłatnie wersja demonstracyjna wielkości ponad 7,5
miliona słów.
19
Korpusy
20
Korpusy
•
http:/korpus.pl/
Korpus IPI PAN
2. wydanie Korpusu IPI PAN (marzec 2006)
•
•
2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln.
segmentów.
2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na
stronie http://korpus.pl/; ponad 30 mln. segmentów.
Niniejsza wersja sample jest korpusem różnorodnym
o następującym składzie:
– proza współczesna: ponad 10%
– proza dawna: prawie 10%
– teksty książkowe niebeletrystyczne (głównie naukowe): 10%
– prasa: 50%
– stenogramy sejmowe i senackie (w tym z komisji śledczej): 15%
– ustawy: 5%
21
Korpusy
22
Znakowanie
Znakowanie – tagging
Narzędzie do znakowania – tager
Znakowanie: przypisywanie jednostkom tekstowym
jakichś kodów (tagów):
1.
2.
3.
4.
5.
6.
lokalizacja
PoS
morfologia
składnia
semantyka
pragmatyka
Muszą istnieć dobre podstawy gramatyczne!!!
–23
Korpus IPI PAN
Adam Przepiórkowski
Korpus IPI PAN - wersja wstępna
INSTYTUT PODSTAW INFORMATYKI PAN
Warszawa 2004
–24
Korpus IPI PAN
Grant KBN numer 7 T11C 043 20
Instytut Podstaw Informatyki PAN (IPI PAN)
04.2001–03.2004
Książka dostępna jako pdf:
http://nlp.ipipan.waw.pl/~adamp/Papers/2004corpus/
–25
Korpus IPI PAN
Korpus IPI PAN – jeden z dwóch publicznie
dostępnych korpusów języka polskiego:
• [Korpus SFPW (1967-1971) – 500 tys. słów]
• Korpus PWN (wersja sieciowa) – 70 (100 mln)
http://sjp.pwn.pl/korpus
• Korpus IPI PAN (2004) – 100 mln segmentów,
znakowany morfosyntaktycznie, dostępny on-line:
http://korpus.pl/poliqarp/poliqarp.php
http://www.korpusy.net/index.php/
http://korpus.pl/
–26
NKJP
• Korpus narodowy (= skarbiec…)
• Wielkość: niemal 2 miliardy słów.
• Dostępny dla każdego:
http://nkjp.pl
–27
Podstawy teoretyczne
Zbiór znaczników: Marcin Woliński, Zygmunt Saloni,
Adam Przepiórkowski
http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf
Marcin Woliński: „System znaczników
morfosyntaktycznych w korpusie IPI PAN”,
Polonica XII (2004), 39-54.
–28
Podstawy teoretyczne
Leksem: zbiór form wyrazowych o tym samym (lub
regularnie zróżnicowanym) znaczeniu oraz
mających podobną postać morfologiczną.
Fleksem (termin Janusza S. Bienia): zbiór form
wyrazowych o tym samym (lub regularnie
zróżnicowanym) znaczeniu, mających podobną
postać morfologiczną oraz mających te same
kategorie gramatyczne.
Znacznik: ciąg wartości kategorii fleksyjnych
przypisanych segmentowi.
–29
Podstawy teoretyczne
Segment: zwykle słowo. Segmenty muszą być ciągłe
i rozłączne.
Bo ja się naprawdę boję głośno roześmiać.
Dawnom nie śpiewała i nie tańczyła.
Kiedyś by/m tam zaśpiewał i zatańczył.
–30
Podstawy teoretyczne
Segmenty krótsze niż słowo:
długośmy
napisałaby/m
chodźże
doń
polsko/-/niemiecki
itp./.
–31
Kategorie gramatyczne
IPI
PAN
–32
Kategorie gramatyczne
–33
Kategorie gramatyczne
–34
Kategorie gramatyczne
–35
Części mowy (klasy fleksyjne)
–36
Części mowy (klasy fleksyjne)
–37
Części mowy (klasy fleksyjne)
–38
Poliqarp
Poliqarp: POLyinterpretation Indexing Query and
Retrieval Processor
Autorzy: Zygmunt Krynicki i Daniel Janus
Teoretycznie niezależny od języka / korpusu / zbioru
znaczników!
3 wersje:
(a) graficzna (Windows – wersje po 2000,
GNU/Linux,
(b) tekstowa (GNU/Linux),
(c) internetowa.
–39
Poliqarp
Podstawa:
Marcin Woliński, Morfeusz SIAT
(Software Interface Analysis Tool)
Dane programu:
Jan Tokarski, Schematyczny indeks a tergo
polskich form wyrazowych (red. Zygmunt
Saloni)
Zygmunt Saloni, Czasownik polski, Wiedza
Powszechna: Warszawa 2007.
Słownik Języka Polskiego PAN, red. Witold
Doroszewski, Warszawa 1958-70.
–40
Poliqarp
Zapytania o segmenty:
•
•
•
•
•
•
•
•
małej
mam pieniądze
marek/i
Kasztowość
Wyrażenia regularne
”,”
”dom|domy”
”chłop[iy]”
”chłop.?”
”.*pisać”
–41
Poliqarp
Zapytania o formy podstawowe:
•
•
•
•
[base=panować]
[base=”dobry|mały”]
[base=”.*pisa.*”]
[orth=”semaforu|semafora”]
–42
Poliqarp
Zapytania wyższego rzędu:
[orth=tonie & base=tonąć]
[orth=mam & base!=mieć]
[base=się] [base=spóźniać]
[base=bać] [ ] się
[base=bać] [pos!=aglt] [orth=się]
[orth=się] [ ] {2, 4} [base=spóźniać]
"," [ ] [pos=conj]
–43
Poliqarp
Kwerendy:
•
•
•
•
•
•
Przyimki złożone.
JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ
PRZEJECHAĆ – wprowadzane przyimki.
Spójniki z aglutynantem.
Aglutynant doczepiony wewnątrz zdania.
Czasowniki wymagające zdania JAKOBY.
–44
Poliqarp
Zapytania o znaczniki morfosyntaktyczne:
[pos=aglt]
[orth=mam & base!=mieć]
[orth=mam & !base=mieć]
[base=się] [base=spóźniać]
[orth=się] [ ] {2, 4} [base=spóźniać]
–45
Podsumowanie
•
•
•
•
•
•
Lingwistyka XXI wieku – korpusowa.
Korpus – zbiór tekstów wymagających narzędzi obsługi.
Polszczyzna – dobrze opisana gramatycznie.
Istnieją narzędzia do pracy z korpusem tekstów polskich.
Istnieją narzędzia analizy morfologicznej i składniowej.
Współczesny leksykograf musi być lingwistą korpusowym.
46