Narodowy Korpus Języka Polskiego - Rynek tłumaczeń i lokalizacji

Download Report

Transcript Narodowy Korpus Języka Polskiego - Rynek tłumaczeń i lokalizacji

Organizator:
Narodowy Korpus Języka Polskiego
Patronat konferencji:
Marek Łaziński
www.nkjp.pl
[email protected], [email protected]
Sponsorzy konferencji:
Partnerzy konferencji:
:
Co to jest korpus?
• Korpus to zbiór tekstów, w którym czegoś
szukamy.
• Korpus narodowy to zbiór tekstów
dobranych tak, by reprezentowały
przeciętne zwyczaje językowe
społeczeństwa.
• Korpus równoległy prezentuje równolegle
zdania z dwóch języków.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
2/20
Dobry korpus musi być
•
•
•
•
duży (miliony słów)
zróżnicowany i reprezentatywny
bogato anotowany (znakowany)
przeszukiwany programem, który pozwala
szukać konkordancji lekesmów, form
gramatycznych, konstrukcji składniowych
oraz kolokacji (typowych skojarzeń
tekstowych)
• łatwo dostępny (w sieci)
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
3/20
Korpusy wczoraj i dziś
• 1967: pierwsze korpusy angielskie - Brown University
Corpus (Kucera, Francis)
• 1987: pierwszy angielski słownik oparty na korpusie Collins Cobuild English Dictionary (Sinclair)
• 1990-95: British National Corpus (100 mln słów)
• Niemieckie korpusy IDS (Mannheim) i DWDS (Berlin)
• 1994: Ústav Českého národního korpusu na
Uniwersytecie Karola. Dziś w krajach korpusy narodowe
bułgarski, chorwacki, czeski, polski, rosyjski, słowacki,
słoweński.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
4/20
Polskie korpusy przed 2008 r.
• Instytut Podstaw Informatyki oraz Instytut Języka
Polskiego PAN – korpus duży (250 mln słów), w
całości dostępny w sieci, dokładnie anotowany,
umożliwia wyszukiwanie skomplikowanych
konstrukcji.
• Wydawnictwo Naukowe PWN – korpus średniej
wielkości (100 mln słów), dobrze zróżnicowany.
• Uniwersytet Łódzki (zespół PELCRA ) – korpus
średniej wielkości (100 mln słów), w całości
dostępny w sieci.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
5/20
Słowniki PWN oparte na korpusach
• Inny słownik języka polskiego
• Wielki słownik polsko-angielski i angielsko-polski
PWN Oxford, Wielki słownik polsko-niemiecki
• Definicje korpusowe
– When a dog wags its tail, it repeatedly waves its tail from side to
side (Cobuid CED)
– wag = to shake up and down or move from side to side (OW)
– Jeśli ktoś ciemięży ludzi, to wykorzystując swoją władzę [...]
nakłada na nich zbyt ciężkie obowiązki. (ISJP)
– ciemiężyć - pozbawiać swobody, nakładać ciężary, zmuszać do
czegoś; prześladować, gnębić, uciskać (USJP)
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
6/20
Narodowy Korpus Języka Polskiego
www.nkjp.pl
• Jest projektem badawczym MNiSW.
• Łączy doświadczenia wszystkich instytucji tworzących
wcześniej polskie korpusy oraz pracowników UW.
• Do końca roku 2010 zgromadzi miliard słów ze
skomplikowaną wyszukiwarką.
• Podkorpus 300 milionów będzie dokładnie
zrównoważony gatunkowo i stylistycznie według badań
czytelnictwa w Polsce.
• Wśród 30 mln słów tekstów mówionych będą 3 mln
konwersacji nagranych w naturalnych warunkach.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
7/20
Obecnie w NKJP
• 500 mln słów z ponad 1000 książek i kilku
tysięcy gazet (prawie 300 tytułów)
• Teksty zróżnicowane w oparciu o badania
czytelnictwa w Polsce
• Wyszukiwarka Poliqarp pozwalająca szukać
„pustych” kategorii gramatycznych
• Wyszukiwarka PELCRA z modułem kolokacji
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
8/20
Wśród 500 mln słów...
• Przyimek w (najczęstsze słowo) występuje
13.500.000 razy – 2,5%
• Wojna występuje 130.000 razy, a pokój (w
dwóch znaczeniach – 64.000 razy
• Cieszyć się występuje 66.500 razy, a
martwić się 14.500
• Groch – 2.000 razy
• Kapusta – 7.000 razy
• Groch z kapustą – 80 razy
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
9/20
Podprojekty NKJP
• Słowa tygodnia (dnia) - częstsze w gazetach w
danym tygodniu (dniu) niż w okresie
porównawczym: www.gazetylokalne.pl
• Korpus równoległy polsko-rosyjski
• Narzędzia do:
– rozpoznawania i ujednoznaczniania form fleksyjnych
w tekście
– rozpoznawania znaczeń homonimów
– identyfikacji nazw własnych
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
10/20
Co można sprawdzić w korpusie?
• Poprawność gramatyczną i ortograficzną form
i połączeń
• Typowe użycia i konteksty (skojarzenia słów)
• Częstość słów i konstrukcji
• Dzieje słów (pierwsze użycia)
• Skrzydlate słowa (Kto to powiedział?)
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
11/20
[pos="praet|fin" & aspect=perf &
orth="na.*"][]{,2}[orth=na]
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
12/20
Czasowniki dk z prefiksem naodległe najwyżej o 2 wyrazy od przyimka na
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
13/20
Wyszukiwarka kolokacji
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
14/20
Kolokacje kawy w NKJP
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
15/20
Kolokacje herbaty w NKJP
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
16/20
Kawa czy herbata?
• NKJP: kawa 9653, herbata: 15828
szklanka: 779, filiżanka: 248
• BNC: coffe 6782, tea: 8030
cup 11965, glass 9438
(http://www.natcorp.ox.ac.uk/index.xml)
• Wortschatz: Kaffee 3548, Tee 1554 (kolok. Tasse)
(http://wortschatz.uni-leipzig.de/)
• DWDS: Tee 2604, Kaffee 4443
(http://www.dwds.de/textbasis/kerncorpus)
• ČNK: čaj 3763, káva 4630
• NKRJa: kofe 7898, čaj 24050
čaška 5522, stakan 11286
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
17/20
Korpusy równoległe
• ENPC - korpus angielsko-norweski
www.hf.uio.no/ilos/forskning/forskningsprosjekter
/enpc (niedostępny w sieci)
• Korpus Hansard kanadyjskich debat
parlamentarnych po angielsku i po francusku
(projekt TransSearch: www.tsrali.com)
• Korpus aktów prawnych Unii Europejskiej (do
instalacji): langtech.jrc.it/JRC-Acquis
• Korpus angielsko-rosyjski, -słoweński, -chorwacki
i inne w ramach korpusów narodowych
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
18/20
Home w TransSearch (nie ma maison)
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
19/20
Strona korpusu ParaSol
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
20/20
Strona wyszukiwania ParaSol
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
21/20
Wyszukiwanie – szklanka
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
22/20
Szklanka herbaty i filiżanka kawy
• W czeskich przekładach szklance i stakanowi odpowiadają:
sklenice, sklenka, sklenička, číš, šálek.
• Czasem herbacie odpowiada kawa.
• На столе , за которым сидел во время моего прошлого визита
жирный , на куче перепачканных бумаг стояли стаканы изпод чая... (Bułhakow: Mistrz i Małgorzta)
• Na stole, na którym siedział przedtem otyły, na stercie
poplamionych papierów stały szklanki po herbacie.
• Na stole, u kterého prve seděl tlusťoch, stály šálky od kávy.
• Wypiłem resztki herbaty i wydrapałem łyżeczką cukier z dna
szklanki.
• Dopil jsem kavu a ližičkou vybral zbytky cukru ze dna šálku.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
23/20
Kolega
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
24/20
Polski rozkaźnik i rosyjski bezokolicznik
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
25/20
Korpus polsko-rosyjski
• Będzie umieszczony (jako korpus rosyjsko-polski)
na stronach NKRJa obok rosyjsko-angielskiego i –
niemieckiego, a także na stronach Uniwersytetu
Baszkirskiego w Ufie. Polski interfejs będzie na
stronach NKJP, polonistyki i rusycystyki UW.
• Na pierwszym etapie pracy serwer z tekstami
będzie po stronie rosyjskiej, w Polsce stworzymy
później serwer lustrzany.
• W Polsce projekt działa jako grant MNiSW.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
26/20
Tagowanie, lematyzacja, dezambiguacja
i dopasowanie zdań
•
•
•
<RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северовосточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед|
угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн|
африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн}
лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед|
египет=S,муж,неод=вин,ед}.</RUS>
<POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim
[wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f]
leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>
<orth>leży</orth>:
•
•
•
<lex disamb="1">
<base>leżeć</base>
<ctag>fin:sg:ter:imperf</ctag></lex>
<base>leż</base>, <ctag>subst:sg:gen:f</ctag>
•
•
•
•
<base>leż</base>, <ctag>subst:sg:dat:f</ctag>
<base>leża</base>, <ctag>subst:sg:gen:f</ctag>
<base>leża</base>, <ctag>subst:sg:dat:f</ctag>
<base>leże</base>, <ctag>subst:pl:gen:n</ctag>
Wpadki lematyzacyjne: dopieroż <dopierożyć>, (w) terenie <Terenia>
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
27/20
Problemy w gromadzeniu korpusu
• Skanowanie, tagowanie i dezambiguacja tekstu są
pracochłonne. Najbardziej pracochłonne jest
przepisywanie tekstów mówionych.
• Jednak najwięcej czasu zajmuje przekonanie
wydawców lub autorów do przekazania tekstu i
wydania zgody na wykorzystanie w korpusie.
• Mimo że udostępniamy jedynie cytaty niewiele
większe niż ilustracja słownikowa, to na
przechowywanie całości tekstu na własnych
serwerach i znakowanie go musimy mieć zgodę.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
28/20
Jak można pomóc NKJP?
Zgadzam się na wykorzystanie mojego tekstu/ przekładu [...]
w Narodowym Korpusie Języka Polskiego (Korpusie PolskoRosyjskim) i oraz na wykorzystanie cytatów z tego tekstu w celach
dydaktycznych, badawczych i leksykograficznych. Teksty Korpusu
nikomu nie będą udostępnione jako integralne utwory.
W Internecie lub mogą być udostępnione jedynie krótkie cytaty
pozwalające określić znaczenie, typową łączliwość oraz cechy
gramatyczne wyrazów i konstrukcji w jednym lub W dwóch
językach. Teksty będą przechowywane wyłącznie w celu
znakowania morfosyntaktycznego i zindeksowania w programie
wyszukującym w instytucjach budujących NKJP i KPR: na
Wydziale Polonistyki i w Instytucie Rusycystyki UW,
w Instytucie Podstaw Informatyki i Instytucie Języka Polskiego
PAN, Katedrze Anglistyki Uniwersytetu Łódzkiego oraz
Wydawnictwie Naukowym PWN.
„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010
29/20