Bułgarsko-polsko-rosyjski korpus równoległy

Download Report

Transcript Bułgarsko-polsko-rosyjski korpus równoległy

Polska Akademia Nauk
Instytut Slawistyki
Joanna Satoła-Staśkowiak, Maksim Duškin
Bułgarsko-polsko-rosyjski korpus
równoległy
Bułgarsko-polsko-rosyjski korpus
równoległy
Korpus jest przygotowywany przez Zespół Semantyki IS
PAN w składzie:

prof. dr hab. Violetta Koseska - kierownik projektu

dr Maksim Duszkin

dr Joanna Satoła-Staśkowiak
Cel projektu i kryteria wyboru
języków
Korpus będzie służył jako baza materiałowa do
konfrontatywnych badań lingwistycznych nad językami
słowiańskimi.
Korpus obejmuje języki należące do trzech grup języków
słowiańskich:

Bułgarski — grupa języków południowosłowiańskich

Polski — grupa języków zachodniosłowiańskich

Rosyjski — grupa języków wschodniosłowiańskich
Obecny stan prac
• Opracowano wersję testową oprogramowania
Korpusu (język PHP z użyciem systemu baz danych
MySQL).
• Stworzono próbny korpus obejmujący teksty
literatury pięknej (fragmenty większych utworów i
kilka mniejszych utworów w całości). Teksty
równoległe są wiązane (wyrównywane) na poziomie
zdań. Przygotowano też mały, odrębny podkorpus
poezji (teksty w nim wyrównane są na poziomie
strof).
Realizacja programu


Można szukać interesujących nas słów, połączeń
wyrazowych etc. w każdym z trzech języków;
Można używać «translitu» (znaki cyrylickie wpisywać za
pomocą łacińskich w «łacińskim» układzie klawiatury);

Przy wyszukiwaniu nie rozróżnia się wielkości liter;

Zapytań szuka się w kilku trybach.
Interfejs programu
Tryby wyszukiwania




Wyszukiwanie dowolnego fragmentu tekstu (od litery do
fragmentu pokrywającego się objętościowo ze zdaniem);
Wyszukiwanie słowa lub kilku całych słów;
Wyszukiwanie wszystkich słowoform danego leksemu
(zrealizowane tylko dla języka polskiego i rosyjskiego);
Wyszukiwanie za pomocą wyrażeń regularnych.
I. Dowolny fragment tekstu (litera, kilka liter, wiele liter)
Np. wyniki zapytania o ciąg pol. „znan”:
II. Całe słowo lub kilka całych słów
Np. wyniki zapytania o pol. słowo „on”:
Por. zupełnie inne wyniki wyszukiwania „on” jako ciągu (w trybie „dowolny
fragment tekstu”):
III. Wszystkie słowoformy danego leksemu (zrealizowane tylko
dla języka polskiego i rosyjskiego)
Zapytanie pol. „kobieta”:
W celu zrealizowania wyszukiwania wszystkich form leksemu skorzystano z następujących
programów:
•TaKIPI (tager IPI PAN) - dla języka polskiego;
•Mystem (bezpłatny tager firmy Yandex) – dla rosyjskiego.
Por. też wyniki wyszukiwania ros. „vyjti” w tym trybie:
W obecnej wersji korpus nie jest anotowany morfosyntaktycznie. W
związku z tym nie ma możliwości uwzględnienia homonimii
(rozróżniania identycznych form różnych leksemów). Np. przy
wyszukiwaniu form leksemu век ‘wiek, stulecie’ zostaną znalezione
też formy leksemu веко ‘powieka (w niektórych przypadkach
zależnych leksemy te mają identyczne formy, np. веками).
Por. wyniki zapytania o ros. „веко”:
IV. Wyszukiwanie za pomocą wyrażeń regularnych
Wyniki zapytania ros. „(pri|vy|podo|oto|u|za|pere)shel”:
BIBLIOGRAFIA
1.
2.
3.
4.
5.
6.
7.
8.
Dimitrova L., Koseska-Toszewa V., Bulgarian-Polish Corpus, Cognitive Studies - Etudes Cognitives 9, SOW
Publishing House, Warsaw 2009, s. 133 - 141.
Dimitrova L., Koseska V., Roszko D., Roszko R., Bulgarian-Polish-Lithuanian Corpus - Current Development, [In:]
Cristina Vertan, Stelios Piperidis, Elena Paskaleva, Milena Slavcheva (Eds.), International Workshop. Multilingual
Resources, Technologies and Evaluation for Central and Eastern European Languages held in conjunction with
The International conference RANLP - 2009, Proceedings, Borovets 2009, s. 1-8.
Dimitrova L., Koseska V., Roszko D., Roszko R., Bulgarian-Polish-Lithuanian Corpus – Problems of Development
and Annotation, [in:] Tomaž Erjavec (Ed.), Research Infrastructure for Digital Lexicography, Information Society
2009, MONDILEX Fifth Open Workshop, Ljubljana, Slovenia, October 14 - 15, 2009, Proceedings, Ljubljana,
Jožef Stefan Institute 2009, s. 72-86
Dimitrova L., Koseska V., Roszko D., Roszko R., Application of Multilingual Corpus in Contrastive Studies (on the
example of the Bulgarian-Polish-Lithuanian Parallel Corpus), Cognitive Studies - Etudes Cognitives 10, SOW
Publishing House, Warsaw 2010, s. 217-240.
Mystem: http://company.yandex.ru/technology/mystem/
Piasecki M., Polish Tagger TaKIPI: Rule Based Construction and Optimisation, Task Quarterly 2007, 11, s. 151167.
TextAlign: http://mt2007-cat.ru/
Woliński M., System znaczników morfosyntaktycznych w korpusie IPI PAN, Polonica XII, 2003, s. 39-55.