Morfeusz SGJP

Download Report

Transcript Morfeusz SGJP

MORFEUSZ
Analizator morfologiczny
Milena Ćmil
Katarzyna Kopania
Czym jest Morfeusz?
• Program Morfeusz wykonuje analizę
morfologiczną dla języka polskiego. Nie
zawiera modułu zgadującego nieznane słowa
(można więc powiedzieć, że jest słownikiem
morfologicznym).
Autorzy
• Prof. Zygmunt Saloni: Uniwersytet Warszawski;
Wydział Lingwistyki Stosowanej; Instytut
Lingwistyki Stosowanej
• Prof. Włodzimierz Gruszczyński: Uniwersytet
Warszawski; Wydział Dziennikarstwa i Nauk
Politycznych; Instytut Dziennikarstwa
• Dr Marcin Woliński: Instytut Podstaw Informatyki
Polskiej Akademii Nauk; Zakład Sztucznej
Inteligencji; Zespół Inżynierii Lingwistycznej
• Dr Robert Wołosz
Warianty programu
• Morfeusz SIaT (najstarszy);
• Morfeusz SGJP
• Morfeusz Polimorf
Morfeusz SIaT
• Przygotowany poprzez skonfrontowanie
danych „Schematycznego indeksu a tergo
polskich form wyrazowych” (SIaT) Jana
Tokarskiego i Zygmunta Saloniego z listą haseł
słownika Doroszewskiego;
• wersja SIaT programu została w zasadzie
zarzucona.
Morfeusz SGJP
• Korzysta z danych „Słownika gramatycznego
języka polskiego” — SGJP;
• Morfeusz SGJP odpowiada w miarę dokładnie
zawartości SGJP, przez co jest użyteczny dla
twórców SGJP;
• ma postać biblioteki dynamicznej
(skompilowanej dla systemu Linux 32/64bit,
Windows i Mac OS X/Intel32).
SGJP
• SGJP podaje przede wszystkim formy fleksyjne opisywanych
wyrazów (ok. 4,5 miliona). Uwzględnia jednak także wiele
innych cech gramatycznych (zwłaszcza składniowych)
leksemów, m. in. rodzaj rzeczownika, rekcję przyimków
i liczebników, aspekt czasowników.
• Program umożliwia szybkie wyszukiwanie informacji
o leksemie zarówno na podstawie jego formy słownikowej,
jak i na podstawie dowolnej formy fleksyjnej. Pozwala na
ograniczenie zakresu wyszukiwania do wybranej części
mowy (klasy leksemów), a także szybką weryfikację hipotez
dotyczących odmiany wyrazów nieuwzględnionych
w słowniku.
SGJP - historia
• w latach 80-tych: analiza informacji gramatycznej w
Słowniku języka polskiego Doroszewskiego,
• W. Gruszczyński, Fleksja rzeczowników pospolitych we
współczesnej polszczyźnie pisanej, 1989 Wrocław,
• J. Tokarski, Schematyczny indeks a tergo polskich form
wyrazowych, w opracowaniu Z. Saloniego, 1993
Warszawa,
• Robert Wołosz przygotował elektroniczna postać listy
haseł SJPDor uzupełnionej o informacje gramatyczna,
• Z. Saloni Czasownik polski, 2001 Warszawa.
Morfeusz Polimorf
• Otwarty słownik morfologiczny;
• wykorzystuje słownik fleksyjny Polimorf
stanowiący połączenie danych SGJP z danymi
tworzonymi społecznościowo (Morfologik);
Zastosowanie
• Narzędzie pracy w badaniu języka polskiego;
• wykorzystywany w analizie morfologicznej
korpusów, np. w NKJP;
• stosowany w procesie tagowania;
Zestaw znaczników
morfosyntaktycznych
Przykłady analizy
Różnice między SIaT a Polimorf
Warunki licencjonowania
• Autorami i właścicielami praw autorskich programu Morfeusz SGJP
są:
– w zakresie danych językowych: Zygmunt Saloni, Włodzimierz
Gruszczyński, Marcin Woliński, Robert Wołosz,
– w zakresie kodu programu: Marcin Woliński.
• Redystrybucja i używanie, czy to w formie kodu źródłowego, czy w
formie kodu wykonawczego, są dozwolone pod warunkiem
spełnienia poniższych warunków:
– Redystrybucja kodu źródłowego musi zawierać powyższą notę
copyrightową, niniejszą listę warunków oraz poniższe oświadczenie
o wyłączeniu odpowiedzialności.
– Redystrybucja kodu wykonawczego musi zawierać powyższą notę
copyrightową, niniejszą listę warunków oraz poniższe oświadczenie
o wyłączeniu odpowiedzialności w dokumentacji i/lub w innych
materiałach dostarczanych wraz z kopią oprogramowania.
Bibliografia
•
[Morfeusz] Marcin Woliński, Analizator morfologiczny Morfeusz, strona internetowa
http://sgjp.pl/morfeusz/,
•
Marcn Woliński, Morfeusz — a Practical Tool for the Morphological Analysis of Polish
https://docs.google.com/viewer?a=v&q=cache:nGTQDPztndoJ:www.info.univtours.fr/~savary/Polonium/Papers/iipwm06morfeusz.pdf+&hl=en&gl=pl&pid=bl&srcid=ADGEESgMTZw7lDAhSpYNExOoSwzZrqRAnTtzNMzLebF
ECtbjrgaDHUTQS_ZuUlXPyd9X4Ap697HT43FXEBbIGPLNiLW7zc7pPBa9TJCOF0I9B23oaRvLMbHMcfV
ErijOdGBsEcZYcJ0I&sig=AHIEtbR7yQla8kGsHXHT5qpJ2RtGTOsjyw,
•
Łukasz Degórski, Wykorzystanie analizy morfologicznej do obsługi korpusów,
http://www.mimuw.edu.pl/~jsbien/Mgr/Degorski04.pdf
•
Radomir Mastalerz, Tager maksimum entropii dla jezyka polskiego,
http://webcache.googleusercontent.com/search?q=cache:qVsG8yffFQwJ:nlp.ipipan.waw.pl/~adam
p/msc/mastalerz.radomir/1000-MGR-INF-97543.pdf.gz+&cd=1&hl=en&ct=clnk&gl=pl
•
http://nlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdf,
•
http://www.ipipan.waw.pl/~wolinski/publ/znakowanie.pdf