Zastosowanie GS-modelu języka polskiego w kompleksowej

Download Report

Transcript Zastosowanie GS-modelu języka polskiego w kompleksowej

Zastosowanie GS-modelu języka
polskiego w kompleksowej
analizie tekstów
Nina Suszczańska
[email protected]
Instytut Informatyki
Politechniki Śląskiej
7.03.2005
IPI PAN Warszawa
Plan
Wiadomości ogólne o GS-modelu
Formalizm SGS
Gramatyka SGGP (dawniej GS-gramatyka)
Analiza składniowa
Analiza semantyczna
Modelowanie tekstu
Aplikacje
LAS
Thetos
Polsumm
Liana
Podsumowanie
7.03.2005
IPI PAN Warszawa
2 z 57
Wiadomości ogólne o GS-modelu (1)
Model języka
Przy budowaniu modeli języka ustala się:
skończony zbiór V (słownik języka)
gramatyka formalna (zbiór reguł – produkcji)
Sensowność formalnej gramatyki języka
naturalnego z punktu widzenia lingwistyki
Aktualne pytania:
jak odbywa się podział zdania na składowe
jakie relacje powstają przy tym podziale
7.03.2005
IPI PAN Warszawa
3 z 57
Wiadomości ogólne o GS-modelu (2)
SGS – Formalizm Systemów Grup Składniowych
1975 – A.V.Gładky: Powstanie formalizmu
Uogólnienie formalizmów:
analizy składnikowej i drzew zależności
Reprezentacja składniowa zdania: etykietowany skierowany graf:
Węzły – grupy składniowe (GS)
Krawędzie – relacja zależności
Aksjomaty: ograniczenia na topologię grafu
< G ,r >
1984 – c.d.: Rozwój formalizmu w celu modelowania języka
naturalnego
Zalety SGS
Zdolność jawnie wskazywać grupy wyrazów
Zdolność jawnie wskazywać relacje składniowe między wyrazami lub
grupami wyrazów
Przydatność do języków naturalnych, przede wszystkim o szyku
swobodnym
7.03.2005
IPI PAN Warszawa
4 z 57
Wiadomości ogólne o GS-modelu (3)
SGS na potrzeby NL:
aksjomaty Gładkiego
silny etykietowany SGS: < G
kryteria ogólne grupowania
, R , EG , ER ,  , >
GS-gramatyka NL
operacje na iloczynie kartezjańskim G x I x K x A x R
poziomy GS
typy
reguły szczegółowe
skończony zbór produkcji postaci GSL  GSP gdzie GSL i GSP są
jednostkami GS–modelu, czyli elementami słownika V
jednostki terminalne i nieterminalne
reprezentacja składniowa zdania
multigraf
problemy redukcji
Predykatywno-argumentowy model zdania
Modelowanie tekstu
7.03.2005
IPI PAN Warszawa
5 z 57
Wiadomości ogólne o GS-modelu (2)
Gramatyka SGGP – Syntactical Groups Grammar for Polish –
dawniej GS-gramatyka
Zadanie SGGP: określenie warunków grupowania GS oraz warunków
powstania relacji składniowych
SGGP operuje na skończonych zbiorach:
G – zbiór GS
Zdanie jest skończonym zbiorem Z podzbiorów słów
Niepusty podzbiór GS  Z nazywa się grupą składniową, jeżeli spełnia on aksjomaty
SGS
Słowo z atrybutami jest GS;
I – zbiór indeksów
Indeks słowa: numer porządkowy słowa w tekście
Indeks GS: nazwa typu + numer porządkowy GS danego typu
K – zbiór typów GS
A – zbiór atrybutów GS
Cechy morfo-syntaktyczne
Cechy semantyczne
Inne
zbiór atrybutów GS jest dziedziczony lub generowany
Reguły cechowania GS są częścią składową GS-gramatyki
R – zbiór relacji składniowych
Kolejność
7.03.2005
IPI PAN
Warszawa dla wyników
wykonania reguł nie jest
obojętna
6 z 57
Pojęcia podstawowe (1)
Słowo: ciąg symboli, w tym liter, cyfr, znaków interpunkcji itp.
Grupa (składniowa): ciąg wyrazów lub grup spełniający aksjomaty SGS
Element bazowy: element główny w GS, wszystkie inne elementy są
grupowane wokół bazowego (reprezentant GS)
Klasa (typ) słowa lub grupy: kategoria gramatyczna – odpowiednik
kategorii część mowy w gramatyce tradycyjnej
Wymaganie: wskazuje na warunki wykonania produkcji
Warunek: ograniczenie na wybór wymagania lub innej kategorii w
produkcji
Modyfikator (mod): jednostka GS–modelu, która zmienia lub modyfikuje
sens GS stojącej z prawej strony modyfikatora
Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i
prawej strony od  bez podporządkowania jednej grupy drugiej
Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i
prawej strony od , podporządkowując grupę z prawej grupie z lewej
strony od łącznika
Model rządu : definiuje kontekst semantyczny GS
(GS) = 0 – nie jest znany lub nie istnieje
(GS) ≠ 0 – znany i ma być brany pod uwagę przy wykonaniu produkcji
7.03.2005
IPI PAN Warszawa
7 z 57
Pojęcia podstawowe (2)
Cztery poziomy (rzędy) GS:
Zerowy – trywialny
Pierwszy
Drugi
Czwarty - funkcjonalny
Spójność
Cecha gramatyczna GS
GS spójna bierze udział w rozbiorze składniowym zdania
Definicja: GS jest spójną, jeżeli jest ona maksymalną GS rzędu
drugiego, czyli taką, która według reguł GS-gramatyki nie może być
częścią jakiejkolwiek GS poza samym zdaniem
Typ relacji między składowymi GS zależny od poziomu GS, ponadto
Relacja potencjalna (RP): relacja binarna, która może powstać
między grupami przy łączeniu ich w jedną GS
Relacja wewnętrzna (Rel): relacja binarna powstała między
elementami składowymi GS
Relacja funkcyjna (RF): relacja binarna między spójnymi GS.
Wyznacza rolę składniową danej GS w zdaniu
7.03.2005
IPI PAN Warszawa
8 z 57
GS-gramatyka c.d.
Kryteria ogólne grupowania wyrazów:
Bezwarunkowe
kryterium
kryterium
kryterium
kryterium
leksykalne: a także, r. ak., na przykład
pozycyjne: w sobotę, w wybranym języku
paradygmatyczne: będę czytał
zespolenia: usiąść, gdzie wskazano;
człowiek, do którego mówię
kryterium zestawienia: dwieście dwadzieścia dwa
Warunkowe
kryterium
kryterium
kryterium
kryterium
kryterium
7.03.2005
operatorowe: bardzo dobrze, nie zawsze
zgody: dwie dziewczynki, Jan czyta
współrzędności: obie dziewczynki i parasol
rządu: wybór kandydata na podmiot
odbudowy: wygłaszam referat
IPI PAN Warszawa
9 z 57
GS-gramatyka c.d.
Reguły szczegółowe:
Poziom GS
Typ
Struktura
Reprezentant
Własności
Cechy gramatyczne
Relacje syntaktyczne między elementami
składowymi GS
Kryterium wyróżnienia GS
7.03.2005
IPI PAN Warszawa
10 z 57
GS-gramatyka c.d. (Typy GS)
Typ GS
7.03.2005
Znaczenie
Poziom 1
Poziom 2
Spójność
*
*
*
*
AG
grupa ogólna
*
GAT
grupa atrybutywna
*
GIM
*
GL
imię
grupa liczebnika
GSP
grupa spójnika
*
*
GW
grupa wypunktowania
*
*
NG
grupa rzeczownika
*
*
*
PG
*
*
*
PS
grupa przyimka
grupa przysłówka
*
*
*
S
grupa zdania
*
*
TZL
VG
grupa trywialna złożona
grupa czasownika
*
*
*
*
*
*
ZPK
grupa interpunkcyjna
*
*
*
IPI PAN Warszawa
11 z 57
GS-gramatyka c.d.
GS trywialne (GS0)
Kryterium leksykalne
Gramatyka zadana „z góry”,
np. słownikiem
Informacja dodatkowa
reprezentant SG
cechy syntaktyczne
semantyczne (ew.)
RP = Ø
7.03.2005
IPI PAN Warszawa
12 z 57
GS-gramatyka c.d.
GS poziomu pierwszego (na przykładzie PS1)
[operator] + przysłówek
gdzie operator fakultatywny:
(1)
operator z listy modyfikatorów dla przysłówków
przysłówek z cechami gramatycznymi modyfikatora semantycznego
PS, której elementem głównym jest przysłówek z cechami
gramatycznymi jak wyżej
Warunkiem grupowania jest odpowiednia kolejność GS przy
spełnieniu jednego z ww. punktów
Lista operatorów stanowi element słownikowy
Nie każdy modyfikator może pełnić funkcję operatora dla
konkretnych klas wyrazów:
wszystko może być modyfikatorem dla czasownika
więcej — dla rzeczownika,
ale żaden z nich nie może być modyfikatorem przysłówka
RP = {modyfikacja, niegacja}
7.03.2005
IPI PAN Warszawa
13 z 57
Gramatyka
1
PS
c.d.
PS wg Kryterium współrzędności
PS1  PS2
(2)
Znak  oznacza przecinek lub jeden z spójników
szeregowych
Składowa główna nie jest wyznaczana
Reprezentantem PS złożonej może być każdy
z reprezentantów PS składowych
Relacja między PS1 i PS2 jest szereg
Warunkiem wykonania reguły (2) jest fakt posiadania
kandydatów na składowe wspólnych cech
gramatycznych
7.03.2005
IPI PAN Warszawa
14 z 57
Gramatyka
Zbiór relacji:
1
PS
c.d.
Relacja „szereg”
połączenie_przez_spójnik_-i
połączenie_przez_spójnik_-lub
połączenie_przez_spójnik_-także
uzgodnienie_przez_przecinek
Notacja: #sp_i, #sp_lub, #sp_także oraz #uzg_,
Przykład:
szybko1 i2 bezpiecznie3
PS = {1,2,3}; 1 — 3
Myślnik wskazuje na równoważność składowych PS
Wyszczególniono:
1 —#sp_i 3
7.03.2005
IPI PAN Warszawa
15 z 57
1
GS -gramatyka
c.d.
Cechy gramatyczne (atrybuty)
Cechy gramatyczne GS, w tym semantyczne,
wyznacza się jako wynik:
dziedziczenia po składowej głównej dla (1)
wykonania operacji unifikacji atrybutów składowych
szeregowych dla (2)
wykonania operacji generalizacji atrybutów składowych
szeregowych dla (2)
Operacje unifikacji i generalizacji stosowane do atrybutów
(cech) GS nie będą omawiane
7.03.2005
IPI PAN Warszawa
16 z 57
1
GS -gramatyka
c.d.
Przykłady GAT1
zbyt1 młody2
Tu G = {1,2}; 2 #mod 1
ładnie1 ozdobiona2 Tu G = {1,2}; 2 #mod 1
nie1 wystarczająco2 szybko3 przeczytany4
G1 = {1,2}; G2 = {G1,3}; G3 = {G2,4};
2#nie 1, 3#mod G1, 4#mod G2
najpotężniejszym1 i2 najstarszym3
G1 = {1,2,3}; 1 —#sp_i 3
czwartego1 ,2 piątego3 i4 dziesiątego5
G1 = {1,2,3}, G2 = { G1,4,5}; 1—#uzg_,3, G1 —#sp_i 5
7.03.2005
IPI PAN Warszawa
17 z 57
2
GS -gramatyka
Przykłady NG2
dom1 ojca2
NG = {NG1, NG2}, NG1= {1}, NG2 = {2};
NG1 #dop2 NG2;
dom1 dla2 ojca3
NG = {NG1, PG}, NG1 = {1}, PG = {2,3};
NG1 #dop PG;
7.03.2005
IPI PAN Warszawa
18 z 57
2
NG -gramatyka
c.d.
Przykład 2
Schemat wymagań [Polański] co do otoczenia dla
rzeczownika demonstracja w znaczeniu pokaz



 





 
NGd


 NGacc " przed"^ NGi 
"wobec"^ NGg

To samo w postaci komputerowej [Grund]
– NGacc+({NGd,”przed”^NGi,”wobec”^NGg})
Znak ‘–‘ oznacza rzeczownik, NGacc, NGd, NGi, NGg to są NG
odpowiednio w bierniku, celowniku, narzędniku i dopełniaczu
7.03.2005
IPI PAN Warszawa
19 z 57
GS-gramatyka c.d.
Zdanie jako GS poziomu drugiego
Grupa zdania S:
Kryterium
Kryterium
Kryterium
Kryterium
Kryterium
rządu ,
zespolenia,
współrzędności,
operatorowe
odbudowy
Elementami składowymi S są GS spójne
Rolę GS bazowej spełnia VG, która jest
korzeniem grafu struktury S, wszystkie inne
spójne GS są podrzędnymi VG
7.03.2005
IPI PAN Warszawa
20 z 57
Zdanie c.d.
Przykład
Mój1 pies2 nie3 lubi4 goździków5 .6
trzy spójne GS: NG1, NG2 i VG,
NG1 i NG2 są podrzędnymi VG:
NG1 = {1,2}, NG2 = {5}, VG ={3,4},
S = {NG1, NG2, VG};
21, 43, VG  NG1, VG  NG2;
7.03.2005
IPI PAN Warszawa
21 z 57
Zdanie c.d.
S, jak i każda inna GS, etykietowana jest
cechami gramatycznymi
indeks zdania
tryb
czas
strona itp.
Relacje w zdaniu
podmiot
orzeczenie
dopełnienia różnego rodzaju
okoliczniki
Nie wszystkie z cech gramatycznych i relacji
składniowych GS-gramatyki zgadzają się
z tradycyjnymi, ponieważ zostały wprowadzone ze
względu na przetwarzanie komputerowe
7.03.2005
IPI PAN Warszawa
22 z 57
Fragment listy relacji składniowych
Relacje
Znaczenie
#atr
atrybut
(przystawka,
oznaczenie)
#dop2
dopełnienie w
dopełniaczu
#dop4
dopełnienie w
bierniku
#niezg
niespójność
Typ argumentów
GSPoziomu1
GSPoziomu2
*
*
Funkcyjne
Relacje
*
*
*
#okolicznik
okolicznik
*
#orzeczenie
orzeczenie
*
*
#podmiot
7.03.2005
podmiot
IPI PAN Warszawa
23 z 57
Analiza składniowa
Parser Polsyn
Część składowa projektów Thetos, LAS, PolSumm,
Liana, Dialog-2
Przebieg analizy:
Tekst
Analiza
morfologiczna
7.03.2005
Analiza
składniowa
(Polsyn)
IPI PAN Warszawa
Interpretacja
semantyczna
24 z 57
Struktura zdania w SGGP
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
7.03.2005
IPI PAN Warszawa
25 z 57
GS poziomu pierwszego
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
GAT1
TZG1
7.03.2005
PG1
NG1
ZPK1
VG1
NG2 ZPK2 NG3
IPI PAN Warszawa
NG4
NG5
VG2
ZPK3
26 z 57
GS poziomu drugiego
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
GAT1
TZG1
AG1
PG1
NG1
ZPK1
PG2
AG2
VG1
VG3
NG2 ZPK2 NG3
NG6
NG5
VG2
ZPK3
VG4
AG6
AG4
[EOC]
NG7
[Anafora]
7.03.2005
NG4
IPI PAN Warszawa
NG8
NG9
[EOC]
27 z 57
Poziom funkcjonalny
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
GAT1
TZG1
AG1
PG1
NG1
ZPK1
PG2
AG2
VG1
VG3
NG2 ZPK2 NG3
NG6
7.03.2005
NG5
VG2
ZPK3
VG4
AG4
AG3
[EOC]
NG7
[Anafora]
S1
major
NG4
NG8
NG9
[EOC]
VG3
S2
IPI PAN Warszawa
VG4
28 z 57
Poziom funkcjonalny
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
GAT1
TZG1
AG1
PG1
NG1
ZPK1
PG2
AG2
VG1
VG3
NG2 ZPK2 NG3
NG6
7.03.2005
NG5
VG2
ZPK3
VG4
AG4
AG3
[EOC]
NG7
[Anafora]
S1
major
NG4
NG8
NG9
[EOC]
VG3
S2
IPI PAN Warszawa
VG4
29 z 57
Poziom funkcjonalny
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.
GAT1
TZG1
AG1
PG1
NG1
ZPK1
PG2
AG2
VG1
VG3
NG2 ZPK2 NG3
NG6
7.03.2005
NG5
VG2
ZPK3
VG4
AG4
AG3
[EOC]
NG7
[Anafora]
S1
major
NG4
NG8
NG9
[EOC]
VG3
S2
IPI PAN Warszawa
VG4
30 z 57
Anafora w SGGP
W SGGP przez anaforę rozumiemy relację nie
między pojedynczymi słowami, a między GS
W naszym przykładzie:
NG7 - anafora
NG6 - antecedent NG7
Przykłady inne:
Jej mamusia także lubiła używać tego imienia, bo
pasowało do dziewczynki.
Wtedy wybiła północ i stało się to, co zapowiedziała
wróżka.
7.03.2005
IPI PAN Warszawa
31 z 57
Analiza semantyczna (1)
Predykatywno-argumentowy model
zdania
Relacja n-arna
Zbiór relacji binarnych
Relacje wyprowadzone
Interpretacja semantyczna
7.03.2005
IPI PAN Warszawa
32 z 57
Analiza semantyczna (2)
Tablica - nie więcej niż 4 warianty rozbioru
SemSyn
z uwzględnieniem miejsc walencyjnych
Narzędzie do eliminowania niejednoznaczności
Podstawa do wyszukiwania antecedensów
Lp. Predykat Subiekt Obiekt Adresat Instrument Miejsce Czas Cel(meta) Przyczyna
0
1
2
3
W1
VG
NG1
NG2
NG3
W2
VG
NG2
NG1
NG3
4
5
6
7
8
Inne
9
W3
W4
7.03.2005
IPI PAN Warszawa
33 z 57
Modelowanie tekstu
Na potrzeby Thetosa i Polsumm
Podział zdań złożonych na pojedyncze
Rekonstrukcja strukturalnej i leksykalnej
pełni składu zdań
Anafory
Elipsy
Forma kanoniczna zdania
7.03.2005
IPI PAN Warszawa
34 z 57
Projekt Thetos
Polish Text into Sign Language Translator
Zastosowanie wyników w systemie Thetos
wersja 1 (1999 - 2001)
wersja 2 (2003 - 2005)
Część lingwistyczna
Część animacyjna
7.03.2005
IPI PAN Warszawa
35 z 57
Schemat translacji w Thetosie-2
Ogólny widok modyfikacji
input text
Linguistic subsystem
Text modeling processor
modeled input text
(in canonical form)
Text translating processor
output text (textual form
of the sign language)
Animation
subsystem
7.03.2005
animated gesture sequence
IPI PAN Warszawa
36 z 57
Schemat translacji w Thetosie-2
Procesor modelujący tekst
input text
Text modeling processor
Preliminary
linguistic
analysis
Ellipsis
reconstruction
Sentence
structure
reconstruction
Polish text
generation
modeled input text
(in canonical form)
7.03.2005
IPI PAN Warszawa
37 z 57
Schemat translacji w Thetosie-2
Procesor tłumaczący tekst
modeled input text
(in canonical form)
Text translating processor
Supplementary
linguistic
analysis
Sign language
text generation
output text (textual form
of the sign language)
7.03.2005
IPI PAN Warszawa
38 z 57
Schemat translacji w Thetosie-2
Widok ogólny
input text
Linguistic subsystem
Text modeling processor
Preliminary
linguistic
analysis
Ellipsis
reconstruction
Sentence
structure
reconstruction
Polish text
generation
modeled input text
(in canonical form)
Text translating processor
Supplementary
linguistic
analysis
Sign language
text generation
output text (textual form
of the sign language)
Animation subsystem
Gesture
animation
on the text basis
animated gesture sequence
7.03.2005
IPI PAN Warszawa
39 z 57
Anafora przy tłumaczeniu (1)
Zdania w języku miganym nie mogą być
złożone
Problemy:
Jak przekazać w języku
migowym/miganym związek anaforyczny?
Jak uzupełniać braki w zdaniach z elipsą?
Czy i w jakim stopniu w języku miganym
występują te mechanizmy językowe?
Jak przetłumaczyć elipsę na elipsę?
7.03.2005
IPI PAN Warszawa
40 z 57
Anafora przy tłumaczeniu(2)
Założenia:
antecedens – tylko w zdaniach poprzednich
tekst przekształcany „na bieżąco”
kolejne wyszukiwania – w przetworzonym tekście
Hipoteza:
schemat walencyjny jest pomocny w odnalezieniu
składowej (także w przypadku elipsy)
Problem:
ile zdań w zakresie wyszukiwania?
7.03.2005
IPI PAN Warszawa
41 z 57
Badania statystyczne
Wyliczenie zakresu przeszukiwania:
Półautomatyczne wyliczenie zakresu
7.03.2005
IPI PAN Warszawa
42 z 57
Badania statystyczne(2)
Postać raportu:
Liczba anafor: 6 (Chm-Aut)
odległość maksymalna: 3
odległość minimalna: 1
odległość średnia: 1,66
Liczba anafor: 8 (S-P1)
- odległość maksymalna: 2
- odległość minimalna: 1
- odległość średnia: 1,25
Liczba anafor: 9 (Kr.Śn.)
- odległość maksymalna: 4
- odległość minimalna: 1
- odległość średnia: 2,44
Liczba anafor: 35 (S-P2)
- odległość maksymalna: 7
- odległość minimalna: 1
- odległość średnia: 1,82
7.03.2005
IPI PAN Warszawa
43 z 57
Badania statystyczne(3)
Fragmenty tekstów:
Królewna Śnieżka – 6 KB
Kopciuszek - 3 KB
Czerwony Kapturek - 3 KB
Robinson - 6 KB
Pani Twardowska - 4 KB
Wioska - 2 KB
J. Chmielewska, Autobiografia - 1 KB
H. Sienkiewicz, Potop – 2 fragmenty
2 KB
3 KB
7.03.2005
IPI PAN Warszawa
44 z 57
Badania statystyczne (4)
Wyniki:
Anafor
w tekście
Odstęp
(w zdaniach)
7.03.2005
80%
10%
2%
0-2
3
4-8
IPI PAN Warszawa
45 z 57
Badania statystyczne (6)
Czerwony Kapturek
Dawno, dawno temu, w małym wiejskim domku, mieszkała
pewna dziewczynka, której prawdziwego imienia nikt nie
pamiętał. Dziewczynka chodziła w czerwonej pelerynce
z kapturkiem i dlatego wszyscy nazywali ją Czerwonym
Kapturkiem. Jej mamusia także lubiła używać tego imienia,
bo pasowało do dziewczynki.
Czerwony Kapturek miał babcię, która mieszkała w chatce
w lesie.
W lesie mieszkał szczwany wilk, który wielokrotnie
obserwował dziewczynkę zza drzew, gdy biegła ścieżką do
babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony
Kapturek będzie smacznym kąskiem na obiad.
7.03.2005
IPI PAN Warszawa
46 z 57
Przekształcenie tekstu
Wyniki generowania zdań
Dla zdania S1:
[NG6 VG3 AG2 PG2]
pewny dziewczynka mieszkać dawno , dawno to w mały wiejski domek
Dla zdania S2:
[NG9 VG4 NG8 NG7]
nikt pamiętać nie prawdziwy imię który
Przekształcenie tekstu:
Nowa grupa NG7’:
Zmiany strukturalne: dziewczynka - reprezentant antecedensa
(NG6) - zastępuje której (NG7)
morfo-syntaktyczne charakterystyki NG7’ dziedziczone po NG7
Nowa grupa NG8’ = NG8+NG7’
Zdanie S2 po przebudowie:
[NG9 VG4 NG8’]
nikt pamiętać nie prawdziwy imię dziewczynka
7.03.2005
IPI PAN Warszawa
47 z 57
Generowanie
W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę
zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że
Czerwony Kapturek będzie smacznym kąskiem na obiad.
Predykat dop1 dop4/dop2 dop3 dop5
5
VG85
NG159
PG37
VG86
NG160 NG161
PG38
VG87
NG163
NG164 PG39
NG166 AG69
NG167 PG40
VG88
VG89
7.03.2005
IPI PAN Warszawa
6 7 8 9
Tekst generowany
szczwany wilk
mieszkać w las
który obserwować
wielokrotnie
dziewczynka zza
drzewo
gdy biec ścieżka do
babcia
on stwierdził dziś
że czerwony kapturek
być że być że smaczny
kąsek na obiad .
48 z 57
Program PolSumm
Program streszczania tekstów
Metody statystyczne
Metody lingwistyczne
Analiza składniowa, semantyczna
Metod dominant
Wybór istotnych faktów
Metoda statystyczna
Wyszukiwanie informacji
Obliczenie unikalnej wagi dla każdego zdania
7.03.2005
IPI PAN Warszawa
49 z 57
Program PolSumm c.d.
Etapy streszczania w programie PolSumm
Analiza lingwistyczna
Wybór istotnych faktów
Generowanie tekstu streszczenia
7.03.2005
IPI PAN Warszawa
50 z 57
Serwer lingwistyczny LAS
Stanowisko badawcze
Serwer analizy lingwistycznej LAS
(Linguistics Analysis Server)
7.03.2005
IPI PAN Warszawa
51 z 57
System LIAna (1)
Opracowanie oprogramowania
wspomagającego analityka obiektowego
Opracowanie elementów metodyki LIA
(Linguistically based Information Analysis) dla
języka polskiego
algorytmy automatycznej identyfikacji kluczowych
abstrakcji:
wydzielenie kandydatów na klasy, obiekty lub atrybuty
wydzielenie kandydatów na relacje, zdarzenia lub metody
algorytmy inne:
wyszukiwanie kontekstów dla zidentyfikowanych pojęć
podejmowanie decyzji na podstawie macierzy kontekstowej
sporządzenie arkuszu roboczego analityka (tezaurus, baza
doświadczenia) itd.
7.03.2005
IPI PAN Warszawa
52 z 57
Schemat ogólny systemu Liana
Analiza lingwistyczna
Baza Tekstów
Kontekster
BD leksemów
BD kontekstów
Wyniki analizy
lingwistycznej
Procesor tablicy
kontekstów
Wizualizacja wyników
analizy lingwistycznej
Tablica
kontekstów
BD wymagań
Tworzenie arkusza
OOA/D
Wizualizacja wyników
OOA/D
(Edytory graficzne
diagramów)
Arkusz
roboczy
OOA/D
7.03.2005
IPI PAN Warszawa
53 z 57
System Liana (2)
Schemat przekształcenia
RelSyn
RelSyn
RelOOA/D
Interpretacja
semantyczna
RelOOA/D
Interpretacja semantyczna
Oparta o cechy gramatyczne
Oparta o ontologie
Opracowanie ontologii:
Wybór relacji
Opracowanie sieci pojęć
Opracowanie maszyny decyzyjnej
7.03.2005
IPI PAN Warszawa
54 z 57
Eksperyment: interpretacja
semantyczna
RelSyn: #ozn(A,B)
Przykład
A, cechy
B, cechy
Interpretacja
semantyczna
Propozycja abstrakcji
OOA/D
brak RelOOA/D:
zadaniem
programu
elementy firmy
program
zadanie
(rzecz.)
(rzecz.odsł.)
firma
element
(l.p.)
(l.mn.)
A jest obiektem
działalności B
B jest częścią A
1) B jest usługą żądaną
od A;
2) A jest argumentem
operacji B
agregacja(A,B):
BA; 1:N
brak RelOOA/D:
interwał wysyłki
plik dokumentów
7.03.2005
wysyłka
interwał
A jest atrybutem
działalności B
1) A jest zdarzeniem;
2) B jest atrybutem A
dokument
plik
B składa się z A;
A jest częścią B
agregacja(A,B):
AB; N:1
(rzecz. odsł.)
(l.mn.)
(rzecz.)
(l.p.)
IPI PAN Warszawa
55 z 57
Podsumowanie
Rozbudowano i dostosowano do potrzeb przetwarzania
języka naturalnego formalizm SGS
Opracowano:
zbiór GS-gramatyk dla różnych poziomów przetwarzania
GS-parser dla języka polskiego
algorytmy i programy analizatora semantycznego
analizy najprostszych przypadków anafor i elips
interpretacji semantycznej relacji składniowych
zasady modelowania tekstu
Opracowania znalazły zastosowanie w systemach
Thetos, PolSumm, Liana, DIALOG-2 i in.
Dziękuję za uwagę
7.03.2005
IPI PAN Warszawa
56 z 57
Bibliografia
Gładky A.V., (1985) Sintaksiczeskie struktury jestestwennogo jazyka w awtomatizirowannych sistemach obszczenija. Nauka, Moskwa
B.S. Galukshov, (1975) Grammatika Sintaksicheskich Grupp. Nauchno-technicheskaya informaciya, seriya 2, No. 1, 31--37.
Gładky A., Melczuk I., (1979) Elementy matematiczeskoj lingwistiki. Nauka, Moskwa.
Nikitin A.I., Sushchanskaya N.F., (1984) Automation of the Presemantic Analysis of Natural-language Texts, Cybernetics 20 (1): 153-160
Świdzński M., (1992) Gramatyka formalna języka polskiego. Wydawnictwa Uniwersytetu Warszawskiego, Warszawa
Sushchanska N.F., (1999) Computer grammar of syntactic groups. Cybernetics and Systems Analysis, Consultants Bureau, New York Vol. 35 (6) Nov-Dec, 987993.
Szafran K., (1996) Analizator morfologiczny SAM-95, opis użytkowy, fragment raportu z pracy realizowanej w Instytucie Informatyki Uniwersytetu
Warszawskiego, Warszawa
Tokarski J., ed: Zygmunt Saloni, (1993) Schematic Index a Tergo of Polish Words Forms, Wydawnictwo Naukowe PWN, Warszawa.
Polański K.(red.), (1980) Słownik syntaktyczno-generatywny czasowników polskich, Wyd. PAN, Warszawa-Wrocław-Katowice-Gdańsk
Grund D., (2000) Komputerowa implementacja słownika syntaktyczno-generatywnego czasowników polskich. Studia Informatica, Vol.21, No 3 (41), s. 243256.
Suszczanska N., (2000) On some universal algebras using in NL-semantics. Abstract in Atlas Mathematical Conference Abstracts (http://at.yorku.ca/cgibin/amca/caee-75). Materiały konferencji międzynarodowej AAA60: Workshop on General Algebra (60. Arbeitstagung Allgemeine Algebra), June 22 - 25, 2000,
Dresden University of Technology, Dresden, GERMANY
Szmal P., Suszczańska N. (2001) Selected Problems of Translation from the Polish Written Language to the Sign Language. Archiwum Informatyki Teoretycznej
i Stosowanej 13, 37–51
Suszczańska N., Kulików S., (2003) A Polish Document Summarizer. 21st IASTED International Conference APPLIED INFORMATICS - AI’2003, Innsbruck
Yourdon E., Argila C. (1996) Case Studies in Object-Oriented Analysis and Design, Prentice Hall/Yourdon Press,
Suszczańska N., (2003) Automatyczna identyfikacja relacji między abstrakcjami dziedziny problemu dla potrzeb analizy obiektowej. Materiały V Krajowej
Konferencji „Inżynieria Wiedzy i Systemy Ekspertowe”, czerwiec 2003, Wrocław, 319-326.
Szmal, P., Kulików, S.: Support for deaf people at Web browsing. 3rd IASTED International Conference Artificial Intelligence and Applications AIA’2003,
Benalmadena 2003, s. 13-17.
http://thetos.zo.iinf.polsl.gliwice.pl/las/
Ciura M., Grund D., Kulików S., Suszczańska N.: A System to Adapt Techniques of Text Summarizing to Polish. Proceedings of the International Conference on
Computational Intelligence, Istanbul, Turkey, 2004, s. 117-120
Bach M.: Metody konstruowania zadań wyszukiwania w bazach danych w procesie translacji zapytań sformułowanych w języku naturalnym, Rozprawa
doktorska, Gliwice 2004.
Suszczańska N., Lubiński M.: POLMORPH, Polish Language Morphological Analysis Tool, 19th IASTED Int. Conf. APPLIED INFORMATICS - AI’2001, Innsbruck
(Austria) 2001, s. 84-89.
Suszczańska N.: GS-model składni języka polskiego, Speech and Language Technology, Red. G. Demenko, M Karpiński, K. Jassem, Polskie Towarzystwo
Fonetyczne, vol. 7, Poznań 2003.
Grund D.: Biblioteka funkcji dostępu do danych słownika syntaktycznego czasowników polskich. Studia Informatica, Vol.23, No 4 (51), Gliwice 2002, s. 71-83.
7.03.2005
IPI PAN Warszawa
57 z 57