Transcript Podstawy morfologii.
4
.
Wiedza o języku
Studia Podyplomowe „Polski Język Migowy” 2014-2016
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail:
Konsultacje (pok. 1): śr 14.00-15.00, sob (w dniach zjazdów)
Strona przedmiotu — szukaj pod:
http://www.mswidz.republika.pl/
Program
1.
2.
Co to jest język naturalny?
Aparat poj ęciowy analizy tekstu.
3.
4.
5.
6.
7.
8.
9.
10.
Poziomy struktury tekstu.
Podstawy morfologii.
Derywacja i gniazda s Fleksja polska. Elementarz sk ładni.
11. Inne. łowotwórcze.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków.
Program
1.
2.
3.
4.
Co to jest język naturalny?
Aparat pojęciowy analizy tekstu.
Poziomy struktury tekstu. Podstawy morfologii.
5.
6.
7.
8.
9.
10.
Fleksja polska. Elementarz składni.
Derywacja i gniazda s łowotwórcze.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków. 11. Inne.
Wykład 4:
Podstawy morfologii
Przypomnienie
1.
2.
3.
Główne zadanie lingwisty: szukanie opozycji.
Rozbieżności między kształtem a znaczeniem: znak zerowy, wariancja i neutralizacja.
Dwa typy konstrukcji (czyli: znaków złożonych): konstrukcje morfologiczne i konstrukcje składniowe.
4. Frazy a zdania.
5.
6.
Gramatyka języka polskiego obejmuje morfologię (słowotwórstwo i fleksję) oraz składnię. Diakryty nie należą do gramatyki!
Języki wizualno-przestrzenne to pewien typ języka naturalnego.
5
Znajomość języka
Iksiński zna język A:
A.
B.
C.
zna słówka (
SUROWIEC
), umie rozbierać wyrażenia (
ANALIZA
), umie łączyć słówka w wyrażenia (
SYNTEZA
).
Co to jest znajomość czynna / bierna?
Jak szacować stopień znajomości?
Różne kombinacje A.-C.
6
Dwie gramatyki?
Składniki kompetencji językowej A.
B.
C.
słownik
,
gramatyka, gramatyka.
Jedna gramatyka – czy dwie gramatyki?
7
Analiza tekstu obcego
Łacina:
ARMAVIRUMQUECANOTROIAEQUIPRIMUS ABORISITALIAMFATOPROFUGUSLAVINAQUE VENITLITORA
Arma virumque cano, Troiae qui primus ab oris Italiam, fato profugus, Lavinaque venit litora
‘czyny męża-i, Troi który pierwszy od wybrzeży do-Italii, losem miotany, lawińskich-i przybył brzegów’ Opiewam czyny męża, który pierwszy od brzegów Troi, miotany przez los, przybył do Italii i wybrzeży Lawinium.
8
Angielski:
Analiza tekstu obcego
Our Father who art in heaven, hallowed be thy name. Thy kingdom come. Thy will be done on earth, as it is in heaven. Give us this day our daily bread, and forgive us our trespasses, as we forgive those who trespass against us, and lead us not into temptation, but deliver us from evil.
9
Analiza tekstu obcego
Nasz Ojcze, który jesteś w niebie, niech się święci Twoje imię, niech nadejdzie Twoje królestwo, Niech Twoja wola się wypełni na ziemi, tak jak w niebie.
Daj nam w tym dniu naszego codziennego chleba i wybacz nam nasze przewiny, tak jak my wybaczamy tym, którzy działają przeciwko nam I prowadź nas nie do pokus, tylko wybaw nas od zła. 10
Analiza tekstu obcego
Koreański:
anna-nun ku-eykey pyenci-lul sey-pen-ul ponay-ess-ta.
‘Anna-TOP on-dla list-OB trzy-raz-OB wysłać-PRZE-OZN’ Anna to mu trzy razy list wysłała.
11
Analiza tekstu obcego
Polski:
Goście są zachwyceni urodą ich najmłodszych córek.
12
Lematyzacja
Szukanie słówek w słowniku
Arma virumque cano Troiae qui primus ab oris Italiam fato profugus Lavinaque venit litora
virumque => VIR
‘mężczyzna’
Italiam => ITALIA
‘Italia’
venit => VENIO
‘przybywa(ć)’ 13
Lematyzacja
Our Father who art in heaven, hallowed be thy name. Thy kingdom come. Thy will be done on earth, as it is in heaven. Give us this day our daily bread, and forgive us our trespasses, as we forgive those who trespass against us, and lead us not into temptation, but deliver us from evil.
art => BE
‘być’
thy => THOU
‘ty’, ‘twój’
trespasses => TRESPASS
‘wina’ 14
Lematyzacja
anna-nun ku-eykey pyenci-lul sey-pen-ul ponay-ess ta.
anna => ANNA ku => KU
‘on’ ’Anna’
ponay => PONAY ul => UL
‘trzy’ ‘wysłać’ 15
Lematyzacja
Polski:
Goście są zachwyceni urodą ich najmłodszych córek.
goście => GOŚĆ są => BYĆ
zachwyceni
=> ZACHWYCIĆ // ZACHWYCONY urodą => URODA ich => ONI // ONE najmłodszych => MŁODY córek => CÓRKA
16
Słowa a znaki proste
Wnioski:
• • • • Słownik
nie jest
zbiorem słów wypisanych z tekstu.
Słowa są upakowane JN w świecie.
W LEKSEMY
(= hasła słownikowe). Dotyczy to przytłaczającej większości
A jak jest w PJM?
Słowa
nie są
najprostszymi znakami.
– W gramatyce większości języków świata są reguły: budowy słów (MORFOLOGIA) – budowy wyrażeń (SKŁADNIA).
17
Punkt wyjścia: morfemy
„Słownik” morfemów: M =
{
-ank-, ą, -czyta-, dyskretn-, dziś, -ent-, -i, -nik-, urzęd-, -ł-, od, -ość-, prze-, -y, -ów, stud-, wiadom-, -
}
Konstrukcje morfologiczne
o o
Surowiec: Produkt:
morfemy, konstrukcje morfologiczne.
słowa.
18
Konstrukcje morfologiczne
Poprawne:
studentki przeczyta ły dyskretn ą wiadomo ść urzędników
Dewiacyjne:
*studentanki *czyta łk *dyskretn *przewiadomo śćą urzędów
(przypadkiem poprawne...) 19
Gramatyka słów
Gramatyka słów:
morfologia
.
Są języki, dla których
Gramatyka = Morfologia
20
Punkt wyjścia: słowa
„Słownik” słów:
S = {
dyskretn ą, dziś, przeczytały, urzędników, od, studentki, wiadomo ść
}
Konstrukcje składniowe
o o
Surowiec:
słowa, konstrukcje składniowe.
Produkt:
wyrażenia (frazy lub zdania).
21
• • •
Konstrukcje składniowe
Poprawne:
Studentki przeczyta ły dziś dyskretną wiadomo ść od urzędników.
Dyskretn ą od urzędników wiadomość studentki dzi ś przeczytały.
Przeczyta ły dziś od urzędników wiadomość dyskretn ą studentki.
Dewiacyjne:
*Studentki wiadomo ść dziś od dyskretną urzędników przeczytały.
22
Gramatyka wyrażeń
Gramatyka wyrażeń:
składnia .
Są języki, dla których
Gramatyka = Składnia
.
23
Języki wysoce fleksyjne
• • Gramatyka języka
typu polszczyzny
obejmuje: •
morfologię składnię
.
i Polski — język
wysoce fleksyjny
inflected language
).
(HIL =
highly
Słowa polskie przeważnie
nie są
znakami prostymi.
24
Słowo, forma wyrazowa, leksem
Co to znaczy słowo?
Ile słów
mamy
mamy poniższym zdaniu:
Mamy mamy , drogie mamy , m łodsze od niejednej mamy , ale mamy lubi ą wasze mamy .
Odpowiedzi: 6 - 5 - 4 - 3 - 2 - 1 - 0...
25
Słowo, forma wyrazowa, leksem
Rozróżnienia:
a. jednostki
konkretnej
(fizycznego wyst ąpienia pewnego obiektu) i jednostki
abstrakcyjnej
— klasy wyst ąpień; [ang.
token
— type
] b. jednostki
niezinterpretowanej zinterpretowanej
. i jednostki 26
• • •
Słowo, forma wyrazowa, leksem
s łowo
— napis między spacjami lub znakami interpunkcyjnymi;
forma wyrazowa
— słowo z interpretacją gramatyczn ą (część mowy, ewentualne wartości kategorii fleksyjnych, ewentualnie nazwa jednostki s łownikowej);
leksem
— zbiór form wyrazowych o tym samym odniesieniu do rzeczywisto ści (i o podobnym kszta łcie).
27
Słowo, forma wyrazowa, leksem
Słowo
mamy
reprezentuje 5 form wyrazowych: (a) czasownikow ą o wartości pierwszej osoby liczby mnogiej czasu teraźniejszego (
mamy
(1os,mno,ter) ) (b) rzeczownikową o wartości dopełniacza liczby pojedynczej (
mamy
(dop,poj) ); (c) rzeczownikowa o wartości mianownika liczby mnogiej (
mamy
(mian,mno) ); (d) rzeczownikowa o wartości biernika liczby mnogiej (
mamy
(bier,mno ) ); (e) rzeczownikowa o wartości wołacza liczby mnogiej (
mamy
(woł,mno) ).
28
• • • • • •
Słowo, forma wyrazowa, leksem
S łowa typu
mamy
— problem PJM ?
homonimy
. Czy jest to Rozwiązywanie wszelkiej homonimii:
dehomonimizacja .
LEKSEM
hasło słownikowe.
Odgadywanie leksemu:
lematyzacja .
SŁOWNIK
( składnik systemu językowego): zbiór form wyrazowych.
LEKSYKON
(kompendium): zbiór leksemów (a więc — zbiór zbiorów form wyrazowych).
29
Operacje na słowach
student => student => czytał => czytał => studenta, studentowi,..., studenci, studentów,..., studentach,...
studentka, studencik, studencki, studenteria, studentowaty, arcystudent, niestudent,...
czytałem, czytałam, czytałom, czytałeś,..., czytam, czytasz, czyta,..., czytaj,..., czytano,.., czytać, czytając,...
doczytał, odczytał, poczytał, przeczytał, sczytał, zaczytał,..., czytywał, doczytywał, odczytywał,...
30
Operacje na słowach
A tak naprawdę: STUDENT == {student, studenta, studentowi,...,
studenci, studentów,..., studentach,...}
STUDENT => STUDENTKA, STUDENCIK, STUDENCKI, STUDENTERIA, STUDENTOWATY, ARCYSTUDENT, NIESTUDENT,...
31
Operacje na słowach
CZYTAĆ== {czytałem, czytałam, czytałom,
czytałeś,..., czytam, czytasz, czyta,...,
czytaj,..., czytano,.., czytać, czytając,...} CZYTAĆ => DOCZYTAĆ, ODCZYTAĆ, POCZYTAĆ, PRZECZYTAĆ, SCZYTAĆ, ZACZYTAĆ,..., CZYTYWAĆ, DOCZYTYWAĆ, ODCZYTYWAĆ,...
32
Operacje na słowach
DYSKRETNY == {dyskretny, dyskretna, dyskretne,
dyskretnego, dyskretnej, dyskretnego, dyskretnemu, dyskretnej, dyskretnemu,..., dyskretni, dyskretne, dyskretnych, dyskretnym,..., dyskretniejszy,...,
najdyskretniejszy,...} DYSKRETNY
=>
NIEDYSKRETNY, PRZEDYSKRETNY,..., DYSKRECJA,..., DYSKRECJONALNY,...
33
Słowotwórstwo
Problem słowotwórstwa
Dwa typy leksemów:
Typ A:
STUDENTKA, PRZECZYTAĆ, WIADOMOŚĆ, URZĘDNIK
Typ B:
DZIŚ, DYSKRETNY, OD Typ A.:
podzielne słowotwórczo
(derywaty). Typ B.: niepodzielne słowotwórczo.
34
Dwie morfologie
Niebieskie: Fioletowe: fleksja słowotwórstwo (derywacja)
35
Dwie morfologie
Morfologia – zbiór reguł, które robią:
• • słowa z morfemów
FLEKSJA
leksemy z leksemów
SŁOWOTWÓRSTWO
Słowotwórstwo
– słabo gramatyczne
.
36
Morfologia wizualno-przestrzenna
• • •
W językach wizualno-przestrzennych – morfologia silnie rozwinięta.
PJM ma bogate słowotwórstwo.
Na następnym wykładzie – podstawy słowotwórstwa. I konkurs dla Was...
37
Podsumowanie
1.
2.
3.
Znajomość języka A: znajomość słówek i reguł budowy / rozbioru wyrażeń.
Słownik to zbiór leksemów (= haseł słownikowych).
Dla „słownika” morfemów – gramatyka słów: 4.
morfologia.
Dla „słownika” słów – gramatyka wyrażeń: składnia.
5. Polski – język wysoce fleksyjny (HIL =
H
ighly 6.
7.
I
nflected
L
anguage).
Terminy: słowo – forma wyrazowa – leksem.
Słowotwórstwo jest w niewielkim stopniu gramatyczne.
38