Transcript Tekst

Wstęp
do językoznawstwa
synchronicznego
3003-11A1WS
Filologia polska, I rok * 2014/2015
Prof. dr hab. Marek Świdziński
Zakład Językoznawstwa Komputerowego
Instytut Języka Polskiego UW
e-mail: [email protected]
Konsultacje w pok. 1:
środa 14.00-15.00
Strona przedmiotu — szukaj pod:
www.mswidz.republika.pl/
Program
Przedmiot językoznawstwa.
Cechy definicyjne języka naturalnego.
Struktura języka I: słownik i morfologia. .
Struktura języka II: składnia.
Formalne rozumienie języka. Lingwistyka formalna i
informatyczna.
6. Komunikacja językowa.
7. Podstawy leksykologii. Leksykografia.
8. Słowniki – analiza zawartości, klasyfikacja.
9. Zróżnicowanie języków świata. Podstawy typologii.
10. Typy badań lingwistycznych.
11. Kolokwium.
1.
2.
3.
4.
5.
2
Zadanka
Trzy
przykładowe
drogowych:
opozycje
w
zbiorze
znaków
3
Zadanka
(1) żółć
(czteroliterowe)
(2) ……….
(trzyliterowe)
4
Zadanka
(1) żółć
(czteroliterowe)
(2) łóż
(trzyliterowe)
(3) łżę
(4) łżą
(5) żąć
(6) żął
(7) żęć
5
Temat 2
Cechy definicyjne języka
naturalnego
6
Modelowanie
Jak opisać JN — strukturalnie?
Model — urządzenie funkcjonujące jak oryginał.
 Co jest tym oryginałem (= obiektem opisu)?
Umowa: JN  NS.
 Co modelujemy?
Kompetencję idealnego NS’a, czyli umiejętność:
a. odróżniania wyrażeń poprawnych od
niepoprawnych,
b. interpretowania ( rozumienia) wyrażeń
poprawnych,
c. wytwarzania wyrażeń poprawnych.
7
Poprawność a sensowność
•
Zdanie poprawne nie musi być sensowne:
•
Wyrażenie sensowne nie musi być zdaniem
poprawnym:
8
Poprawność a sensowność
Ten kawaler ma za żonę bezdzietną matkę.
•
Wyrażenie sensowne nie musi być zdaniem
poprawnym:
9
Poprawność a sensowność
Ten kawaler ma za żonę bezdzietną matkę.
•
Wyrażenie sensowne nie musi być zdaniem
poprawnym:
*Kali nie bać tygrys.
10
Opis (= model) języka naturalnego
• Opis JN to — przy pewnych założeniach — jego
gramatyka.
• Jest konwencjonalny i arbitralny.
• Model to idealizacja:
 wyostrzenie
 uogólnienie
 uproszczenie
• Istnieje nieograniczenie wiele poprawnych modeli
(= opisów) danego JN.
11
Dane empiryczne
Opisywany obiekt to czarna skrzynka.
Językoznawca potrzebuje danych
empirycznych.
Dane:
 teksty rzeczywiste,
 teksty preparowane,
 sądy NS’a o nich.
Zbiór tekstów – korpus.
12
Korpusy tekstów
•
•
•
•
•
•
Jaki udział prasy w korpusie?
Co to jest Poliqarp? Rozwiąż
skrót!
PELCRA
???
LOB Corpus
Co to? Gdzie? Kiedy?
BNC (British National Corpus)
.....
http://korpus.pwn.pl/
http:/korpus.pl/
13
• Polish and English Language Corpora for Research
and Applications
• POLyInterpretation Query And Retrieval Processor
• KWIC – KeyWord In Context
14
15
16
17
18
Tekst
•
Tekst – wytwór NS’a: produkt kompetencji
językowej.
•
Rozróżnienie
langue – parole (F. de Saussure)
mowa – mówienie
system – tekst
19
System a tekst
System:
jeden jedyny
abstrakcyjny
zamknięty
pozaczasowy
Tekst:
jeden z bardzo wielu
dostępny zmysłom
będący elementem zbioru otwartego
zlokalizowany w czasie i przestrzeni
linearny
20
Teksty i ich typologia
Teksty:
 mówione
 pisane
 (śpiewane)
 brajlowskie
 e-mailowe
 sms-owe
 .........
Reprezentują one odmiany diakrytyczne JN.
21
Dwu-(trój-)poziomowość znaku
Znak ma:
• kształt (formę)
• treść (funkcję)
Składniki kształtu znaku – cegiełki asemantyczne:
diakryty.
Hierarchia składników tekstu:
•
•
•
diakryty
znaki proste
znaki złożone
22
Jan szuka po omacku
23
Diakryty
Diakryty języka naturalnego:
•
•
•
•
głoski, allofony, fonemy
litery, grafemy
„sześciopunkty”
.......
Ale także:
• elementy składowe „cegiełek”: piksele, krzywe,
pociągnięcia pędzla,..., cechy artykulacyjne lub
akustyczne,...
24
Zadanie empirysty: analiza tekstu
• Cele:
 sporządzenie listy znaków prostych,
 rekonstrukcja sieci opozycji,
 [w tym ograniczeń łączliwości – dystrybucja
składników].
• Procedury analityczne:
 segmentacja,
 substytucja,
 hipotezy analogii.
25
Okaz i typ
• Jednostki tekstu (= obiekty konkretne) reprezentują
jednostki systemu (= obiekty abstrakcyjne)
JT – okaz (token), JS – typ (type).
• Jakie JS są reprezentowane przez następujące JT:
–
–
–
–
mamami, MAMAMI, mamami
kot, kota, kotu
kupić, napisać, jeść
Kto przyszedł?, Umrzesz ty., Wszyscy
tu wczoraj rzygali.
26
Badania empiryczne
Empirysta
• ogląda próbki (okazy)
• widzi typy
• opisuje typy
27
Segmentacja
Jaświdziałwczorajżukazczarnymiskrzydełkami
wtedyśmystanęliwpoprzekjezdni
żydkarabinnosi
28
Segmentacja
Jaś widział wczoraj żuka z czarnymi skrzydełkami
wtedyśmy stanęli w poprzek jezdni
żyd karabin nosi // żydka rabin nosi
29
Substytucja
Równoważność dystrybucyjna =
swobodna wymienność
Polowanie na opozycję – szukanie
par minimalnych.
30
Kłopoty z parami minimalnymi
1. Znaki zerowe
Intuicja:
 STOP za pomocą lizaka
 opozycja <ci, co odrobili> : <ci, co nie odrobili>
 Suwałki : Suwałk
31
Kłopoty z parami minimalnymi

Ale:
Wiem, że wczoraj czytał książkę.
Żeby dziś czytał książkę…
Czyta po francusku.
 żeby, *że-
 *wczoraj-, *dziś-, *po-
 Czytał--
32
2. Wariancja (= synomimia)
Kształt1  Kształt2, ale Znaczenie1 = Znaczenie2
Ogólniej:
Kształt1  Kształt2, ale Funkcja1= Funkcja2
33
(profesorz)y – (profesor)owie
taksiarz – złotówa – taryfiarz - taryfa
Masz czas? – Czy masz czas?
Wariancja – zabezpieczenie systemu.
Problem: które różnice kształtu są funkcjonalnie
istotne (= relewantne)?
34
=
35
3. Neutralizacja (= honomimia, wieloznaczność,
polisemia)
Kształt1 = Kształt2, ale Znaczenie1  Znaczenie2
Ogólniej:
Kształt1 = Kształt2, ale Funkcja1  Funkcja2
36
dziewczyny
mam
Strzeż kolegi ojca.
Neutralizacja opozycji – defekt systemu.
Wszystkie JN mają ten defekt!!!
37
Zepsuty semafor
38
http://en.wikipedia.org/wiki/Tay_Bridge_disaster
39
http://taybridgedisaster.co.uk/
40
Hipoteza analogii
Zadanie: wymyślić przykłady
41
Strukturyzacja
Narysować drzewo zależności
42
Problem składników elementarnych
Z czego jest zrobiony (lub: robi się) tekst:
a.
b.
c.
d.
e.
f.
z liter, głosek lub sylab,
z morfemów,
ze słów,
z fraz,
ze zdań,
z wypowiedzeń?
DIAKRYTY
ZNAKI
43
Nasi nowi fleciści, których wysłano na urlop,
powiedzieli swemu dyrygentowi, że nie
wrócą.
44
Ad a.: diakryty, czyli
litery
głoski
sylaby
45
Tekstu nie robi się z diakrytów!!!
Opis diakrytów nie należy do
gramatyki.
46
Ad b.-f.: znaki
Morfemy
Słowa
47
Frazy
o
o
o
o
a.
nasi nowi fleciści, których wysłano na urlop,
powiedzieli
swemu dyrygentowi
, że nie wrócą
b.
o nasi nowi fleciści
o , których wysłano na urlop
48
o nasi
o nowi fleciści
o nowi
o fleciści
o których
o wysłano
o na urlop
o na
o urlop
o swemu
o dyrygentowi
49
Zdania
 nasi nowi fleciści, których wysłano na urlop,
powiedzieli swemu dyrygentowi, że nie wrócą
 , których wysłano na urlop
 , że nie wrócą
50
Konstrukcje
• Znak złożony to konstrukcja.
• Podstawowy problem: łączliwość, czyli dystrybucja.
• Dwa typy konstrukcji:
- konstrukcje morfologiczne,
- konstrukcje składniowe. Rekurencja.
• Gramatyka JN „typu polszczyzny”:
- morfologia,
- składnia.
51
Konstrukcje morfologiczne
Tematy:
SŁOWOTWÓRSTWO
Formy wyrazowe:
FLEKSJA
52
Konstrukcje składniowe
Frazy:
SKŁADNIA
Zdania:
SKŁADNIA
53
Podsumowanie
1. Językoznawca opisuje kompetencję językową NS’a,
czyli buduje model JN.
2. Opis JN to jego gramatyka.
3. Dane empiryczne: korpus tekstów.
4. Znaki mają trzy poziomy struktury: [diakryt –] znak
prosty – znak złożony.
5. Poziomy abstrakcji: okazy i typy.
6. Rozbieżności między kształtem a znaczeniem:
wariancja i neutralizacja.
7. Dwa typy konstrukcji (czyli: znaków złożonych):
konstrukcje morfologiczne i konstrukcje składniowe.
8. Gramatyka języka polskiego obejmuje morfologię i
składnię.
54