Transcript Tekst
Wstęp do językoznawstwa synchronicznego 3003-11A1WS Filologia polska, I rok * 2014/2015 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: [email protected] Konsultacje w pok. 1: środa 14.00-15.00 Strona przedmiotu — szukaj pod: www.mswidz.republika.pl/ Program Przedmiot językoznawstwa. Cechy definicyjne języka naturalnego. Struktura języka I: słownik i morfologia. . Struktura języka II: składnia. Formalne rozumienie języka. Lingwistyka formalna i informatyczna. 6. Komunikacja językowa. 7. Podstawy leksykologii. Leksykografia. 8. Słowniki – analiza zawartości, klasyfikacja. 9. Zróżnicowanie języków świata. Podstawy typologii. 10. Typy badań lingwistycznych. 11. Kolokwium. 1. 2. 3. 4. 5. 2 Zadanka Trzy przykładowe drogowych: opozycje w zbiorze znaków 3 Zadanka (1) żółć (czteroliterowe) (2) ………. (trzyliterowe) 4 Zadanka (1) żółć (czteroliterowe) (2) łóż (trzyliterowe) (3) łżę (4) łżą (5) żąć (6) żął (7) żęć 5 Temat 2 Cechy definicyjne języka naturalnego 6 Modelowanie Jak opisać JN — strukturalnie? Model — urządzenie funkcjonujące jak oryginał. Co jest tym oryginałem (= obiektem opisu)? Umowa: JN NS. Co modelujemy? Kompetencję idealnego NS’a, czyli umiejętność: a. odróżniania wyrażeń poprawnych od niepoprawnych, b. interpretowania ( rozumienia) wyrażeń poprawnych, c. wytwarzania wyrażeń poprawnych. 7 Poprawność a sensowność • Zdanie poprawne nie musi być sensowne: • Wyrażenie sensowne nie musi być zdaniem poprawnym: 8 Poprawność a sensowność Ten kawaler ma za żonę bezdzietną matkę. • Wyrażenie sensowne nie musi być zdaniem poprawnym: 9 Poprawność a sensowność Ten kawaler ma za żonę bezdzietną matkę. • Wyrażenie sensowne nie musi być zdaniem poprawnym: *Kali nie bać tygrys. 10 Opis (= model) języka naturalnego • Opis JN to — przy pewnych założeniach — jego gramatyka. • Jest konwencjonalny i arbitralny. • Model to idealizacja: wyostrzenie uogólnienie uproszczenie • Istnieje nieograniczenie wiele poprawnych modeli (= opisów) danego JN. 11 Dane empiryczne Opisywany obiekt to czarna skrzynka. Językoznawca potrzebuje danych empirycznych. Dane: teksty rzeczywiste, teksty preparowane, sądy NS’a o nich. Zbiór tekstów – korpus. 12 Korpusy tekstów • • • • • • Jaki udział prasy w korpusie? Co to jest Poliqarp? Rozwiąż skrót! PELCRA ??? LOB Corpus Co to? Gdzie? Kiedy? BNC (British National Corpus) ..... http://korpus.pwn.pl/ http:/korpus.pl/ 13 • Polish and English Language Corpora for Research and Applications • POLyInterpretation Query And Retrieval Processor • KWIC – KeyWord In Context 14 15 16 17 18 Tekst • Tekst – wytwór NS’a: produkt kompetencji językowej. • Rozróżnienie langue – parole (F. de Saussure) mowa – mówienie system – tekst 19 System a tekst System: jeden jedyny abstrakcyjny zamknięty pozaczasowy Tekst: jeden z bardzo wielu dostępny zmysłom będący elementem zbioru otwartego zlokalizowany w czasie i przestrzeni linearny 20 Teksty i ich typologia Teksty: mówione pisane (śpiewane) brajlowskie e-mailowe sms-owe ......... Reprezentują one odmiany diakrytyczne JN. 21 Dwu-(trój-)poziomowość znaku Znak ma: • kształt (formę) • treść (funkcję) Składniki kształtu znaku – cegiełki asemantyczne: diakryty. Hierarchia składników tekstu: • • • diakryty znaki proste znaki złożone 22 Jan szuka po omacku 23 Diakryty Diakryty języka naturalnego: • • • • głoski, allofony, fonemy litery, grafemy „sześciopunkty” ....... Ale także: • elementy składowe „cegiełek”: piksele, krzywe, pociągnięcia pędzla,..., cechy artykulacyjne lub akustyczne,... 24 Zadanie empirysty: analiza tekstu • Cele: sporządzenie listy znaków prostych, rekonstrukcja sieci opozycji, [w tym ograniczeń łączliwości – dystrybucja składników]. • Procedury analityczne: segmentacja, substytucja, hipotezy analogii. 25 Okaz i typ • Jednostki tekstu (= obiekty konkretne) reprezentują jednostki systemu (= obiekty abstrakcyjne) JT – okaz (token), JS – typ (type). • Jakie JS są reprezentowane przez następujące JT: – – – – mamami, MAMAMI, mamami kot, kota, kotu kupić, napisać, jeść Kto przyszedł?, Umrzesz ty., Wszyscy tu wczoraj rzygali. 26 Badania empiryczne Empirysta • ogląda próbki (okazy) • widzi typy • opisuje typy 27 Segmentacja Jaświdziałwczorajżukazczarnymiskrzydełkami wtedyśmystanęliwpoprzekjezdni żydkarabinnosi 28 Segmentacja Jaś widział wczoraj żuka z czarnymi skrzydełkami wtedyśmy stanęli w poprzek jezdni żyd karabin nosi // żydka rabin nosi 29 Substytucja Równoważność dystrybucyjna = swobodna wymienność Polowanie na opozycję – szukanie par minimalnych. 30 Kłopoty z parami minimalnymi 1. Znaki zerowe Intuicja: STOP za pomocą lizaka opozycja <ci, co odrobili> : <ci, co nie odrobili> Suwałki : Suwałk 31 Kłopoty z parami minimalnymi Ale: Wiem, że wczoraj czytał książkę. Żeby dziś czytał książkę… Czyta po francusku. żeby, *że- *wczoraj-, *dziś-, *po- Czytał-- 32 2. Wariancja (= synomimia) Kształt1 Kształt2, ale Znaczenie1 = Znaczenie2 Ogólniej: Kształt1 Kształt2, ale Funkcja1= Funkcja2 33 (profesorz)y – (profesor)owie taksiarz – złotówa – taryfiarz - taryfa Masz czas? – Czy masz czas? Wariancja – zabezpieczenie systemu. Problem: które różnice kształtu są funkcjonalnie istotne (= relewantne)? 34 = 35 3. Neutralizacja (= honomimia, wieloznaczność, polisemia) Kształt1 = Kształt2, ale Znaczenie1 Znaczenie2 Ogólniej: Kształt1 = Kształt2, ale Funkcja1 Funkcja2 36 dziewczyny mam Strzeż kolegi ojca. Neutralizacja opozycji – defekt systemu. Wszystkie JN mają ten defekt!!! 37 Zepsuty semafor 38 http://en.wikipedia.org/wiki/Tay_Bridge_disaster 39 http://taybridgedisaster.co.uk/ 40 Hipoteza analogii Zadanie: wymyślić przykłady 41 Strukturyzacja Narysować drzewo zależności 42 Problem składników elementarnych Z czego jest zrobiony (lub: robi się) tekst: a. b. c. d. e. f. z liter, głosek lub sylab, z morfemów, ze słów, z fraz, ze zdań, z wypowiedzeń? DIAKRYTY ZNAKI 43 Nasi nowi fleciści, których wysłano na urlop, powiedzieli swemu dyrygentowi, że nie wrócą. 44 Ad a.: diakryty, czyli litery głoski sylaby 45 Tekstu nie robi się z diakrytów!!! Opis diakrytów nie należy do gramatyki. 46 Ad b.-f.: znaki Morfemy Słowa 47 Frazy o o o o a. nasi nowi fleciści, których wysłano na urlop, powiedzieli swemu dyrygentowi , że nie wrócą b. o nasi nowi fleciści o , których wysłano na urlop 48 o nasi o nowi fleciści o nowi o fleciści o których o wysłano o na urlop o na o urlop o swemu o dyrygentowi 49 Zdania nasi nowi fleciści, których wysłano na urlop, powiedzieli swemu dyrygentowi, że nie wrócą , których wysłano na urlop , że nie wrócą 50 Konstrukcje • Znak złożony to konstrukcja. • Podstawowy problem: łączliwość, czyli dystrybucja. • Dwa typy konstrukcji: - konstrukcje morfologiczne, - konstrukcje składniowe. Rekurencja. • Gramatyka JN „typu polszczyzny”: - morfologia, - składnia. 51 Konstrukcje morfologiczne Tematy: SŁOWOTWÓRSTWO Formy wyrazowe: FLEKSJA 52 Konstrukcje składniowe Frazy: SKŁADNIA Zdania: SKŁADNIA 53 Podsumowanie 1. Językoznawca opisuje kompetencję językową NS’a, czyli buduje model JN. 2. Opis JN to jego gramatyka. 3. Dane empiryczne: korpus tekstów. 4. Znaki mają trzy poziomy struktury: [diakryt –] znak prosty – znak złożony. 5. Poziomy abstrakcji: okazy i typy. 6. Rozbieżności między kształtem a znaczeniem: wariancja i neutralizacja. 7. Dwa typy konstrukcji (czyli: znaków złożonych): konstrukcje morfologiczne i konstrukcje składniowe. 8. Gramatyka języka polskiego obejmuje morfologię i składnię. 54