Aparat pojęciowy analizy tekstu.

Download Report

Transcript Aparat pojęciowy analizy tekstu.

2.
Wiedza o języku
Studia Podyplomowe
„Polski Język Migowy”
2014-2016
Prof. dr hab. Marek Świdziński
Zakład Językoznawstwa Komputerowego
Instytut Języka Polskiego UW
e-mail: [email protected]
Konsultacje (pok. 1): śr 14.00-15.00,
sob (w dniach zjazdów)
Strona przedmiotu — szukaj pod:
http://www.mswidz.republika.pl/
Wykład 2: Aparat pojęciowy analizy
tekstu.
2
Program
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Co to jest język naturalny?
Aparat pojęciowy analizy tekstu.
Poziomy struktury tekstu.
Podstawy morfologii.
Fleksja polska.
Elementarz składni.
Derywacja i gniazda słowotwórcze.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków.
Inne.
Przypomnienie
1.
2.
3.
4.
5.
6.
7.
Językoznawstwo – nauka empiryczna. Dział
semiologii.
Przedmiot: języki naturalne.
Znaki konwencjonalne. Opozycje. System.
Znaki proste i znaki złożone. Dwuklasowość.
Język – para <Słownik, Gramatyka>.
Populacja rodzimych użytkowników.
Komunikacyjna uniwersalność języka naturalnego.
4
Głusi jako diapora
Nie taka:
5
Głusi jako diapora
Tylko taka:
6
Modelowanie
Jak opisać język naturalny strukturalnie?
Model — urządzenie funkcjonujące jak oryginał.


Co jest tym oryginałem (= obiektem opisu)?
Umowa: JN  NS (rodzimy użytkownik).
Co modelujemy?
Kompetencję idealnego NS’a, czyli umiejętność:
a. odróżniania wyrażeń poprawnych od
niepoprawnych,
b. interpretowania ( rozumienia) wyrażeń
poprawnych,
c. wytwarzania wyrażeń poprawnych.
7
Poprawność a sensowność
•
Zdanie poprawne nie musi być sensowne:
Słowiki pokąsały nas po ołówku.
Colorless green ideas sleep furiously.
Umarł ten nieśmiertelny żonaty kawaler.
•
Wyrażenie sensowne nie musi być zdaniem
poprawnym:
* Słowikie kląskać w ogrodu.
* Kali, you is my baby...
* Kupi pan pięć kilogramy cementu.
8
Opis (= model) języka naturalnego
• Opis JN to — przy pewnych założeniach — jego
gramatyka.
• Jest konwencjonalny i arbitralny.
• Model to idealizacja:
 wyostrzenie
 uogólnienie
 uproszczenie
• Istnieje nieograniczenie wiele poprawnych modeli (=
opisów) danego JN.
9
Dane empiryczne
•
Opisywany obiekt to czarna skrzynka.
•
Językoznawca potrzebuje danych empirycznych.
Dane:



•
teksty rzeczywiste,
teksty preparowane,
sądy rodzimego użytkownika o nich.
Zbiór tekstów – korpus.
10
Korpusy tekstów
Na przykład:
•
•
•
•
•
•
•
http://korpus.pwn.pl/
http:/korpus.pl/
PELCRA
LOB Corpus
BNC (British National Corpus)
.....
http://www.let.ru.nl/corpusngt/
11
Tekst
•
Tekst – wytwór użytkownika języka: produkt
kompetencji językowej.
•
Rozróżnienie
langue – parole (F. de Saussure)
mowa – mówienie
system – tekst
12
System a tekst
System:
jeden jedyny
abstrakcyjny
zamknięty
pozaczasowy
Tekst:
jeden z bardzo wielu
dostępny zmysłom
będący elementem zbioru otwartego
zlokalizowany w czasie i przestrzeni
linearny (???)
Czy to ostatnie – wystarczająco ogólne?
13
Typologia tekstów
Teksty języka fonicznego:
•
•
•
•
•
•
•
•
•
mówione
pisane
(śpiewane)
brajlowskie
e-mailowe
sms-owe
„migane”
„palcowane”
.........
Reprezentują one odmiany diakrytyczne JN.
14
Typologia tekstów
Teksty języka wizualno-przestrzennego:
• migane
• pisane:
• a. opisy (J. Hollak, T. Jagodziński, 1879, Słownik
mimiczny dla głuchoniemych i osób z nimi
styczność mających, Warszawa: Druk i nakład
Instytutu Głuchoniemych)
• b. notacja Szczepankowskiego
• c. notacja hamburska
• d. SignWriting
• .....................
• „dotykowe”
15
Poziomy znaku
Znak ma:
• kształt (formę)
• treść (funkcję)
Składniki kształtu znaku – cegiełki nie mające znaczenia:
diakryty.
Hierarchia składników tekstu:
•
•
•
diakryty
znaki proste
znaki złożone
16
Diakryty
Diakryty języka fonicznego:
•
•
•
•
głoski, allofony, fonemy
litery, grafemy
„sześciopunkty”
.......
Ale także:
• elementy składowe „cegiełek”: piksele, krzywe,
pociągnięcia pędzla,..., cechy artykulacyjne lub
akustyczne,...
17
Diakryty
Diakryty języka wizualno-przestrzennego:
• układ dłoni i palców (handshape)
• pozycja dłoni (palm orientation)
• miejsce artykulacji (location)
• ruch (movement): jego punkt wyjścia i dojścia, kierunek,
zwrot, sposób
• zatrzymanie (hold) (?)
• ..........
18
Diakryty
Ale także:
•
•
•
•
parametry poszczególnych elementów diakrytycznych
pewne elementy niemanualne
elementy obce
................
Jaki jest status tych elementów? Czy nie mają one
znaczeń? Czy to nie są znaki?
Granica między znakiem a diakrytem – nieostra, nieogólna,
być może – nie do zdefiniowania...
19
Modelowanie języka
• Cele:
• sporządzenie listy znaków prostych
• rekonstrukcja sieci opozycji
• [w tym: ograniczeń łączliwości].
• Procedury analityczne:
• segmentacja
• strukturyzacja
20
Okaz i typ
• Jednostki tekstu (= obiekty konkretne) reprezentują
jednostki systemu (= obiekty abstrakcyjne)
JT – okaz (token), JS – typ (type).
• Jakie JS są reprezentowane przez następujące JT:
–
–
–
–
mamami, mamami, MAMAMI, mamami
kot, kota, koty
kupić, napisać, jeść
Kto przyszedł?, Umrzesz ty., Wszyscy tu wczoraj
rzygali.
21
Okaz i typ
• Jakie JS są reprezentowane przez następujące JT:
– mamami, mamami, MAMAMI, mamami
22
Okaz i typ
• słowo mamami (różnie zapisane) (1 JS) (???)
• cztery warianty słowa mamami
23
Okaz i typ
• Jakie JS są reprezentowane przez następujące JT:
– kot, kota, koty
24
Okaz i typ
• Pięć różnych form wyrazowych leksemu KOT (5 JS):
a. mianownik, pojedyncza,
b. dopełniacz, pojedyncza - lub biernik, pojedyncza
c. mianownik, mnoga – biernik, mnoga – wołacz,
mnoga
• Jeden leksem KOT (1 JS)
25
Okaz i typ
• Jakie JS są reprezentowane przez następujące JT:
– kupić, napisać, jeść
26
Okaz i typ
• Forma wyrazowa o wartości „bezokolicznik” (1 JS)
• Formy trzech leksemów (3 JS)
27
Okaz i typ
•
Jakie JS są reprezentowane przez następujące JT:
– Kto przyszedł?, Umrzesz ty., Wszyscy tu wczoraj
rzygali.
28
Okaz i typ
• Zdanie (1 JS)
• Trzy różne zdania (3 JS)
• Dwa zdania (2 JS) (O co tu chodzi???)
29
Podsumowanie
1. Językoznawca opisuje kompetencję językową NS’a,
czyli buduje model JN.
2. Opis JN to jego gramatyka.
3. Dane empiryczne: korpus tekstów.
4. Znaki mają trzy poziomy struktury: [diakryt –] znak
prosty – znak złożony.
5. Poziomy abstrakcji: okazy i typy.
30