Korpusová lingvistika

Download Report

Transcript Korpusová lingvistika

Korpusová lingvistika (2)
Jan Radimský
FF JU České Budějovice
Korpusová lingvistika…
… samostatná lingvistická disciplína / teorie?
 ... podle některých autorů ano!
 K tomu viz zejm.: Tognini-Bonelli E.,
Corpus linguistics at work (2001)
 Rozlišuje dva přístupy k využití korpusových
dat:
 corpus based approach
 corpus driven approach
 Před četbou: malý exkurz do
metodologie vědy
Několik obecně metodologických pojmů...
 Věda
 rozumové poznání, vychází z rozvažování nebo z
pozorování jevů
 Dedukce – indukce
 Všichni lidé jsou smrtelní. Sokrates je člověk. ... ?
 Tato labuť je bílá. Všechny labutě jsou bílé.
 Princip falsifikace (K. Popper)
 verifikace: nalézt příklady, které teorii potvrzují
 falsifikace: možnost hledat příklady, které teorii
vyvracejí
 Hypoteticko-deduktivní metoda
 Proč jsou labutě bílé? (teorie)
 Mohu najít/hledat nějakou ne-bílou labuť?
Korpusová lingvistika jako teorie
 Popis - viz Elena Tognini-Bonelli (dále TB)
 Vychází z metodologických základů, které jsou
společné i mnoha dalším teoretickým popisům jazyka
 Některé aspekty dovádí do krajnosti.
 Cíle KL: popis a analýza užívání jazyka v textech
(TB, s. 2)
 Podobně je zaměřena i textová lingvistika
 Text je ale vnímán jako celek, čten horizontálně, s
cílem porozumět obsahu...
 Korpus je analyzován fragmentárně, čten vertikálně,
studují se opakované „události“ (výskyty)... (TB.,3)
Teoretické základy KL

J. Firth: kontextová teorie významu (contextual theory of
meaning)





Každý výraz je nedílnou součástí konkrétního kontextu
(jazykového, situačního): kontext je určující pro interpretaci
významu
Každá jednotka (item) se vyskytuje vždy v kontextu (context)
Kolokace (collocation) – bezprostřední kontext / okolí dané
jednotky
Koligace (colligation) – bezprostřední kontext vyjádřený jako
gramatická kategorie
Podobné myšlenky najdeme i jinde, ale s více či méně
podstatnými modifikacemi


M. Gross: jednotkou lexikálního popisu je jednoduchá věta
(protože každé slovo musí být v kontextu)
Ale tato věta může být umělá (uměle vytvořená), nemusí
pocházet z reálného textu.
TB (s. 27): ukázka kolokačního /
koligačního paradigmatu all but + X
Corpus-based approach
 Přístup, který má využívat korpus pouze k
„ilustraci“ předem známých faktů / jevů
 Z dat (korpusu) má vybírat pouze jevy,
které považuje za „správné“ (tj. v souladu s
teorií)
 Ostatní data přehlíží nebo popíše tak, aby nebyla
s teorií v rozporu
 Nezajímá se o četnost jevů
 Používá předem dané kategorie (slovní
druhy, větné členy...)
Corpus-driven approach
 Pro popis jednotek a vymezení kategorií se používá
výhradně reálný kontext: kolokace, koligace
 Opakovaný souvýskyt jednotek má dopad na
sémiotický systém
 cf. časté přívlastky slov jako žena / muž
-
[tag="A.*"] [lemma="žena"] v SYN2005
 Typické kolokace mohou souviset s konotací dané jednotky
(slova)
 Obecná pravidla se odvozují induktivně
 Neužívá se předem daná lematizace
Příklad použití corpus-driven
přístupu
 It. adjektivum bello (TB, 120)
 význam krásný
 delexikalizované významy pořádný / pěkný / úplný –
jako kvantifikátory
 Příklady
 C’è un bel rumore
 Continuammo a camminare per un bel pezzo...
 Quel rumore non era bello
 Závěry:
 Alomorfy bell’ a bel se užívají jako delexikalizované
(46% a 27% případů)
 Alomorfy belli, begli ne
 Nejde tedy o stejné paradigma
 Vaše interpretace?
Jiné využití korpusu
 Distinkce corpus driven / corpus
based je dnes překonaná
 Korpus lze využít k ověřování hypotéz
v rámci hypoteticko-deduktivní
metody