Korpusová lingvistika
Download
Report
Transcript Korpusová lingvistika
Korpusová lingvistika (2)
Jan Radimský
FF JU České Budějovice
Korpusová lingvistika…
… samostatná lingvistická disciplína / teorie?
... podle některých autorů ano!
K tomu viz zejm.: Tognini-Bonelli E.,
Corpus linguistics at work (2001)
Rozlišuje dva přístupy k využití korpusových
dat:
corpus based approach
corpus driven approach
Před četbou: malý exkurz do
metodologie vědy
Několik obecně metodologických pojmů...
Věda
rozumové poznání, vychází z rozvažování nebo z
pozorování jevů
Dedukce – indukce
Všichni lidé jsou smrtelní. Sokrates je člověk. ... ?
Tato labuť je bílá. Všechny labutě jsou bílé.
Princip falsifikace (K. Popper)
verifikace: nalézt příklady, které teorii potvrzují
falsifikace: možnost hledat příklady, které teorii
vyvracejí
Hypoteticko-deduktivní metoda
Proč jsou labutě bílé? (teorie)
Mohu najít/hledat nějakou ne-bílou labuť?
Korpusová lingvistika jako teorie
Popis - viz Elena Tognini-Bonelli (dále TB)
Vychází z metodologických základů, které jsou
společné i mnoha dalším teoretickým popisům jazyka
Některé aspekty dovádí do krajnosti.
Cíle KL: popis a analýza užívání jazyka v textech
(TB, s. 2)
Podobně je zaměřena i textová lingvistika
Text je ale vnímán jako celek, čten horizontálně, s
cílem porozumět obsahu...
Korpus je analyzován fragmentárně, čten vertikálně,
studují se opakované „události“ (výskyty)... (TB.,3)
Teoretické základy KL
J. Firth: kontextová teorie významu (contextual theory of
meaning)
Každý výraz je nedílnou součástí konkrétního kontextu
(jazykového, situačního): kontext je určující pro interpretaci
významu
Každá jednotka (item) se vyskytuje vždy v kontextu (context)
Kolokace (collocation) – bezprostřední kontext / okolí dané
jednotky
Koligace (colligation) – bezprostřední kontext vyjádřený jako
gramatická kategorie
Podobné myšlenky najdeme i jinde, ale s více či méně
podstatnými modifikacemi
M. Gross: jednotkou lexikálního popisu je jednoduchá věta
(protože každé slovo musí být v kontextu)
Ale tato věta může být umělá (uměle vytvořená), nemusí
pocházet z reálného textu.
TB (s. 27): ukázka kolokačního /
koligačního paradigmatu all but + X
Corpus-based approach
Přístup, který má využívat korpus pouze k
„ilustraci“ předem známých faktů / jevů
Z dat (korpusu) má vybírat pouze jevy,
které považuje za „správné“ (tj. v souladu s
teorií)
Ostatní data přehlíží nebo popíše tak, aby nebyla
s teorií v rozporu
Nezajímá se o četnost jevů
Používá předem dané kategorie (slovní
druhy, větné členy...)
Corpus-driven approach
Pro popis jednotek a vymezení kategorií se používá
výhradně reálný kontext: kolokace, koligace
Opakovaný souvýskyt jednotek má dopad na
sémiotický systém
cf. časté přívlastky slov jako žena / muž
-
[tag="A.*"] [lemma="žena"] v SYN2005
Typické kolokace mohou souviset s konotací dané jednotky
(slova)
Obecná pravidla se odvozují induktivně
Neužívá se předem daná lematizace
Příklad použití corpus-driven
přístupu
It. adjektivum bello (TB, 120)
význam krásný
delexikalizované významy pořádný / pěkný / úplný –
jako kvantifikátory
Příklady
C’è un bel rumore
Continuammo a camminare per un bel pezzo...
Quel rumore non era bello
Závěry:
Alomorfy bell’ a bel se užívají jako delexikalizované
(46% a 27% případů)
Alomorfy belli, begli ne
Nejde tedy o stejné paradigma
Vaše interpretace?
Jiné využití korpusu
Distinkce corpus driven / corpus
based je dnes překonaná
Korpus lze využít k ověřování hypotéz
v rámci hypoteticko-deduktivní
metody