Korpusová lingvistika

Download Report

Transcript Korpusová lingvistika

Korpusová lingvistika

Jan Radimský FF JU České Budějovice

                   

Literatura

Čermák, F. (1995).

Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140.

Čermák - Klímová - Petkevič (2000).

Šulc M. (1999).

Studie z korpusové lingvistiky. Praha.

Korpusová lingvistika (první vstup). Praha.

Tognini-Bonelli E. (2001).

Corpus linguistics at work

. Amsterdam, John Benjamins.

Baker, P. – Hardie, A. – McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh.

Čermák, F. - Blatná, R. (2006).

Korpusová lingvistika: Stav a modelové přístupy. Praha.

Čermák, F. - Blatná, R. (eds.), (2005).

Jak využívat Český národní korpus. Praha.

Kol. aut. (2000).

Český národní korpus. Úvod a příručka uživatele

. Praha 2000.

Kol. aut (2007).

Průvodce českým akademickým korpusem

1.0. Praha 2007.

Kol. (2000).

Český národní korpus. Úvod a příručka uživatele. Praha.

McEnery, T. – Wilson, A.:

Corpus Linguistics . An Introduction

. Edinburgh 2001.

Kennedy G. (1998):

An Introduction to Corpus Linguistics

. Longman, London.

Oakes M.P. (1998):

Statistics for Corpus Linguistics

. Edinburgh University Press, Edinburgh.

Radimský, J. (2005). Des méthodes de vérification en linguistique

románicas: su unidad y diversidad, Praha, .

In: Čermák Petr, Tláskal Jaromír (editores):

Las lenguas

Univerzita Karlova v Praze, Filozofická fakulta, s. 178-184.

Radimský, J. (2007). Projet et construction d'un corpus des textes européens (CORTE).

MU, L 28, Brno

, s. 207-216.

Štícha, F. (1994). Čas korpusové lingvistiky

. Slovo a slovesnost, 55, s. 141-145.

Etudes romanes de Brno,

Sborník prací FF Teubert W. (ed.), (2007).

Text Corpora and Multilingual Lexicography. John Benjamins

.

Wynne Martin (ed., 2005):

Developing Linguistic Corpora: A Guide to Good Practice .

Oxford. Williams, G. (2005).

La linguistique de corpus.

Rennes, Presses universitaires de Rennes.

Chiari, I (2007),

Introduzione alla linguistica computazionale

, Laterza, Bari.

Okruhy a požadavky

5.

6.

7.

 1.

2.

3.

4.

 

Ústní zkouška

Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Přístup

corpus driven

a

corpus based

. Metodologie jazykovědného výzkumu, validita, reliabilita.

Historie korpusové lingvistiky, typologie korpusů podle různých hledisek.

Reprezentativnost korpusu; pojem

reprezentativnosti

jazykových dat.

Základní statistika v korpusu: četnost (frekvence) absolutní a relativní, srovnání četnosti. Měření souvýskytu (MI-score, T-score). Pojem „kolokace“. Tzv. "statistické" a "funkční" pojetí kolokací.

Český národní korpus, složení, možnosti výzkumu. Paralelní korpusy (Intercorp, Corte,…).

Vybrané národní korpusy (FR: Frantext, SketchEngine, Le Monde...; IJ: La Repubblica, CORIS/CODIS, ITWAC; ŠJ: CRAE, Ancora, Coser, Cluvi) Sestavování vlastního korpusu a jeho využití. Korpusové manažery (konkordanční programy). Anotace korpusu a její typy.

Prezentace vlastní korpusové rešerše Práce v semináři: nutno zaregistrovat se do ČNK a příp. dalších národních korpusů

Korpusová lingvistika… … korpus a lingvistika

KL – samostatná lingvistická disciplína / teorie? (viz další prezentace)

Korpus (v lingvistice)

 = soubor dokladů autentického užití přirozeného jazyka, materiálová základna pro výzkum (Šulc, 9)  = v dějinách lingvistiky také excerpta = sbírky lingvistického materiálu (katalogy, databáze, slovníčky, apod.)

Proč potřebuje lingvistika korpusy?

  Co je předmětem zkoumání? Jak lze jazyk zkoumat? – Závisí na zvoleném teoretickém přístupu:  langue / parole    kompetence (vs. performance) jazykovědná teorie / jazyková data zkoumaný objekt (jazyk / kompetenci) vidíme vždy pouze nepřímo Dva základní přístupy k jazykovědnému výzkumu (dané teorií):  deskriptivní lingvistika: popsat a vysvětlit pravidla, podle nichž jsou utvořeny existující texty  generativní lingvistika: vytvořit taková pravidla, aby generovala nové korektní texty (+popsat společné principy takových pravidel ve všech jazycích)

...

Z každé teorie plyne jiná výzkumná metoda!

 deskriptivista potřebuje texty, které popisuje (hledá v nich pravidla)... ověřuje na existujících textech, zda daná pravidla platí  generativista texty nepotřebuje. Pravidla generují text a jeho adekvátnost (gramatičnost) kontroluje rodilý mluvčí.

Výhody / úskalí při využití korpusu

Výhody

 Jednotlivec (rodilý mluvčí) neovládá langue jako celek  Neznalost, nevědomá korekce – přizpůsobení normě...      tomu lze předejít rozsáhlým dotazníkovým výzkumem Člověk užívá jazyk nevědomě  používáte stereotypní vsuvky typu prostě, vole, no...? Jak často?    používáte cizí slova? říkáte opravdu/vopravdu, okno/vokno? V jakých situacích a kontextech? jak se liší N s příponou –élko / -ýlko? (divadélko, světélko, křidélko, prádélko, letadélko, bidélko...) Korpus umožňuje získat údaje o frekvenci / typičnosti jevů  cf. generativistické příklady typu A farmer kills a duckling. A man walks. Korpus obsahuje reálná data Korpus umožňuje opakovatelný experiment za identických laboratorních podmínek (cf. přírodní vědy)

...

 

Nevýhody

 Korpus nikdy nebude obsahovat všechny možnosti, kontexty... určité konstrukce mohou chybět  cf. čes. klitika jsem se mu ho    lék: reprezentativnost !

V korpusu mohou být chyby...

 chyby by měly být statisticky odlišitelné od korektních konstrukcí Korpus nemůže poskytnout „záporný důkaz“  absence konstrukce v korpusu neznamená automaticky, že daná konstrukce není možná  nicméně absence jevu ve velkých korpusech je vždy signifikantní Závěr:  Přinejmenším pro deskriptivní lingvistiku a kvantitativní popis jazyka potřebujeme korpusy jako velké zdroje dat.

Korpus jako metodologický nástroj

  

Texty jako zdroje dat se ale v lingvistice používaly vždy. V čem je korpusová lingvistika jiná?

Přijmeme-li perspektivu deskriptivní lingvistiky, pak novum korpusu je jeho reprezentativnost.

Reprezentativnost = do jaké míry náš korpus odráží (reprezentuje, zastupuje) všechny promluvy všech mluvčích za všech okolností.

Reprezentativnost korpusu...

 Klíčové pojmy statistiky:

1. základní soubor populace 2. výběrový soubor vzorek angl. population fr. population angl. sample fr. échantillon

Vzorek by měl odrážet všechny vlastnosti populace ve stejném poměru.   Tj.: při náhodném výběru musí mít každý prvek populace stejnou pravděpodobnost, že bude vybrán. Udělat opravdu náhodný výběr není snadné!

...

 Paralela se sociologickým průzkumem  Jak jsou studenti FF JU spokojeni s fungováním studijního oddělení?  Jaké jsou volební preference pěti největších politických stran?   Co je v daných případech vzorek / populace?

Jaké nezávisle proměnné (faktory) mohou mít vliv na závisle proměnnou (např. zkoumanou volební preferenci)? – věk, pohlaví, vzdělání, profese...

 Čemu to odpovídá při práci s korpusem?

Reprezentativnost korpusu...

  ... závisí za zkoumaném jevu:       Jazyk románů Karla Čapka Jazyk gymnazistů z Č. Budějovic Současná žurnalistická čeština Mluvená čeština na Plzeňsku Současná čeština ...

V závislosti na zkoumaném jevu se sestavuje korpus.  Kritéria a jejich typologie – viz Šulc, s. 16-19

Seminář: povaha korpusových dat

 SN    A + N A = červený, rudý, blonďatý N = víno, pivo, armáda, střecha, vlasy, kluk  Dosazením do vzorce můžeme vygenerovat 18 syntagmat.

 Jsou všechna SN stejně přijatelná? Proč?  Jsou některé kombinace agramatické?

 Je ve všech případech kompozicionální význam? Probíhá interpretace stejně?  Museli jste u některých SN přemýšlet, co mohou označovat?

 Které kombinace asi budou / nebudou v korpusu a proč?  Zkuste odhadnout na tříčlenné škále: běžné – řídké neexistující  Co nám to říká o povaze a významu korpusových dat?

... co v korpusu ne/najdeme a proč

Pokud syntagma v korpusu nenajdeme, znamená to, že:

     Nemá korektní gramatickou strukturu (v souladu s pravidly jazyka) 

se ho mu, bíle kůň

Je špatně utvořené po sémantické stránce (Pustejovsky: semantic well-formedness): nedokážeme je korektně interpretovat (leda ve velmi speciálním kontextu) 

blonďaté víno, budova zemřela

 fr. va ici Je špatně utvořené z hlediska pragmatického (týká se spíše vět než syntagmat) 

Karlův syn je feťák a Karel nemá děti.

Je korektní, ale popisuje atypickou skutečnost 

červená tráva

Je korektní, ale objevuje se ve stylu, který není v našem korpusu zastoupen 

vsítit branku, jsem se mu ho

 Přítomnost / nepřítomnost jevu v korpusu je fakt, který je třeba interpretovat !!

... co v korpusu ne/najdeme a proč

Tipy na rozšiřující četbu:

 Oliva K., Doležalová D., O korpusu jako o zdroji jazykových dat. In: Karlík P. (ed.), Korpus jako zdroj dat o češtině. MU v Brně, 2004, s. 7-10.