Český národní korpus

Download Report

Transcript Český národní korpus

Lucie Chlumská, Olga Richterová
ÚČNK FF UK
JTP, 19. 3. 2011
 Jazykový
korpus a jeho výhody (15 min)
 Český národní korpus, nově dostupné korpusy
 Korpusový manažer Bonito:
(15 min)
• Zopakování základních funkcí (25 min)
• Regulární výrazy a složitější dotazy (25 min)
Přestávka (20 min)
• Kolokace (20 min)
• Vytváření subkorpusů podle zadání uživatele (15 min)
 InterCorp
a jeho možnosti (30 min)
 Ostatní jazykové korpusy (BNC, COCA atd.) (10 min)
 Diskuse

Co je jazykový korpus?
• Rozsáhlý soubor počítačově uložených (elektronických) textů
 anotovaný, lemmatizovaný, označkovaný

Korpusová lingvistika:
• Samostatná vědní disciplína s vypracovanou teorií i metodologií,
nebo metoda/metodologie ve službách lingvistických teorií?

Východisko pro tvorbu korpusů - otázka preskriptivnosti a
deskriptivnosti v jazyce:
• Je třeba vydávat knihy, které předepisují, jak psát a mluvit,
nebo knihy, které stav jazyka popisují?
• dichotomie správně – špatně x škála centrum – periferie
(viz Cvrček V.: Mluvnice současné češtiny. Jak se píše a jak se mluví. Karolinum 2010
nebo http://blog.aktualne.centrum.cz/blogy/vaclav-cvrcek.php?itemid=9513)
 Problém
reprezentativnosti (co je v korpusu uloženo)
• Každý korpus je vytvářený trochu jinak
• Koncepce reprezentativnosti ČNK založena na recepci
• Opatrnosti je třeba i při používání ČNK:
- SYN2010 (http://korpus.cz/syn2010.php) a životní styl náležející
do odborné literatury (téměř 6 mil. slov, přírodní vědy cca 4 mil.)
- SYN2000 - vzestupný počet zastoupené publicistiky (1991 - 2 mil.,
1999 - 11 mil.) X SYN2010 - za každý rok stejný počet slov
 Problém
odlišných regulárních výrazů a značek (tagů)
• Základní rozdělení word – lemma – tag

Nový pohled
• Nový pohled na jazyk díky statistickému zpracování a obrovskému
množství dostupných textů
• Větší zaměření na syntagmatiku (oproti tradičnímu důrazu na
paradigmata)

Nové možnosti – korpus versus internet:
• Dohledatelné zdroje
• Citovatelný (pozor na nereferenční korpusy!)
Český národní korpus - SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010.
Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 17.03.2011,
dostupný z WWW: <http://www.korpus.cz>.
• Textový formát
• Většinou lingvisticky označkovaný (umožňuje složitější dotazy)
 1.
korpus – 60. léta v USA
• Brown Corpus, Henry Kučera a W. N. Francis, 1 mil. slov
 korpusová
velmoc – Velká Británie
• Bank of English, nyní 650 mil. slov, nakl. Cobuild
• BNC – 90. léta, 100 mil. slov, 10% mluvený jazyk
 USA
– monitorovací korpus
• COCA, COHA, prostřednictvím rozhraní i přístup k BNC
 ostatní
jazyky – Německo (DeReKo), Holandsko atd.
 ČNK (celkem ve všech korpusech asi 1,5 miliardy slov!)
 Ústav
Českého národního korpusu FF UK založen v
roce 1994
 kontinuální akademický projekt, jehož produkty
(tj. jednotlivé korpusy) mapují a monitorují různé
podoby českého jazyka, příp. i jazyků jiných
(InterCorp)
 korpusy ČNK jsou přístupné široké veřejnosti
• jedinou podmínkou je registrace a prohlášení uživatele
• co se myslí „komerčními účely“ v prohlášení
 korpusy
současné psané češtiny: SYN
 korpusy
současné mluvené češtiny: ORAL
 diachronní
korpus (14.–20. století): DIAKORP
 paralelní
korpus (nyní 22 evropských jazyků):
InterCorp
 ostatní,
specializované korpusy
SYN
 SYN2010: synchronní, psaný, 100 mil. slov
 SYN2005: synchronní, psaný, 100 mil. slov
 SYN2006PUB, SYN2009PUB:
NOVÝ!
• pouze publicistika, 300 mil. slov a 700 mil. slov

SYN: souhrn všech doposud zveřejněných synchronních
korpusů, 1,3 miliardy slov, nereferenční!
NOVÝ!
ORAL
 ORAL2006, ORAL2008: každý 1 mil. slov


nepřipravené neformální dialogické promluvy
nelemmatizované a neoznačkované!
InterCorp



paralelní korpus: základním jazykem je čeština (pivot), 72 mil. slov
složení: beletrie, Syndicate (problém směru překladu)
přibyla norština, nové texty (slovenština, němčina atd.)
KSK-Dopisy, PMK, BMK, LINK, SCHOLA2010, DOTKO
 korpus:
texty seřazeny za sebou (BEL, ODB, PUB)
 korpusový manažer: vyhledává v korpusu
Co dokáže korpusový manažer Bonito?
 vyhledání slova či slovního spojení, zobrazení kontextu
a frekvence
 funkce frekvenční distribuce
 vyhledávání kolokací (souvýskyt dvou lexémů častější
než náhodný)
 třídění pomocí negativního a pozitivního filtru
 vytváření subkorpusů (např. podle zdroj. jazyka textu)
 instalace
Bonita z
http://korpus.cz/bonito/instalace.php
 podrobný
manuál také k nalezení na
www.korpus.cz
 přihlašovací
údaje (pouze pro potřeby workshopu!):
Uživatel: seminar
Heslo:
cent
 CQL
(Corpus Query Language)
 Formát
dotazu: [atribut=“hodnota”]
• hranaté závorky zde označují jednu pozici (tedy slovo oddělené
mezerami nebo interpunkci)
• atributem může být word, lemma, tag, pos atd.
• hodnota (v uvozovkách) je to, co hledáme
 První
dotaz a první kroky s Bonitem: [word=“čupr”]
• výběr korpusu, zobrazení frekvence vyhledaného slova
• zobrazení anotace pravým klikem
• zobrazení a rozšíření kontextu (dvojklikem a šipkami nahoru a dolů
nebo kolečkem myši)
• náhodný vzorek (Menu > Zobrazení > Rozsah > Náhodných)
 Implicitní
atribut (Menu > Korpus > Implicitní atribut)

Hledáme více slov naráz:
• zmoklá slepice, kamenný obchod

Není nula jako nula! Pozor na nastavení implicitního atributu!

Není všechno zlato, co se v korpusu najde!
vyhledejme k lemmatu „pes“ v SYN2005 i genitiv
• [lemma=“pes”] –17328 výskytů
• [word=“Psa”] – 95 výskytů
• [word=“PSA”] –195 výskytů > divné > manuální kontrola (professional
service automation, továrna Peugeot, ...)
•
 zjištění
frekventovanějších variant
• Shylock x Šajlok
• Anna Karenina x Anna Kareninová
• Salzkammergut x Solná komora
 zjištění
častějšího typu skloňování
• (bez) Heineho x Heina
• Goetheho x Goethovo (dílo)
 frekvence
nesklonné varianty
• (studuje na) Yale x Yaleu


Pozice 1 - Slovní druh
A adjektivum (přídavné jméno) C numerál (číslovka, nebo číselný výraz s
číslicemi) D adverbium (příslovce) I interjekce (citoslovce) J konjunkce
(spojka) N substantivum (podstatné jméno) P pronomen (zájmeno) R
prepozice (předložka) T partikule (částice) V verbum (sloveso) X neznámý,
neurčený, neurčitelný slovní druh Z interpunkce, hranice věty


Pozice 4 - Číslo
D duál (pouze 7. pád feminin) P plurál (množné číslo) S singulár (jednotné
číslo) W pouze v kombinaci s jmenným rodem 'Q' (singulár pro feminina,
plurál pro neutra)* X libovolné číslo (P/S/D)


Pozice 5 - Pád
1 nominativ (1. pád) 2 genitiv (2. pád) 3 dativ (3. pád) 4 akuzativ (4. pád) 5
vokativ (5. pád) 6 lokativ (6. pád) 7 instrumentál (7. pád)

Klikátko: http://utkl.ff.cuni.cz/~skoumal/morfo/
 femininum
sg. 1. p.
 [tag="NNFS1.*"]
 adjektiva
odvozená od slovesného tvaru minulého
přechodníku
 [tag="AM.*"]
v SYN2010 1157 výskytů
 adverbia
předcházející výrazu červený
 [tag="D.*"][lemma="červený"]
 Co
s nimi? Jak je setřídit?
 Dotaz
zněl: [tag="D.*"][lemma="červený"] v SYN2010
 Výsledek
chceme setřídit podle lemmat
 Konkordance
> Statistiky > Frekvenční distribuce >
Atribut: lemma
 jasně, sytě, cihlově, vínově…
 Další
dotazy už s pomocí regulárních výrazů











Pozor, u různých korpusů se mohou lišit
Seznam výrazů pro Bonito je zde:
http://korpus.cz/bonito/regular.php
. = libovolný znak (p.s = pes, pás, pas, .... = všechna čtyřpísmenná slova)
* = libovolný počet opakování předchozího znaku (ps*t = pt, pst,
psst, pssst atd.)
+ = libovolný počet opakování předchozího znaku > 0 (ps+t = pst,
psst, pssst atd.)
& = a zároveň (např. [word=".*ina" & tag="N.*"] = vina, krajina, úžina,
čeština, ale i Stalina atd.)
[] = výběr ze seznamu (např. [Pp]řeklad, disku[sz]e)
| = výběr z možností (např. diskuse|diskuze)
? = žádný nebo jeden výskyt předchozího znaku/výrazu
^ = s vyloučením znaků v dané závorce
 všechny
konkordance začínající na les les.* (najde les, lesklý, lest atd.)
 lemma les
 Bože s malým nebo velkým počátečním písmenem):
[bB]ože
 Slova končící na –ink nebo –ing
 .+in[kg] (najde brífing, leasing, mítink atd.)
 infinitivy předponových sloves od nést
 .+nést
 Zde opět využijeme frekvenční distribuci

1.) V jakém kontextu se využívá hrozinka a v jakém rozinka?

(h?rozin(k|c).*) > Který pád je frekventovaný? > V jakých žánrech se výraz
vyskytuje?
Hledáme nejen v textových typech: Frekvenční distribuce > genre:
http://www.korpus.cz/bonito/anotace.php#genre
GEO - geologie
GGR - geografie
HIS - historie
HOU - domácí hospodářství
HUM - jiný z oblasti sociálních věd








2.) Je častější briefing, nebo brífink a v jakých textových typech se užívá?
Mění se užívání v čase?
[lemma = "brífink“] > jaká četnost v SYN2005 a SYN2010?
Výrazy brífink.*, brífing.* a briefing.*
Vyhledejte br(ie|í)fin.* --> najde všechny tvary
txtype: pub 38, nov 7
PUB - publicistika (noviny a neodborné časopisy)
 3.)
Jak najít všechna slovesa, po nichž může
bezprostředně následovat předmětná věta s že?
 [tag="V.*"][word=","][word="že"]
 4.)
Jak se zeptat na slovní spojení typu bez chuti a bez
zápachu – tedy „ bez + substantivum + libovolný výraz
(i třeba čárka) + bez + substantivum“? Na určitý slovní
druh se lze v tomto případě ptát pomocí [pos="N"].
 [word="bez"][pos="N"][][word="bez"][pos="N"]









Vyřazení dokladů: negativní filtr
Vyhledání vybraných: pozitivní filtr
tento nový překlad Martina Hilského
-2
-1
0
1
2
dotaz: .*zej.*
Nový dotaz: negativní filtr: zejtra
Deixe: takov.*
Chceme najít takovejchhle – pozitivní filtr
Kolikrát se vyskytuje?
A ještě expresivní výrazy: .*krk.*
negativní filtr postupně: krkem, krku, krk
 souvýskyt



dvou a více slov vyšší než náhodný
termín úzce spojený s korpusovou lingvistikou
volná kombinovatelnost v jazyce prakticky neexistuje
vyhledávání pomocí statistických měr
•
MI-score: měří sílu asociace mezi dvěma slovy (podíl
pravděpodobnosti výskytu dvou slov spolu a výskytu
každého zvlášť), vhodné pro objevení řidších
(netypičtějších) kolokací
•
t-score: míra kontrastu, vhodné pro frekventovaná a
přehlížená slova, funkční slova apod.
výhodné bývá setřídit nejprve podle absolutní a pak podle
relativní frekvence či MI-score
•
 Jaká
slovesa se spojují s výrazem dotaz?
 odpovědět, vznést, reagovat na, posílat, zaslat,
vyřizovat, zadávat, bombardovat…
 Jaká slovesa se spojují s výrazem dveře?
 zabouchnout, přibouchnout, rozrazit, zaklepat,
prásknout, zabušit, rozlétnout, pootevřít, vypáčit,
zamknout, klepat…
 adjektiva vyskytující se s výrazem ženská
 bláznivá, zatracená, báječná, pěkná, hloupá, tlustá,
divná, slušná, obyčejná, hezká, zlá…
 kolokace slovesa vznést
 námitka, obžaloba, obvinění, helikoptéra, oblak,
dotaz, požadavek, pírko, apel, protest, balon…




výhoda subkorpusu: vyhledávám jen v textech, které splňují
požadavky, které si sám zvolím
podle typu textu, roku vydání, žánru, překladatele…
Jak vytvořit subkorpus textů přeložených z cizího jazyka a
subkorpus textů původně českých?
Menu > Korpus > Vytvoření subkorpusu
• Musím mít zvolen korpus, v rámci nějž jej chci vytvořit
(SYN2010)!
• Jméno subkorpusu bez mezer
• Značka pro korpus SYN2000 je doc, pro novější opus
• Podmínka: srclang="ENG" > dostanu jen texty přeložené z AJ
• pro texty nepřeložené: srclang="" > najde jen původně české
texty
 Jak
vytvořit subkorpus typu textu básně?
• Podmínka: txtype="VER"
 Subkorpus textů z oblasti lékařství, fyziky, sportu?
• http://www.korpus.cz/n_genre2.html
• Podmínka: genre="MED", genre="PHY", genre="SPO"
 Podmínky
lze negovat pomocí !
 Subkorpus všech textů kromě publicistiky?
• Podmínka:
txtype!="PUB"
 Podmínky
lze kombinovat pomocí &
 Subkorpus všech prozaických textů z 90. let?
• Podmínka:
(txtype="NOV" | txtype="COL") & rokvyd="199."
 překladové
texty z/do češtiny
 rozhraní Park (ne Bonito), stejné přístupové heslo
jako pro ostatní korpusy ČNK
• volba jazyka/jazyků i textu/textů
• možnost vyhledávat v jednom jazyce i ve více současně
(např. překlady slova či tvaru či kontexty výskytu)
• hledání podle slovního tvaru, posloupnosti tvarů
(fráze), pomocí jazyka CQL, u některých jazyků i podle
tagu a lemmatu
• zobrazení paralelních konkordancí (zarovnáno po
větách)
• NOVĚ možnost filtrovat dotaz (v rámci věty i podle
pozic)
+ některé jazyky jsou lemmatizovány a označkovány
(možnost vyhledávat podle tagů a lemmat)
-
nepříliš velký rozsah, ale stále přibývají nové texty
+ Project Syndicate: výběr publ. článků z let 2000-2008
- bohužel nelze určit zdrojový text a překlad
- rozhraní Park zatím neumožňuje automatické
vyhledávání kolokací, funkci frekvenční distribuce atd.
+ tyto funkce lze využívat v jednojazyčných verzích v
rámci webové verze (Bonito 2):
http://www.korpus.cz/hledat_v_cnk.php
 hledáme

dojemný, k pláči, ubohé, k politování, smutné, trapný, směšný…
 co

všechno lze (?) přeložit českým (ty) vole
man, Jesus Chick, you idiot, you ass, you fucking bastard, dude,
you swine…
 kontext







české ekvivalenty anglického pathetic
a překlady slova utterly (sémantická prozodie)
u. insignificant = naprosto zanedbatelné
u. alone = zoufale osamělý
u. different = zcela jiný
u. fascinated = doslova fascinován
u. unknown = úplně neznámý
u. hopeless = nekonečně beznadějné
u. unwanted = vysloveně nechtěný
Diskuse,
nebo BNC a COCA?
 100
milionů slov, 4 žánry, i mluvený jazyk
 Dobré
rozhraní: http://corpus.byu.edu/bnc/
rozhraní – COCA (Corpus of
Contemporary American English)
 Stejné
 http://corpus.byu.edu/coca/
 400
milionů slov

kontext (KWIC)
deregister* - Tokens/hits = doklady
barevné vyznačení slov. druhů, vlevo: zdroje (žánry)

stylové zařazení
get* - Zaškrtněte „Chart“ – viz Spoken
pozor na srovnání - jen údaje „per mil“!

odvozená slova
get* - Zaškrtněte „List“ – např. Getaway

srovnání
small OR little? (následováné podst. jménem)
Zaškrtněte „Compare“, zadejte obě slova do „Words“ a v „POS“, part of
speech, vyberte noun.ALL > v kolonce „Collocates“ se objaví tag podst.
jmen [nn*]
Zaškrtněte „Sort by relevance“ a minimum „Mutual info“ 3 a 5.
Přidejte do „Collocates“ např. print
Zaškrtněte v "POS" noun.SG a omezte kontext na dvě pozice zprava a
0 zleva




 [break]
the [nn*]
KWIC je nepřehledný souhrn
náhodných dokladů
 List – seznam kolokací jako v Bonitu
 Zobrazení
 Pozor
na aktivované kolonky „Collocates“ a
„POS“ – je třeba deaktivovat