prof. Dr. Karel Kučera, CSc.

Transcript prof. Dr. Karel Kučera, CSc.

Slide 1

JAZYKOVÁ INFRASTRUKTURA
Ústav
Českého národního korpusu
Filozofická fakulta UK
Praha

Slide 2

CÍLE ČINNOSTI
 trvalé a kontinuální mapování vývoje jazyka jako
základu lidské komunikace a nositele naprosté většiny
sdělovaných informací
 získávání a technické zpracování jazykových dat pro
potřeby základního i aplikovaného výzkumu a vývoje v
oblasti lingvistiky a dalších oborů
 zveřejňování zpracovaných jazykových dat pomocí
strukturovaných souborů (korpusů) odrážejících co
nejvěrněji jednotlivé stavy jazyka a umožňujících co
nejvšestrannější přístup k informacím
 vývoj a zdokonalování nástrojů pro zpracování,
analýzu a zpřístupňování korpusových dat

Slide 3

ZAPOJENÍ INFRASTRUKTURY


zapojení do projektu CLARIN zaměřeného na budování
celoevropské infrastruktury výzkumu a vývoje v oblasti
jazykových technologií a zdrojů



spolupráce s domácími specializovanými pracovišti (Ústav
formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU
Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk
český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP
Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav
teoretické a komputační lingvistiky FF UK aj.)



spolupráce s obdobnými infrastrukturními pracovišti v
zahraničí (zejména University of Birmingham; Jazykovedný
ústav Ľ. Štúra SAV; Österreichische Akademie der
Wissenschaften; Institut für Deutsche Sprache Mannheim;
Filologická fakulta Státní univerzity St. Petěrburg;
Matematický a komputační institut, Lotyšská univerzita Riga
aj.)

Slide 4

VÝSLEDKY ČINNOSTI
 synchronní korpusy zachycující
soudobou češtinu psanou i mluvenou

 diachronní korpusy zachycující češtinu
psaných textů v historickém vývoji od
konce 13. stol.
 paralelní korpusy v současné době
zachycující češtinu v překladových
paralelách s 19 jazyky

Slide 5

KONKRÉTNÍ VÝSTUPY

(v rámci výzkumných záměrů MŠMT)
 synchronní korpusy psaného jazyka SYN2000,
SYN2005, SYN2006pub (publicistické texty)
zachycující češtinu po roce 1989 a poskytující
uživatelům bezplatný přístup k datům o celkovém
rozsahu přes 500 milionů slov.
 diachronní korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 1 700 000 slov)
 mluvený korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 2 000 000 slov)
 paralelní korpusy (kontinuálně budované, současný
celkový rozsah 20 000 000 slov)
Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp

Slide 6

KONKRÉTNÍ VÝSTUPY

(v rámci výzkumných záměrů MŠMT)
 Monografie a studie vzniklé na základě vybudovaných
korpusů publikované mj. ve dvou edičních řadách
Nakladatelství Lidové noviny (vydáno 7 svazků).

Slide 7

APLIKACE


Frekvenční slovník češtiny
(Nakladatelství Lidové noviny 2004)



Frekvenční slovník mluvené češtiny
(Karolinum, Univerzita Karlova 2007)



Slovník Karla Čapka (Nakladatelství
Lidové noviny 2007)

Slide 8

SOUČASNÉ VYUŽITÍ
S korpusy jako základními výsledky činnosti
infrastruktury v současné době pracuje
 přibližně 1700 registrovaných domácích uživatelů
(lingvistů, literárních vědců a studentů
filologických oborů, kulturologů, historiků,
překladatelů, neurologů, redaktorů, právníků aj.)
 přibližně 300 registrovaných zahraničních
bohemistů a lingvistů, včetně studentů
slavistických oborů

Slide 9

PERSPEKTIVNÍ VYUŽITÍ
 vznik dvoudílné Mluvnice současné češtiny na
korpusovém základě (Ústav Českého národního
korpusu ve spolupráci s Ústavem formální a aplikované
lingvistiky MFF UK; plánované vydání 2009)

 vznik nového slovníku a akademické mluvnice češtiny
na korpusovém základě (plánováno v Ústavu pro jazyk
český AV ČR)
 v delším časovém výhledu vznik překladových slovníků
nového typu (na základě reálných překladových
ekvivalentů identifikovaných v paralelních korpusech)

Slide 10

PLÁNOVANÉ APLIKACE


Regulace jazyka a koncept minimální intervence (V. Cvrček,
Nakladatelství Lidové noviny 2008)



Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T.
Bartoň, Nakladatelství Lidové noviny 2009)



Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové
noviny 2009)



Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny
2009)



Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství
Lidové noviny 2009)



Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství
Lidové noviny 2010)



Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny
2010)



Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,
Nakladatelství Lidové noviny 2011)

prof. Dr. Karel Kučera, CSc.

Transcript prof. Dr. Karel Kučera, CSc.

Directory