prof. Dr. Karel Kučera, CSc.

Download Report

Transcript prof. Dr. Karel Kučera, CSc.

Slide 1

JAZYKOVÁ INFRASTRUKTURA
Ústav
Českého národního korpusu
Filozofická fakulta UK
Praha


Slide 2

CÍLE ČINNOSTI
 trvalé a kontinuální mapování vývoje jazyka jako
základu lidské komunikace a nositele naprosté většiny
sdělovaných informací
 získávání a technické zpracování jazykových dat pro
potřeby základního i aplikovaného výzkumu a vývoje v
oblasti lingvistiky a dalších oborů
 zveřejňování zpracovaných jazykových dat pomocí
strukturovaných souborů (korpusů) odrážejících co
nejvěrněji jednotlivé stavy jazyka a umožňujících co
nejvšestrannější přístup k informacím
 vývoj a zdokonalování nástrojů pro zpracování,
analýzu a zpřístupňování korpusových dat


Slide 3

ZAPOJENÍ INFRASTRUKTURY


zapojení do projektu CLARIN zaměřeného na budování
celoevropské infrastruktury výzkumu a vývoje v oblasti
jazykových technologií a zdrojů



spolupráce s domácími specializovanými pracovišti (Ústav
formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU
Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk
český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP
Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav
teoretické a komputační lingvistiky FF UK aj.)



spolupráce s obdobnými infrastrukturními pracovišti v
zahraničí (zejména University of Birmingham; Jazykovedný
ústav Ľ. Štúra SAV; Österreichische Akademie der
Wissenschaften; Institut für Deutsche Sprache Mannheim;
Filologická fakulta Státní univerzity St. Petěrburg;
Matematický a komputační institut, Lotyšská univerzita Riga
aj.)


Slide 4

VÝSLEDKY ČINNOSTI
 synchronní korpusy zachycující
soudobou češtinu psanou i mluvenou

 diachronní korpusy zachycující češtinu
psaných textů v historickém vývoji od
konce 13. stol.
 paralelní korpusy v současné době
zachycující češtinu v překladových
paralelách s 19 jazyky


Slide 5

KONKRÉTNÍ VÝSTUPY

(v rámci výzkumných záměrů MŠMT)
 synchronní korpusy psaného jazyka SYN2000,
SYN2005, SYN2006pub (publicistické texty)
zachycující češtinu po roce 1989 a poskytující
uživatelům bezplatný přístup k datům o celkovém
rozsahu přes 500 milionů slov.
 diachronní korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 1 700 000 slov)
 mluvený korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 2 000 000 slov)
 paralelní korpusy (kontinuálně budované, současný
celkový rozsah 20 000 000 slov)
Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp


Slide 6

KONKRÉTNÍ VÝSTUPY

(v rámci výzkumných záměrů MŠMT)
 Monografie a studie vzniklé na základě vybudovaných
korpusů publikované mj. ve dvou edičních řadách
Nakladatelství Lidové noviny (vydáno 7 svazků).


Slide 7

APLIKACE


Frekvenční slovník češtiny
(Nakladatelství Lidové noviny 2004)



Frekvenční slovník mluvené češtiny
(Karolinum, Univerzita Karlova 2007)



Slovník Karla Čapka (Nakladatelství
Lidové noviny 2007)


Slide 8

SOUČASNÉ VYUŽITÍ
S korpusy jako základními výsledky činnosti
infrastruktury v současné době pracuje
 přibližně 1700 registrovaných domácích uživatelů
(lingvistů, literárních vědců a studentů
filologických oborů, kulturologů, historiků,
překladatelů, neurologů, redaktorů, právníků aj.)
 přibližně 300 registrovaných zahraničních
bohemistů a lingvistů, včetně studentů
slavistických oborů


Slide 9

PERSPEKTIVNÍ VYUŽITÍ
 vznik dvoudílné Mluvnice současné češtiny na
korpusovém základě (Ústav Českého národního
korpusu ve spolupráci s Ústavem formální a aplikované
lingvistiky MFF UK; plánované vydání 2009)

 vznik nového slovníku a akademické mluvnice češtiny
na korpusovém základě (plánováno v Ústavu pro jazyk
český AV ČR)
 v delším časovém výhledu vznik překladových slovníků
nového typu (na základě reálných překladových
ekvivalentů identifikovaných v paralelních korpusech)


Slide 10

PLÁNOVANÉ APLIKACE


Regulace jazyka a koncept minimální intervence (V. Cvrček,
Nakladatelství Lidové noviny 2008)



Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T.
Bartoň, Nakladatelství Lidové noviny 2009)



Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové
noviny 2009)



Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny
2009)



Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství
Lidové noviny 2009)



Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství
Lidové noviny 2010)



Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny
2010)



Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,
Nakladatelství Lidové noviny 2011)