Transcript prof. Dr. Karel Kučera, CSc.
Slide 1
JAZYKOVÁ INFRASTRUKTURA
Ústav
Českého národního korpusu
Filozofická fakulta UK
Praha
Slide 2
CÍLE ČINNOSTI
trvalé a kontinuální mapování vývoje jazyka jako
základu lidské komunikace a nositele naprosté většiny
sdělovaných informací
získávání a technické zpracování jazykových dat pro
potřeby základního i aplikovaného výzkumu a vývoje v
oblasti lingvistiky a dalších oborů
zveřejňování zpracovaných jazykových dat pomocí
strukturovaných souborů (korpusů) odrážejících co
nejvěrněji jednotlivé stavy jazyka a umožňujících co
nejvšestrannější přístup k informacím
vývoj a zdokonalování nástrojů pro zpracování,
analýzu a zpřístupňování korpusových dat
Slide 3
ZAPOJENÍ INFRASTRUKTURY
zapojení do projektu CLARIN zaměřeného na budování
celoevropské infrastruktury výzkumu a vývoje v oblasti
jazykových technologií a zdrojů
spolupráce s domácími specializovanými pracovišti (Ústav
formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU
Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk
český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP
Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav
teoretické a komputační lingvistiky FF UK aj.)
spolupráce s obdobnými infrastrukturními pracovišti v
zahraničí (zejména University of Birmingham; Jazykovedný
ústav Ľ. Štúra SAV; Österreichische Akademie der
Wissenschaften; Institut für Deutsche Sprache Mannheim;
Filologická fakulta Státní univerzity St. Petěrburg;
Matematický a komputační institut, Lotyšská univerzita Riga
aj.)
Slide 4
VÝSLEDKY ČINNOSTI
synchronní korpusy zachycující
soudobou češtinu psanou i mluvenou
diachronní korpusy zachycující češtinu
psaných textů v historickém vývoji od
konce 13. stol.
paralelní korpusy v současné době
zachycující češtinu v překladových
paralelách s 19 jazyky
Slide 5
KONKRÉTNÍ VÝSTUPY
(v rámci výzkumných záměrů MŠMT)
synchronní korpusy psaného jazyka SYN2000,
SYN2005, SYN2006pub (publicistické texty)
zachycující češtinu po roce 1989 a poskytující
uživatelům bezplatný přístup k datům o celkovém
rozsahu přes 500 milionů slov.
diachronní korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 1 700 000 slov)
mluvený korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 2 000 000 slov)
paralelní korpusy (kontinuálně budované, současný
celkový rozsah 20 000 000 slov)
Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp
Slide 6
KONKRÉTNÍ VÝSTUPY
(v rámci výzkumných záměrů MŠMT)
Monografie a studie vzniklé na základě vybudovaných
korpusů publikované mj. ve dvou edičních řadách
Nakladatelství Lidové noviny (vydáno 7 svazků).
Slide 7
APLIKACE
Frekvenční slovník češtiny
(Nakladatelství Lidové noviny 2004)
Frekvenční slovník mluvené češtiny
(Karolinum, Univerzita Karlova 2007)
Slovník Karla Čapka (Nakladatelství
Lidové noviny 2007)
Slide 8
SOUČASNÉ VYUŽITÍ
S korpusy jako základními výsledky činnosti
infrastruktury v současné době pracuje
přibližně 1700 registrovaných domácích uživatelů
(lingvistů, literárních vědců a studentů
filologických oborů, kulturologů, historiků,
překladatelů, neurologů, redaktorů, právníků aj.)
přibližně 300 registrovaných zahraničních
bohemistů a lingvistů, včetně studentů
slavistických oborů
Slide 9
PERSPEKTIVNÍ VYUŽITÍ
vznik dvoudílné Mluvnice současné češtiny na
korpusovém základě (Ústav Českého národního
korpusu ve spolupráci s Ústavem formální a aplikované
lingvistiky MFF UK; plánované vydání 2009)
vznik nového slovníku a akademické mluvnice češtiny
na korpusovém základě (plánováno v Ústavu pro jazyk
český AV ČR)
v delším časovém výhledu vznik překladových slovníků
nového typu (na základě reálných překladových
ekvivalentů identifikovaných v paralelních korpusech)
Slide 10
PLÁNOVANÉ APLIKACE
Regulace jazyka a koncept minimální intervence (V. Cvrček,
Nakladatelství Lidové noviny 2008)
Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T.
Bartoň, Nakladatelství Lidové noviny 2009)
Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové
noviny 2009)
Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny
2009)
Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství
Lidové noviny 2009)
Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství
Lidové noviny 2010)
Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny
2010)
Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,
Nakladatelství Lidové noviny 2011)
JAZYKOVÁ INFRASTRUKTURA
Ústav
Českého národního korpusu
Filozofická fakulta UK
Praha
Slide 2
CÍLE ČINNOSTI
trvalé a kontinuální mapování vývoje jazyka jako
základu lidské komunikace a nositele naprosté většiny
sdělovaných informací
získávání a technické zpracování jazykových dat pro
potřeby základního i aplikovaného výzkumu a vývoje v
oblasti lingvistiky a dalších oborů
zveřejňování zpracovaných jazykových dat pomocí
strukturovaných souborů (korpusů) odrážejících co
nejvěrněji jednotlivé stavy jazyka a umožňujících co
nejvšestrannější přístup k informacím
vývoj a zdokonalování nástrojů pro zpracování,
analýzu a zpřístupňování korpusových dat
Slide 3
ZAPOJENÍ INFRASTRUKTURY
zapojení do projektu CLARIN zaměřeného na budování
celoevropské infrastruktury výzkumu a vývoje v oblasti
jazykových technologií a zdrojů
spolupráce s domácími specializovanými pracovišti (Ústav
formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU
Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk
český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP
Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav
teoretické a komputační lingvistiky FF UK aj.)
spolupráce s obdobnými infrastrukturními pracovišti v
zahraničí (zejména University of Birmingham; Jazykovedný
ústav Ľ. Štúra SAV; Österreichische Akademie der
Wissenschaften; Institut für Deutsche Sprache Mannheim;
Filologická fakulta Státní univerzity St. Petěrburg;
Matematický a komputační institut, Lotyšská univerzita Riga
aj.)
Slide 4
VÝSLEDKY ČINNOSTI
synchronní korpusy zachycující
soudobou češtinu psanou i mluvenou
diachronní korpusy zachycující češtinu
psaných textů v historickém vývoji od
konce 13. stol.
paralelní korpusy v současné době
zachycující češtinu v překladových
paralelách s 19 jazyky
Slide 5
KONKRÉTNÍ VÝSTUPY
(v rámci výzkumných záměrů MŠMT)
synchronní korpusy psaného jazyka SYN2000,
SYN2005, SYN2006pub (publicistické texty)
zachycující češtinu po roce 1989 a poskytující
uživatelům bezplatný přístup k datům o celkovém
rozsahu přes 500 milionů slov.
diachronní korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 1 700 000 slov)
mluvený korpus (kontinuálně budovaný,
zpřístupněna data o rozsahu 2 000 000 slov)
paralelní korpusy (kontinuálně budované, současný
celkový rozsah 20 000 000 slov)
Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp
Slide 6
KONKRÉTNÍ VÝSTUPY
(v rámci výzkumných záměrů MŠMT)
Monografie a studie vzniklé na základě vybudovaných
korpusů publikované mj. ve dvou edičních řadách
Nakladatelství Lidové noviny (vydáno 7 svazků).
Slide 7
APLIKACE
Frekvenční slovník češtiny
(Nakladatelství Lidové noviny 2004)
Frekvenční slovník mluvené češtiny
(Karolinum, Univerzita Karlova 2007)
Slovník Karla Čapka (Nakladatelství
Lidové noviny 2007)
Slide 8
SOUČASNÉ VYUŽITÍ
S korpusy jako základními výsledky činnosti
infrastruktury v současné době pracuje
přibližně 1700 registrovaných domácích uživatelů
(lingvistů, literárních vědců a studentů
filologických oborů, kulturologů, historiků,
překladatelů, neurologů, redaktorů, právníků aj.)
přibližně 300 registrovaných zahraničních
bohemistů a lingvistů, včetně studentů
slavistických oborů
Slide 9
PERSPEKTIVNÍ VYUŽITÍ
vznik dvoudílné Mluvnice současné češtiny na
korpusovém základě (Ústav Českého národního
korpusu ve spolupráci s Ústavem formální a aplikované
lingvistiky MFF UK; plánované vydání 2009)
vznik nového slovníku a akademické mluvnice češtiny
na korpusovém základě (plánováno v Ústavu pro jazyk
český AV ČR)
v delším časovém výhledu vznik překladových slovníků
nového typu (na základě reálných překladových
ekvivalentů identifikovaných v paralelních korpusech)
Slide 10
PLÁNOVANÉ APLIKACE
Regulace jazyka a koncept minimální intervence (V. Cvrček,
Nakladatelství Lidové noviny 2008)
Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T.
Bartoň, Nakladatelství Lidové noviny 2009)
Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové
noviny 2009)
Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny
2009)
Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství
Lidové noviny 2009)
Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství
Lidové noviny 2010)
Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny
2010)
Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,
Nakladatelství Lidové noviny 2011)