Hrvatski paralelni korpusi

Download Report

Transcript Hrvatski paralelni korpusi

Hrvatski paralelni korpusi
(Kroatische Parallelkorpora)
Seminar: „Slawische Korpuslinguistik“
Ernedina Muminović ([email protected])
& Silvije Beus ([email protected])
o.Univ.-Prof. Mag. Dr. Branko Tošović, SS 2006
4. April 2006
Pojmovi (Begriffe)





Korpus
Paralelni korpus (Parallelkorpus)
Računalni korpus (Elektronisches Korpus)
Sravnjivanje (Alignement)
Pojavnice (Wörter)
Slawische Korpuslinguistik
2
Hrvatski korpusi
(Kroatische Korpora)
Hrvatski korpusi
(Kroatische Korpora)
Hrvatski nacionalni korpus
(Kroatisches Nationalkorpus)
http://www.hnk.ffzg.hr/
Hrvatska mrežna riznica
(Kroatische Netzquelle)
http://riznica.ihjj.hr/
Slawische Korpuslinguistik
3
Hrvatski nacionalni korpus
(Kroatisches Nationalkorpus)
Hrvatski nacionalni korpus (101,3 mil.)
(Kroatisches Nationalkorpus 101,3 Mio.)
Korpus suvremenoga hrvatskoga
(Korpus der kro. Gegenwartssprache)
Zbirka hrvatskih tekstova
(Kro. Textsammlung)
Slawische Korpuslinguistik
4
Korpus suvremenoga hrv. jezika
(Korpus kro. Gegenwartssprache)
 30 mil.
 30 milijunski korpus suvremenog
hrvatskog jezika (30 Mio. Wörter)
 Tekstovi od 1990. do danas (Texte ab 1990
bis heute)
 Različita područja i žanrovi (Verschiedene
Gebiete und Genres)
 Reprezentativan za hrv. suvremeni
standardni jezik (Representativ für die kro.
Standardsprache)
Slawische Korpuslinguistik
5
Zbirka hrvatskih tekstova
(Kroatische Textsammlung)
 HETA
 hrvatski elektronski tekstovni arhiv:
(Kroatisches elektronisches Textarchiv)
 Tekstovi stariji od 1990. godine (Texte vor
1990)
 I neki tekstovi nakon 1990. godine (wenige
Texte ab 1990)
Slawische Korpuslinguistik
6
Hrvatska jezična mrežna riznica
(Kroatische Netzquelle)
 Početak (Beginn): 2005. godine
 Tekstovi iz druge polovice XIX. st. (Texte
aus der 2. Hälfte des 19. Jh.)
Djela hrv. književnosti (Werke kro. Literatur)
Publicistička djela (Werke aus der Publizistik)
Znanstvena djela (Wissenschaftliche Werke)
Literarna djela prevedena na hrvatski
(Literarische Werke übersetzt auf Kroatisch)
 Tisak (Presse)
 Djela iz predstandardnoga razdoblja (Werke vor
der Standardisierung der kroatischen Sprache)




Slawische Korpuslinguistik
7
Ciljevi (Ziele)
 Dostupnost materijala preko Interneta
(Internetzugang)
 Informacije o hrvatskoj jezičnoj normi
(Informationen über die kro. Sprachnorm)
 Izrada Velikoga rječnika hrvatskoga jezika
(Verfassen des Großen Wörterbuches der kro.
Sprache)
 Opća jezikoslovna istraživanja (Allgemeine
Sprachuntersuchungen)
Slawische Korpuslinguistik
8
Hrv.-slo. paralelni korpus
(Kroatisch-slowenisches Parallelkorpus)
 Početak (Beginn): 1999. godine
 Sporazum o dvostranoj znanstvenoj
suradnji Hrvatske i Slovenije
(Abkommen)
 Trajanje (Dauer): 2 godine
 Učesnici (Teilnehmer): Filozofski
fakulteti u Zagrebu i Ljubljani
Slawische Korpuslinguistik
9
Ciljevi (Ziele)
 Stvaranje usporednog korpusa
(Schaffen des Parallelkorpus)
 Skupljanje hrvatskih i slovenskih
originala i odgovarajućih prijevoda
(Sammeln)
 Sravnjivanje korpusa na razini
rečeničnih prijevodnih ekvivalenata
(Korpusalignement)
 Slobodan pristup korpusu putem
Interneta (Internetzugang)
Slawische Korpuslinguistik
10
Primjena rezulatata
(Verwendung der Resultate)
 Pomoć pri učenju jezika (Hilfe bei
Fremdsprachenerlernung)
 Stvaranje kontrastivne gramatike i
udžbenika (Kontrastive Grammatik und
Lehrbücher)
 Sastavljane dvojezičnih rječnika
(zweisprachige Wörterbücher)
Slawische Korpuslinguistik
11
Primjena rezulatata
(Verwendung der Resultate)
 Leksikografska i leksikološka
istraživanje (lexikograpische und
lexikographische Untersuchungen)
 Mogućnost slobodnog korištenja npr.
pri prevođenju, studiranju… (Korpus als
Hilfestellung bei Translationen, beim
Studieren...)
Slawische Korpuslinguistik
12
Građa (Aufbau)
 500.000 pojavnica po jeziku (Wörter)
 Vremenski raspon tekstova: 1990.2001. (Texte von 1990-2001)
Slawische Korpuslinguistik
13
Podjela korpusa
(Korpusgliederung)
Struktura po žanru
(Struktur nach Genres)
Beletristika
(Belletristik)
Publicistika
(Publizistik)
Stručni testovi
(Fachtexte)
Znanost
(Wissenschaft)
75.000 pojavnica
(Wörter)
150.000 pojavnica
(Wörter)
200.000 pojavnica
(Wörter)
75.000 pojavnica
(Wörter)
Slawische Korpuslinguistik
14
Obrada korpusa
(Korpusbearbeitung)
 Pretvaranje teksta u XML format (XMLFormatierung)
 Program 2XML
 Segmentacija (Satzsegmentierung)
 Obilježavanje rečenica ID oznakama
(Satzkennzeichnung)
 Usklađivanje odlomaka (Absatzangleichung)
 Sravnjivanje teksta pomoću programa
Vanilla Aligner (Alignement)
Slawische Korpuslinguistik
15
Hrv.-engl. paralelni korpus
(Kroatisch-englisches Parallelkorpus)
 Početak (Beginn):
 1. hrv.-engl. korpus (kro.-engl. Korpus)
 1968.-1971. “Srpskohrvatsko-engleski
kontrastivni projekt” (serbokro.-engl.
kontrastives Projekt)
 Skupljanje i obrada materijala (Sammeln
und Verarbeiten)
 Izdavanje velikog broja naučnih publikacija
(Publikationen)
Slawische Korpuslinguistik
16
Hrv.-engl. paralelni korpus
(Kroatisch-englisches Parallelkorpus)
 2. hrv.-engl. korpus (kro.-engl. Korpus)
 Prijevod Platonove “Države” (Plato‘s
“Republik”)
 Prilično malog opsega (relativ klein)
 Nije mjerodavan (nicht aussagekräftig)
 3. hrv.-engl. korpus (kro.-engl. Korpus)
 Cilj mu je testirati (Ziel):
 Organizaciju paralelnih korpusa (Organisation)
 Sravnjivanje (Alignement)
Slawische Korpuslinguistik
17
Hrv.-engl. paralelni korpus
(Kroatisch-englisches Parallelkorpus)
 Početak (Beginn): 1998.-2001.
 Skupljanje materijala na FF u
Zagrebu (Materialsammlung)
Slawische Korpuslinguistik
18
Izvor (Quelle)
 Tjednik “Croatia Weekly”
(Wochenzeitung)
 Članci s hrvatskog prevođeni na engleski
jezik (Übersetzungen Kroatisch-Englisch)
 Vremenski raspon članaka 1998.-2000.
(Artikel von 1998-2000)
 Područja proučavanja
(Forschungsgebiete):
 Politika, gospodarstvo i financije, turizam,
ekologija, umjetnost, sport, zbivanja
Slawische Korpuslinguistik
19
Korpusni parametri
(Korpusparameter)
Jezik
(Sprache)
Hrvatski
(Kroatisch)
Engleski
(Englisch)
Članci
(Artikel)
4.748
4.748
Rečenice
(Sätze)
74.638
82.898
Pojavnice
(Wörter)
1.636.246
1.968.874
Slawische Korpuslinguistik
20
Obrada teksta
(Textverarbeitung)
 Pretvaranje teksta u XML format (XMLFormatierung)
 Usklađivanje odlomaka
(Absatzangleichung)
 Obilježavanje rečenica ID oznakama
(Identifikation)
 Sravnjivanje teksta pomoću programa
Vanilla Aligner (Alignement)
Slawische Korpuslinguistik
21
Sravnjeni hrv.-engl. Korpus
(Aligntes Kro.-Engl. Korpus)
0:1
250
0,35 %
1:0
19
0,09 %
1:1
58788
83,52 %
1:2
9374
13,32 %
2:1
1529
2,17 %
2:2
432
0,61 %
Ukupno
(gesamt)
70392
100 %
Slawische Korpuslinguistik
22
Literatura (Literaturverzeichnis)
Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni
korpus, in: Suvremena lingvistika 41-42; 603-612.
Tadić, M. (1998): Raspon, opseg i sastav korpusa suvremenoga
hrvatskoga jezika, in: Filologija 30-31; 337-347.
Tadić, M. (2000): Building the Croatian-English Parallel Corpus, in:
Zbornik, 1; 523-530.
Tadić, M., Požgaj-Hadži, V. (2000): Hrvatsko-slovenski paralelni
korpus, Jezikovne tehnologije / Language Technologies,
Ljubljana, 70-74.
Tadić, M. (2001): Procedures in Building the Croatian-English
Parallel Corpus, in: International Journal of Corpus Linguistics,
107-123.
Slawische Korpuslinguistik
23
Literatura (Literaturverzeichnis)
Tadić, M., Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata
u hrvatsko-engleskom paralelnom korpusu, in: Filologija 3839; 247-262.
Tadić, M. et al. (2004): Making Monolingual Corpora Comparable: a
Case Study of Bulgarian and Croatian, in: Zbornik, 4; 11871190.
Internet:
http://www.hnk.ffzg.hr/
http://www.hnk.ffzg.hr/mt/
http://riznica.ihjj.hr/
http://www-gewi.kfunigraz.ac.at/gralis/
Slawische Korpuslinguistik
24