Latviešu valodas vēsturiskā vārdnīca:

Download Report

Transcript Latviešu valodas vēsturiskā vārdnīca:

No seno tekstu korpusa līdz
vēsturiskajai vārdnīcai:
iestrādes un problēmas
Everita Andronova
[email protected]
Latviešu valodas seno tekstu korpuss
Mērķi:
 veicināt latviešu valodas diahroniskos pētījumus;
 īstenot „ Latviešu valodas vēsturiskās vārdnīcas”
ieceri;
 saglabāt latviešu valodas un kultūras mantojumu –
16. – 18.gs. tekstus (iespiestos un rokrakstu
atšifrējumus) – un darīt to publiski pieejamu.
www.ailab.lv/SENIE
Latviešu valodas seno tekstu korpuss
Mērķauditorija – latviešu valodas vēstures
pētnieki, baltu filologi, literatūras un kultūras
vēstures pētnieki.
Korpusa veidotāji – LU MII (kopš XX gs.
80.g.b., 90.g.s.), LU FF Baltu valodu katedra
un LU LVI (2002. g. un 2005.g. LU
Pētniecības projektu konkurss).
Partneri – Latvijas Nacionālā bibliotēka.
SENIE – korpusa izveide
Tekstu atlase:
• 16.gs. – 3 avoti (šobrīd nav CC1585);
• 17.gs. – 22 avoti (no 100 avotiem, kas minēti LNB
„ Seniespiedumu katalogā” pievienoti galvenie
pirmizdevumi, galvenokārt garīga satura teksti);
• 18.gs. – 15 avoti (ne tikai garīga satura, bet arī
populārzinātniski teksti, daiļliteratūra);
• 18.gs. tekstu pievienošana korpusam turpinās.
SENIE – statistika
16.gs.: 3 avoti un 52 642 vārdlietojumi
Ench1586
Vārdlietojumu skaits: 7068 (1719 dažādas vārdformas)
EvEp1587
Vārdlietojumu skaits: 32519 (5457 dažādas vārdformas)
UP1587
Vārdlietojumu skaits: 13055 (2699 dažādas vārdformas)
SENIE – statistika
17.gs. – 22 avoti un 829 876 vārdlietojumi
Sākot no Reit1675_OD ar 66 vārdlietojumiem
līdz JT1685 ar 161 359 un Manc1654_LP ar
276 718 vārdlietojumiem.
SENIE – statistika
18.gs. – 15 avoti un 75 559 vārdlietojumi
Sākot no Eid1701_RA ar 201 vārdlietojumu
līdz Lod1778_WTMD ar 13 937
vārdlietojumiem. Daudz neliela apjoma laicīga
satura tekstu.
18.gs. tekstu apstrāde un pievienošana korpusam
turpinās.
SENIE – korpusa izveide
Tekstu apstrāde un sagatavošana:
- strukturālā marķēšana,
- marķējuma sintakses pārbaude,
- vārdformu indeksu izveide.
SENIE – vārdformu indekss
SENIE – vārdformu indekss
SENIE – korpusa izveide
Lietojumrīku izstrāde (LU MII):
meklēšanas iespējas,
- konkordances programma,
- vārdformu konteksta aplūkošanas iespējas,
- vārdformu biežuma saraksti,
- inversā vārdnīca,
- navigācija korpusa saturā (pēc autora, avota
un teksta kategorijas).
-
SENIE – konkordances programma
SENIE – izvērstais konteksts
SENIE – vārdformu saraksti
SENIE – vārdformu inversā vārdnīca
SENIE – vārdformu biežuma vārdnīca
LZP projekts (2004-2007)
Latviešu valodas vēsturiskā vārdnīca (16.–
18. gs.) – vadītājs Pēteris Vanags (LU FF).
 Iecere - interaktīva seno tekstu (leksiska)
vārdnīca, kas pieejama elektroniskā formā.
 Uzdevumi - metodoloģijas izstrāde,
paraugšķirkļu izveide, šķirkļa elektroniskās
versijas izstrāde, leksikogrāfa darba vietas
sagatavošana.

Vārdnīcas tapšana






Vārdnīcas tipa un šķirkļa uzbūves nostādnes
izstrāde.
Leksikogrāfa darbs ar korpusu (meklēšana
vārdformu indeksā, vārdformu atlase, biežuma un
„adrešu” uzkrāšana).
Atlasīto piemēru analīze (izmantojot konkordances
programmu un izvērstā konteksta iespējas).
Šķirkļu pirmās versijas izstrāde atbilstoši mūsu
izvēlētai šķirkļa struktūrai.
Šķirkļu apspriešana seminārā, komentāru uzkrāšana
elektroniskā un „papīra” veidā.
Struktūras precizēšana.
Darba gaita
Leksikogrāfs
 Korpuss
 Vārdnīcas šķirkļa uzmetums
 Apspriešana seminārā
 Šķirklis
Šķirkļa uzbūve
1. Šķirkļa vārds (arī rekonstruēta forma, kļūdaina forma)
plus lietojumu skaits
2. Gramatiskais raksturojums
3. Visas korpusā sastaptās vārdformas (plus lietojumu
skaits)
4. Tā laika latviešu valodas vārdnīcās ietvertie nozīmju
skaidrojumi
5. Nozīmes skaidrojums (viena vai vairākas nozīmes)
6. Katras nozīmes lietojuma piemēri (pirmais un pēdējais
citējums rakstu avotos)
7. Brīvie un stabilie (skaitliski nozīmīgie) vārdu
savienojumi
8. Frazeoloģismi
9. Plaša mijnorāžu sistēma (vārddarināšana u.c.)
10. Etimoloģija
Šķirklis
aba (28) conj. aba (14), ab (11), abba (2), abbe (1)
1. ‘vai’.
Cekart tu Dewe wa'rd' nä pattes minneyß Ab oter cilwek
wälnam wäleyß norauwt Elg1621_GCG, 18612, ..ezels aba
wier§is.. EvTA1753, 6426;
– ab ... ab (4) ab ... ab (2), aba ... aba (1), abba ... abbe (1)
‘vai nu ... vai’.
Ab ekßan helles ab ekßan debbe§§e Elg1621_GCG, 1821,
..aba winu na iredźes, un u`tru milos, aba wina ture§is, un
u`tru §modies. EvTA1753, 6219–20;
2. ‘jeb’.
Sieptieyni Sakramenti. Aba radzamas źeymes.., ..graku
wayde^§zona, aba §powiedś.. EvTA1753, 105 14, 16, 18.
 < bkr. vai po. abo ‘vai’.
Vārdnīcas rakstīšana - turpinājums
Leksikogrāfs un sistēmas analītiķis (2006)
Šķirkļa struktūras gramatikas formalizēšana.
 XML (extensible mark-up language) shēma.
 Precizēta šķirkļa uzbūve – šķirklis.xsd.

XML shēma
Vārdnīca – papildu uzdevumi




Esošo šķirkļu „pārrakstīšana” izstrādātajā
anotēšanas shēmā.
Šķirkļa struktūras precizēšana un uzlabošana.
Jaunu šķirkļu marķēšana, izmantojot
struktūrai pielāgotu XML redaktoru.
Šķirkļa rakstīšanas un marķēšanas
instrukcijas sagatavošana.
XML redaktors
Turpmākie uzdevumi
Šķirkļa shēmas uzlabošana
 Datu plūsmas organizēšana
 Atgriezeniskās saites ar korpusu nodrošināšana
 Vārdnīcas vizualizācija
 Interaktīvas meklēšanas iespēju izstrāde

Nākotnes uzdevumi
Korpusa uzturēšanas programmrīku
papildināšana (n-grammas, konkordances
kārtošanas iespējas)
 Šķirkļa rakstīšanas instrukcija
 Modernas leksikogrāfa darba vietas izveide
(korpuss – melnraksti – šķirkļa izveide –
komentāri – ārējie resursi – korpuss – ..)

Aicinājums pievienoties (ar padomu,
kritiku, pieredzi)
Ikvienam ir roka jāpieliek, lai
korpusā balstītas vārdnīcas izstrādes sistēma
būtu leksikogrāfam saprotama un ērta.
Vēlējumies – lai pietiek prasmīgu
programmētāju, kas ar moderno tehnoloģiju
palīdzību atvieglotu leksikogrāfa darbu.
Paldies par uzmanību!