LVVV elektroniskā versija Everita Andronova, Normunds Grūzītis LU Matemātikas un informātikas institūts {everita, normundsg} @ailab.mii.lu.lv ELEKTRONISKAS VĒSTURISKĀS VĀRDNĪCAS IZVEIDE: PAVEIKTAIS UN PROBLĒMAS 2008.

Download Report

Transcript LVVV elektroniskā versija Everita Andronova, Normunds Grūzītis LU Matemātikas un informātikas institūts {everita, normundsg} @ailab.mii.lu.lv ELEKTRONISKAS VĒSTURISKĀS VĀRDNĪCAS IZVEIDE: PAVEIKTAIS UN PROBLĒMAS 2008.

LVVV elektroniskā versija
Everita Andronova, Normunds Grūzītis
LU Matemātikas un informātikas institūts
{everita, normundsg} @ailab.mii.lu.lv
ELEKTRONISKAS VĒSTURISKĀS VĀRDNĪCAS IZVEIDE: PAVEIKTAIS UN PROBLĒMAS
2008. gada 11. janvāris
SENIE – vārdnīcas izejas dati
Tekstu korpuss – vairāk nekā 950 000 vārdlietojumu
– 16.gs. – 3 avoti un 52 642 vārdlietojumi
– 17.gs. – 22 avoti un 829 876 vārdlietojumi
– 18.gs. – 15 avoti un 75 559 vārdlietojumi
Korpusa lietojumrīki:
– meklēšana vārdlietojumu indeksā,
– konkordance,
– navigācija korpusa saturā (pēc autora, avota un teksta
kategorijas),
– konteksta logs (pēc adreses),
– vārdformu biežuma saraksti,
– inversā vārdnīca.
Vārdnīcas rakstīšana
•
Šķirkļa uzbūves nostādnes izstrāde.
–
–
Šķirkļa uzbūves (strukturālās gramatikas) formalizēšana.
Datu un to atainojuma strikta nodalīšana.
•
Leksikogrāfa darbs ar korpusu (meklēšana vārdformu
indeksā, vārdformu atlase, biežuma un „adrešu” uzkrāšana).
•
Atlasīto piemēru analīze (izmantojot konkordances
programmu un izvērstā konteksta iespējas).
•
Šķirkļu izstrāde atbilstoši izvēlētai šķirkļa struktūrai.
•
Šķirkļu apspriešana seminārā, komentāru uzkrāšana
elektroniskā un „papīra” veidā.
–
Struktūras pakāpeniska precizēšana.
XML* shēma**
* Paplašināma marķēšanas valoda
** Fragments
XML redaktors
?
X
TshwaneLex: specializēts,
profesionāls, komerciāls
(ir akadēmiskās licences)
XAmple: universāls,
bezmaksas, nestabils
(izmēģinājums līmenim),
nepiemērots aktīvai izstrādei
VX
XMLSpy: universāls, komerciāls,
profesionāls, nepiemērots (nav
specializēts) aktīvai vārdnīcu
izstrādei
1. Standartizēta valoda +
2. Formalizēta shēma =
3. Brīva standartizētu rīku izvēle un maiņa
?
DEBVisDic: daļēji
specializēts, bezmaksas
(akadēmiskiem mērķiem)
XML formāts
Rezultāti
• Izstrādāti ~500 “papīra” šķirkļi
• Izstrādāta XML shēma
• 50 šķirkļi pierakstīti mašīnlasāmā formā
atbilstoši XML shēmai
Turpmākie uzdevumi
•
•
•
•
•
Shēmas un redaktora nostabilizēšana
Datu plūsmas organizēšana
Atgriezeniskās saites ar korpusu nodrošināšana
Vārdnīcas vizualizācija (XML transformācijas)
Interaktīvas meklēšanas iespēju izstrāde
Datu plūsmas automatizācija
Šķirkļa izstrāde
Šķirkļa sagatavošana
Šķirkļa marķēšana
(korpuss + .txt redaktors)
(shēma + rīks)
- “galva”
- gram. inform.
- vārdn. piem.
- nozīmes
- savienojumi
- frazeoloģija
- etimoloģija
- mijnorādes
Saraksts + indekss
Atlase + kārtošana
I
- Šķirkļa vārds
- Vārdlietojumi + biežumi + adreses
Piemēru izguve
II
(3 rindu konteksts katrai adresei)
Vārdnīcas piemēru atzīmēšana un precizēšana
III
Nozīmju izšķiršana
Piemēru izvēle un precizēšana
Savienojumi, frazeoloģija
Pārējais
(n-grammas)
IV
V
Paldies!