Transcript Alfabet og språkteknologi
Alfabet og språkteknologi Ciprian-Virgil Gerstenberger Universitetet i Tromsø Norge Skriftspråk och språkteknologi 15.05.2011 Arjeplog, Sverige
Innhold
Innhold
Innhold
En betydning → flere betegnelser
Ciprian-Virgil Gerstenberger Ciprian Virgil Gerstenberger
?
eller
demokrati
eller
folkestyre
?
triangel
eller
trekant
?
bestemme
eller
avgjøre
?
sentrum
eller
centrum
?
⇒ synonymi ⇒ navnlikhet
eller
redundans
?
eller
overflødighet
?
Flere betydninger ← en betegnelse
Ciprian:
1.
Ciprian Gerstenberger 2.
Ciprian Porumbescu
triangel:
1.
trekant (geometri) 2.
musikkinstrument ⇒ polysemi / homonymi ⇒ flertydighet
eller eller
ambiguitet tvetydighet
?
?
To sider, en relasjon
Avbildning fra A til B A
⇒
B
1
, B
2
, B
3
Avbildning fra B til A A
1
, A
2
, A
3
⇐
B
Ideelt
A
⇒
B
og
A
⇐
B A
⇔
B
Lyd ↔ tegn
Rumensk
⇒
â ( România ), î ( înainte ) Engelsk y
⇒
/j/ ( you ), /i/ ( heavy )
Bruce’s eksempel fra Lulesamisk
Extra-lange konsonanter som er ofte ikke markert
1.
2.
maná
⇒ du drar
manná
⇒ hun/han drar 3.
manná
⇒ hun/han begynner å drar
Michaels eksempel om kildinsamiske alfabetvarianter
Menneske vs. datamaskin
• mennesker klarer seg i begge situasjoner • for datamaskiner må alt være klart og tydeligt • det som er vanskelig for mennesker er enda vanskeligere å tydeliggjøre for datamaskiner (Bruce: ‘Skriverregler skal være lærbare!’) ⇒
kunnskap, regler for å tydeliggjøre
Utvikling • ASCII (American Standard Code for Information Interchange)
Utvikling • UTF-8: hvert tegn kodet som tall (utvetydig)
Spørsmål • Kan man få tegn i tillegg for pitesamisk?
• Ja, men vil man det virklig?
identitet
⇔
brukbarheit
Problemer
• Operativsystem (Windows, Mac, Linux, Symbian, Android, iPhone) • Aplikasjoner = programmer: Nettleser (Internet Explorer, Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice) • Grafiske programmer har forsjellige elementer: tekstfelt, labels, etc.
• Skriftkoding og -egenskaper (fonttype, fontstørrelse, fontfarge, etc.)
Spesialtegn i kildinsamisk
Kildinsamisk i nettleseren Safari på Mac
Kildinsamisk i nettleseren Google Chrome på Mac
Spesialtegn (diacritics)
• Unngå spesialtegn!
• Tenk også på mobiltelefoner: tekstmelding, epost, ordbøker ⇒ Alternativet: tegnkjede, tegnsekvens!
Tegnkjede
Lulesamisk:
xxx
ng
xxx, yyy
ng
yyy ⇒ Prisen: tvetydighet!
Tysk:
Hoehe, Oede, Poet ⇒ Höhe, Öde,
Pöt
Tastatur
• utvikling av tastatur med spesialtegn er mulig • ikke uten problemer på ulike operativsystemer med ulike programmer ⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!
Sørsamisk alfabet
• bokstaver vs. tegn vs. tegnkjeder • blanding av norsk og svensk • bytte tastaturen hele tida (selv med snarvei er det tungt) • brukere gjør det ofte ikke
Løsning på datamaskin ⇒ Godta alle varianter, vis det riktige!
Løsning på datamaskin ⇒ Godta alle varianter, vis det riktige!
Spørsmål • Er representasjoner av tegn virklig utvetydig på datamaskinen?
• For datamaskin ja, men ikke for mennesker!
Bruk av feil tegn to ganger på den samme NRK-sida
Vårt arbeid med den kildin-russiske ordboka
Data for språkteknologi
• å lage gode programmer krever gode data • feil på lavt nivå fortsetter på høyere nivåer • feilsøking og retting krever mye tid og energi
Samisk språkteknologi: Giellatekno
• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk, skoltesamisk, kvensk, meankeli, etc.
• utvikle ressurser og applikasjoner for alle samiske språk ⇒
språkdata i elektronisk format
Språkteknologi
alt som man gjør med og for språk på datamaskin
• språkdokumentasjon • rettskrivningsverktøy • elektroniske ordbøker • språkanalyse • læreprogrammer • maskinoversetting ⇒
datamaskin som svært nyttig hjelpemiddel
Språkdokumentasjon
•
Kildinsamisk
•
Pitesamisk
Rettskrivningsverktøy: Divvun
Ordbøker
Ordbøker
Ordbøker
Språkanalyse • Ordformanalyse (morfologi) • Ordrekkefølgeanalyse (setningsanalyse, syntaks)
Læreprogrammer: Oahpa!
Maskinoversetting
Konklusjoner • ingen bra avbildning fra lyd til tegn (perfekt ortografi) • probleme må analyseres og avgjøres (navnlikhet vs.
overflødighet og flertydighet vs. tvetydighet) • kompromisser • datamaskiner er nyttig hjepler men krever mye nye kunnskaper • for å lage gode språkapplikasjoner trengs rene data