Alfabet og språkteknologi

Download Report

Transcript Alfabet og språkteknologi

Problemanalyse

Alfabet og datamaskin

Alfabet og språkteknologi Ciprian-Virgil Gerstenberger Universitetet i Tromsø Norge Skriftspråk och språkteknologi 15.05.2011 Arjeplog, Sverige

Språkteknologi

Problemanalyse Problemanalyse

Alfabet og datamaskin

Språkteknologi

Alfabet og datamaskin

Innhold

Språkteknologi

Problemanalyse Problemanalyse

Alfabet og datamaskin

Språkteknologi

Alfabet og datamaskin

Innhold

Språkteknologi

Problemanalyse Problemanalyse

Alfabet og datamaskin

Språkteknologi

Alfabet og datamaskin

Innhold

Språkteknologi

Problemanalyse

Alfabet og datamaskin

En betydning → flere betegnelser

Språkteknologi

Ciprian-Virgil Gerstenberger Ciprian Virgil Gerstenberger

?

eller

demokrati

eller

folkestyre

?

triangel

eller

trekant

?

bestemme

eller

avgjøre

?

sentrum

eller

centrum

?

⇒ synonymi ⇒ navnlikhet

eller

redundans

?

eller

overflødighet

?

Problemanalyse

Alfabet og datamaskin

Flere betydninger ← en betegnelse

Språkteknologi

Ciprian:

1.

Ciprian Gerstenberger 2.

Ciprian Porumbescu

triangel:

1.

trekant (geometri) 2.

musikkinstrument ⇒ polysemi / homonymi ⇒ flertydighet

eller eller

ambiguitet tvetydighet

?

?

Problemanalyse

Alfabet og datamaskin

To sider, en relasjon

Avbildning fra A til B A

B

1

, B

2

, B

3

Avbildning fra B til A A

1

, A

2

, A

3

B

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Ideelt

A

B

og

A

B A

B

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Lyd ↔ tegn

Rumensk

â ( România ), î ( înainte ) Engelsk y

/j/ ( you ), /i/ ( heavy )

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Bruce’s eksempel fra Lulesamisk

Språkteknologi

Extra-lange konsonanter som er ofte ikke markert

1.

2.

maná

⇒ du drar

manná

⇒ hun/han drar 3.

manná

⇒ hun/han begynner å drar

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Michaels eksempel om kildinsamiske alfabetvarianter

Problemanalyse

Alfabet og datamaskin

Menneske vs. datamaskin

Språkteknologi

• mennesker klarer seg i begge situasjoner • for datamaskiner må alt være klart og tydeligt • det som er vanskelig for mennesker er enda vanskeligere å tydeliggjøre for datamaskiner (Bruce: ‘Skriverregler skal være lærbare!’) ⇒

kunnskap, regler for å tydeliggjøre

Problemanalyse

Alfabet og datamaskin

Utvikling • ASCII (American Standard Code for Information Interchange)

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Utvikling • UTF-8: hvert tegn kodet som tall (utvetydig)

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Spørsmål • Kan man få tegn i tillegg for pitesamisk?

• Ja, men vil man det virklig?

identitet

brukbarheit

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Problemer

Språkteknologi

• Operativsystem (Windows, Mac, Linux, Symbian, Android, iPhone) • Aplikasjoner = programmer: Nettleser (Internet Explorer, Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice) • Grafiske programmer har forsjellige elementer: tekstfelt, labels, etc.

• Skriftkoding og -egenskaper (fonttype, fontstørrelse, fontfarge, etc.)

Problemanalyse

Alfabet og datamaskin

Spesialtegn i kildinsamisk

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Kildinsamisk i nettleseren Safari på Mac

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Kildinsamisk i nettleseren Google Chrome på Mac

Problemanalyse

Alfabet og datamaskin

Spesialtegn (diacritics)

Språkteknologi

• Unngå spesialtegn!

• Tenk også på mobiltelefoner: tekstmelding, epost, ordbøker ⇒ Alternativet: tegnkjede, tegnsekvens!

Problemanalyse

Alfabet og datamaskin

Tegnkjede

Lulesamisk:

xxx

ng

xxx, yyy

ng

yyy ⇒ Prisen: tvetydighet!

Tysk:

Hoehe, Oede, Poet ⇒ Höhe, Öde,

Pöt

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Tastatur

Språkteknologi

• utvikling av tastatur med spesialtegn er mulig • ikke uten problemer på ulike operativsystemer med ulike programmer ⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!

Problemanalyse

Alfabet og datamaskin

Sørsamisk alfabet

Språkteknologi

• bokstaver vs. tegn vs. tegnkjeder • blanding av norsk og svensk • bytte tastaturen hele tida (selv med snarvei er det tungt) • brukere gjør det ofte ikke

Problemanalyse

Alfabet og datamaskin

Løsning på datamaskin ⇒ Godta alle varianter, vis det riktige!

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Løsning på datamaskin ⇒ Godta alle varianter, vis det riktige!

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Spørsmål • Er representasjoner av tegn virklig utvetydig på datamaskinen?

• For datamaskin ja, men ikke for mennesker!

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Bruk av feil tegn to ganger på den samme NRK-sida

Problemanalyse

Alfabet og datamaskin

Språkteknologi

Vårt arbeid med den kildin-russiske ordboka

Problemanalyse

Alfabet og datamaskin

Data for språkteknologi

Språkteknologi

• å lage gode programmer krever gode data • feil på lavt nivå fortsetter på høyere nivåer • feilsøking og retting krever mye tid og energi

Problemanalyse

Alfabet og datamaskin

Samisk språkteknologi: Giellatekno

Språkteknologi

• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk, skoltesamisk, kvensk, meankeli, etc.

• utvikle ressurser og applikasjoner for alle samiske språk ⇒

språkdata i elektronisk format

Problemanalyse

Alfabet og datamaskin

Språkteknologi

alt som man gjør med og for språk på datamaskin

• språkdokumentasjon • rettskrivningsverktøy • elektroniske ordbøker • språkanalyse • læreprogrammer • maskinoversetting ⇒

datamaskin som svært nyttig hjelpemiddel

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Språkdokumentasjon

Språkteknologi

Kildinsamisk

Pitesamisk

Problemanalyse

Alfabet og datamaskin

Rettskrivningsverktøy: Divvun

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Ordbøker

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Ordbøker

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Ordbøker

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Språkanalyse • Ordformanalyse (morfologi) • Ordrekkefølgeanalyse (setningsanalyse, syntaks)

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Læreprogrammer: Oahpa!

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Maskinoversetting

Språkteknologi

Problemanalyse

Alfabet og datamaskin

Konklusjoner • ingen bra avbildning fra lyd til tegn (perfekt ortografi) • probleme må analyseres og avgjøres (navnlikhet vs.

overflødighet og flertydighet vs. tvetydighet) • kompromisser • datamaskiner er nyttig hjepler men krever mye nye kunnskaper • for å lage gode språkapplikasjoner trengs rene data

Språkteknologi