Tölvur og tungumál - 1 © Eiríkur Rögnvaldsson, september 2008 Fyrstu tengsl tölva og tungumáls • Tengsl tölva og tungumáls má rekja aftur.

Download Report

Transcript Tölvur og tungumál - 1 © Eiríkur Rögnvaldsson, september 2008 Fyrstu tengsl tölva og tungumáls • Tengsl tölva og tungumáls má rekja aftur.

Tölvur og tungumál - 1
© Eiríkur Rögnvaldsson,
september 2008
Fyrstu tengsl tölva og tungumáls
• Tengsl tölva og tungumáls má rekja aftur til
•
•
fyrstu ára tölvunnar um miðja 20. öld
Fljótlega var farið að nota tölvur til að gera
ýmiss konar orðaskrár, skoða tíðni orða í
mismunandi textum o.s.frv.
Talsvert var gert að því að leita höfunda
texta eða skoða áhrif eins höfundar á annan
– með því að bera saman orðaforða þeirra og
orðtíðni
Tölvuþýðingar
• Á 6. áratug 20. aldar og fram á þann 7. var
•
miklu fé varið í tilraunir með tölvuþýðingar
Fyrstu forritin þýddu texta orð fyrir orð
– studdust ekki við málfræðilegar kenningar eða
líkön
• 1966 birti bandaríska vísindaakademían
„svarta skýrslu“ um tölvuþýðingar
– þar sem fram kom að þrátt fyrir gífurlegan
kostnað hefði árangurinn verið ákaflega lítill
Máltölvun
• Literary and Linguistic Computing
– máltölvun
• Hvers kyns notkun tölva við lausn mállegra
verkefna
– talningar orða og bókstafa, tíðniskrár
– orðstöðulyklar, orðabókagerð
• Ekki þörf á mikilli tölvukunnáttu
– oft unnið með hjálp tilbúinna forrita eða
forritapakka
Tölvufræðileg málvísindi
• Computational Linguistics
– tölvufræðileg málvísindi/tölvumálvísindi
• Að setja fram aðferðir (algrím) sem tölvur
geta unnið með við greiningu tungumáls
– undirstaða þess að hægt sé að nota tölvur við
vélrænar þýðingar, lemmun, talgreiningu o.fl.
• Þeir sem semja mállýsinguna þurfa að hafa
góða hugmynd um það hvernig tölvur vinna
Gagnamálfræði
• Corpus Linguistics
– Gagnamálfræði
• Mállýsingar og rannsóknir byggðar á textum
– Textar skoðaðir vandlega og sett fram lýsing að
þeirri skoðun lokinni
• Theoretical Linguistics
– Fræðileg málvísindi
– Settar fram kenningar og þær síðan prófaðar á
tungumálinu sjálfu
Málgreining
• Natural Language Processing – NLP
– Málvinnsla
• Greining (analysis)
– Greining formgerðar (og merkingar) á ýmsum
sviðum málsins (texta eða tals)
• Myndun (generation)
– Myndun máls (texta eða tals) út frá formgerð
(merkingu)
Hvað er tungutækni?
• Tungutækni er ungt nýyrði
– fyrir enska hugtakið ‘language technology’
• eða ‘language engineering’
• Samvinna tungumáls og tölvutækni
– í einhverjum hagnýtum tilgangi
• Tvær hliðar samvinnunnar:
– notkun tölvutækninnar í þágu tungumálsins
– notkun tungumálsins innan tölvutækninnar
Þrjár merkingar orðsins tungutækni
• Orðið tungutækni hefur þrjár merkingar
– vissulega nátengdar, en þó aðskildar
• Þverfagleg fræðigrein
– sem byggist á málvísindum og tölvunarfræði
• Hugbúnaður og tæki
– sem byggjast á fræðilegum rannsóknum
• Iðnaðarstarfsemi
– þar sem fengist er við gerð tungutæknitóla
Afmörkun tungutækni
• Misjafnt er hvað talið er falla undir tungutækni:
–
–
–
–
Þýðingar forrita?
Tölvustudd orðabókargerð?
Tölvunotkun í tungumálakennslu?
Tölvustuddar þýðingar?
• E.t.v. má miða við þörf fyrir virka kunnáttu
– bæði í máli/málfræði og tölvunotkun/tölvutækni
Tæknin í þágu tungumálsins
• Tölvutækni má nýta á ýmsan hátt
– til að auðvelda mönnum að nota tungumálið
• Þar má nefna
–
–
–
–
–
forrit til leiðréttingar á stafsetningu og málfari
vélrænar þýðingar
tölvuorðabækur af ýmsu tagi
talgervla og önnur hjálpartæki handa fötluðum
ýmiss konar kennsluforrit
Tungumálið í þágu tækninnar
• Tungumálið gegnir sívaxandi hlutverki
– innan upplýsingatækninnar
• Þar má nefna
– samskipti við upplýsingaveitur
• spurningar bornar fram í samfelldu, eðlilegu máli í stað
þess að nota takmarkaðan orðaforða á fastmótaðan hátt
– stjórn ýmiss konar tækja
• talað er við tæki á venjulegu máli og þeim stjórnað með
rödd og tungumáli í stað þess að ýta á takka
Forsendur fyrir íslenskri tungutækni
• Tungutækni – skýrsla starfshóps
– menntamálaráðuneytið, 1999
• Þrjár meginstoðir íslenskrar tungutækni
– menntað fólk
– málsöfn
– málgreiningarforrit
• Áhugi fyrirtækja þarf að vera fyrir hendi
– og líka stuðningur hins opinbera
Íslensk tungutækni
• Kemur íslensk tungutækni af sjálfu sér
– eigum við bara að bíða þolinmóð?
• Fáum við íslensk tungutæknitól að utan?
– það er ólíklegt
– tungutæknilausnir eru mjög dýrar
– íslenski markaðurinn alltof lítill
• Sprettur tungutækni af sjálfu sér innanlands?
– varla – af sömu ástæðum
Menntun og rannsóknir
• Þekking, menntun, reynsla
– ekkert nám af þessu tagi hefur verið til á Íslandi
– engar rannsóknir hafa verið á þessu sviði
– fáir Íslendingar búa yfir þekkingu og reynslu
• Úr þessu þarf að bæta
– og um það voru gerðar tillögur í skýrslu
starfshóps um tungutækni vorið 1999
Úr skýrslu starfshóps um tungutækni
• Óráðlegt er að ætla að Íslendingar geti
byggt upp öflugt starf á sviði tungutækni án
þess að hyggja að fræðilegum undirstöðum
slíks starfs. Nauðsynlegt er að fá sem fyrst
til starfa vel menntað fólk á sviði íslensks
máls og tölvunarfræði sem gerir sér grein
fyrir sérkennum íslenskrar málfræði og
þörfum íslensks málsamfélags.
... og áfram:
• Ef ekki verður byggð upp innlend þekking á
þessu sviði innan menntastofnana verðum
við um ófyrirsjáanlega framtíð þiggjendur á
þessu sviði og höfum miklu minni
möguleika á að bregðast við breyttum
aðstæðum og nýjungum, og þróa þau tól og
tæki sem henta best íslenskum aðstæðum.
Þetta svið á sér víða langa hefð
• Computational linguistics
– í enskumælandi löndum
• Datalingvistik
– á Norðurlöndum
• Mikill vöxtur hefur verið í þessum greinum
– samfara örri þróun í tungutækni sem iðngrein
• En jafnframt hafa áherslur breyst
Aukin áhersla á hagnýtingu
• Greinar með áherslu á hagnýtingu í ýmiss
konar tækjum og tólum hafa komið upp
– við hlið hefðbundinna akademískra greina
• Language technology
– í stað eða við hlið Computational Linguistics
• Sprogteknologi/språkteknologi
– í stað eða við hlið Datalingvistik
Tilgangur
• Er rétt að verja stórfé
– í uppbyggingu og þróun íslenskrar tungutækni?
• Er ekki best að bíða
– og sjá hverju fram vindur?
• Þrenns konar réttlæting fyrir tungutækni
– nýsköpun þekkingar
– verndun og varðveisla tungumálsins
– virðing og samkeppnisstaða málnotenda
Ógnar upplýsingatæknin tungunni?
• Þrjú einkenni upplýsingatækni skipta máli
– þegar áhrif hennar á íslenska tungu eru metin
• Hún er að verða
– mikilvægur þáttur
– í daglegu lífi
– alls almennings
• Þess vegna verður hún að vera á íslensku
– að öðrum kosti er tungan feig
Þrengt notkunarsvið móðurmálsins
• Hvað ef móðurmálið er ekki gjaldgengt á sviði
– sem er mikilvægt
– í daglegu lífi
– alls almennings?
• Hvað ef það er ekki nothæft
– í nýrri tækni og öðru sem er nýtt og spennandi
– á sviðum þar sem nýsköpun á sér stað
– og þar sem ný atvinnutækifæri bjóðast?
Tungumál í hættu
• Við þær aðstæður hefst dauðastríð tungunnar
– móðurmálið verður víkjandi
– aðeins hæft til heimabrúks
– en ekki til neinna alvarlegra hluta
• Ungt fólk sér þá ekki tilgang í að læra málið
– heldur leggur áherslu á að tileinka sér enskuna
sem best
• Hvað er þá til ráða?
Tveir kostir í stöðunni
• Að hafna tækninni en halda tungunni
– látið eiga sig að tileinka okkur ýmsar nýjungar
– fyrst tungumálið er ekki gjaldgengt á þessu sviði
• Þessi kostur er ekki raunhæfur
• Að fórna tungunni en fylgjast með tækninni
– nota ensku í upplýsinga- og tölvutækni
– úr því að íslenska er ekki nothæf á því sviði
• Þessi kostur er óviðunandi
– og sá þriðji:
• Að hefjast handa
– gera átak á sviði tungutækni
– gera íslensku nothæfa innan upplýsingatækninnar
• Það er eini valkostur okkar
– ef við viljum halda áfram að nota íslensku
– á öllum sviðum þjóðlífsins
• Annars verður málið fljótlega forngripur
– dauðadæmt og gæti dáið út á fáum áratugum
Tungutækni fyrir málnotendur
• Tungutækni snýst ekki bara um málvernd
– einnig um þjónustu og sjálfsvirðingu
• Eigum við að sitja við sama borð og aðrir
– eða eigum við að sitja skör lægra?
• Við eigum kröfu á að geta notað móðurmálið
– sem víðast, við sem fjölbreyttastar aðstæður
• Allt annað er uppgjöf
Tákn og tungumál
• Við munum aldrei hafa allt á íslensku
– hvað með R, N, P á gírstönginni í bílnum okkar?
– þetta stendur fyrir reverse, neutral, park
– en fyrir okkur eru þetta bara tákn, óháð tungumáli
• Mál í virkri notkun getur aldrei orðið tákn
– á sama hátt – orðin slitna ekki frá tungumálinu
• Þess vegna verður málið að vera íslenska
– að öðrum kosti verðum við málfarslega undirokuð
Niðurstöður starfshópsins
• Nauðsynlegt er að hefja sem fyrst átak
– til að skjóta stoðum undir íslenska tungutækni
• Ríkið verður að hafa forgöngu um þetta átak
– og bera meginkostnaðinn af því á fyrstu stigum
þess
• Æskilegast er að markaðurinn taki síðan við
– en hann getur ekki borið þróunarkostnaðinn í
upphafi
Tölvur og tungumál - 2
© Eiríkur Rögnvaldsson,
september 2008
Rafrænir textar
• Rafrænir textar eru forsenda flestra verkefna
– á sviði máltölvunar og tungutækni
• Mikilvægt er að form þeirra sé staðlað
– þannig að þeir nýtist til margháttaðra verkefna
• Hvaða einkenni textans viljum við geta sýnt?
– letur, tákn, uppsetningu, eðli, stöðu innan texta, …
• Hvaða þætti þarf að staðla – og hvernig?
SGML
• SGML
– Standard Generalized Markup Language
– ISO 8879
• Eitt þekktasta mörkunarkerfi texta
– lýsandi (descriptive)
– ekki stýrandi (procedural)
• Mörkunin lýsir eindunum
– ekki hvað á að gera við þær
Munur SGML og HTML
• HTML er að mestu stýrandi
– <b>feitt</b>
– <i>skáletrað</i>
– <u>undirstrikað</u>
• Sumt er þó frekar lýsandi
– <h1>Fyrirsögn</h1>
• eða
– <h1>FYRIRSÖGN</h1>
Einingar
• Grundvallarhugtak er eining (element)
– getur verið hvaða textaeining sem er
• orð, setning, efnisgrein, kafli, ...
• Einingar eru afmarkaðar með SGML-mörkum
– upphafsmark er táknað með <>
– endamark er táknað með </>
• t.d. <lína>Þetta er síðasta línan á glærunni</lína>
DTD
• Hvert skjal vísar í ákveðið DTD
– document type definition
• DTD segir
– hvaða einingar textinn hafi að geyma
– og hvernig þær tengist innbyrðis
• DTD hefur líka að geyma „entity declarations“
– t.d. lýsingu á óvenjulegum táknum
Einfalt DTD
•
•
•
•
•
<!ELEMENT poem
<!ELEMENT author
<!ELEMENT title
<!ELEMENT stanza
<!ELEMENT line
•
•
•
•
•
•
When as in silks my Julia goes,
Then, then (me thinks) how sweetly flowes
That liquefaction of her clothes.
Next, when I cast mine eyes, and see
That brave Vibration each way free;
O how that glittering taketh me!
(author?, title, stanza+) >
(#PCDATA) >
(#PCDATA) >
(line+) >
(#PCDATA) >
Einföld SGML-mörkun
•
•
•
•
•
•
•
•
•
•
•
•
<poem>
<stanza>
<line>When as in silks my Julia goes,</line>
<line>Then, then (me thinks) how sweetly flowes</line>
<line>That liquefaction of her clothes.</line>
</stanza>
<stanza>
<line>Next, when I cast mine eyes, and see</line>
<line>That brave Vibration each way free;</line>
<line>O how that glittering taketh me!</line>
</stanza>
</poem>
Einkunnir
• Einingunum geta fylgt einkunnir (attributes)
– nánari skilgreiningar á eiginleikum
– sem hver eining getur haft
– lóðrétt strik táknar val milli möguleika
• Dæmi um einkunnalista (ATTLIST)
– <!ELEMENT person
(#PCDATA) >
<!ATTLIST person
gender (male | female | unknown) "unknown"
role
CDATA #IMPLIED >
Flóknara DTD
Flóknara dæmi um SGML-mörkun
Eindir
• Eindir (entities, entity references)
– e.k. skammstöfun
• a shorthand way of encoding detailed information
– afmarkað með & á undan og ; á eftir
• Í stað þess sem er milli & og ; kemur annað
– sem er skilgreint í DTD
– t.d. stafir sem ekki eru í enska stafrófinu
• það er táknað &thorn;a&eth;
XML
• XML
– Extensible Markup Language
• Hefur að verulegu leyti komið í stað SGML
– er e.k. millistig milli SGML og HTML
– sleppir flóknum og sjaldgæfum mörkum SGML
• XML er sveigjanlegt
– notendur geta sjálfir skilgreint ný mörk
Hönnunarforsendur XML
•
•
•
•
•
•
•
•
•
•
XML shall be straightforwardly usable over the Internet.
XML shall support a wide variety of applications.
XML shall be compatible with SGML.
It shall be easy to write programs which process XML
documents.
The number of optional features in XML is to be kept to
the absolute minimum, ideally zero.
XML documents should be human-legible and
reasonably clear.
The XML design should be prepared quickly.
The design of XML shall be formal and concise.
XML documents shall be easy to create.
Terseness in XML markup is of minimal importance.
TEI
• TEI
– Text Encoding Initiative
• Staðall um skráningu gagna í hugvísindum
– nýtti SGML en mótaði reglur um notkun þess
• „The TEI’s own original contribution is a detailed
set of guidelines as to how this standard is to be
used in text encoding“
– nú er TEI komið yfir í XML
Meginmarkmið TEI - 1
•
•
•
•
The guidelines are intended to provide a standard format
for data interchange in humanities research.
The guidelines are also intended to suggest principles for
the encoding of texts in the same format.
The guidelines should
– define a recommended syntax for the format,
– define a metalanguage for the description of text-encoding
schemes,
– describe the new format and representative existing schemes both
in that metalanguage and in prose.
The guidelines should propose sets of coding conventions
suited for various applications.
Meginmarkmið TEI - 2
•
•
•
•
The guidelines should include a minimal set of
conventions for encoding new texts in the format.
The guidelines are to be drafted by committees on
– text documentation
– text representation
– text interpretation and analysis
metalanguage definition and description of existing and
proposed schemes, coordinated by a steering committee of
representatives of the principal sponsoring organizations.
Compatibility with existing standards will be maintained as
far as possible.
Meginmarkmið TEI - 3
•
•
A number of large text archives have agreed in principle to
support the guidelines in their function as an interchange
format, and have (since the publication of the prior
edition), actually done so. We continue to encourage
funding agencies to support development of tools to
facilitate this interchange.
Conversion of existing machine-readable texts to the new
format involves the translation of their conventions into the
syntax of the new format. No requirements will be made
for the addition of information not already coded in the
texts.
TEI-mörkun forníslensks texta
• Hér er sýnt dæmi um texta á forníslensku sem
•
•
•
markaður er í SGML
Textinn er markaður samkvæmt DTD frá TEI
Útgáfa textans hér er á tiltölulega einföldu
formi af SGML TEI; hægt er að ganga miklu
lengra í merkingunni en hér er gert
Það sem er bundið í handritinu er auðkennt,
sömuleiðis sértákn eins og ‘Ã’ eða ‘R’ o.s.frv.
Skýringar á helstu táknum
• <pb n="1v"> = ‘page break’, þ.e. síðuskil, hér síða
•
•
•
•
‘1 verso’
<cb n="a"> = ‘column break’, þ.e. dálkaskil, hér
dálkur ‘a’
<lb n="10"> = ‘line break’, þ.e. línuskil, hér lína
‘10’
<expan>...</> = það sem er innan þessara merkja
er bundið í handritinu
&...; = það sem er milli ‘&’ og ‘;’ eru sértákn
Dæmi um sértákn
• ‘&rmaj;’ – þar sem ‘r’ stendur fyrir bókstafinn ‘r’
•
•
•
•
•
en ‘maj’ fyrir ‘majuscule’ – táknar ‘R’
‘æ’ – þar sem ‘a’ og ‘e’ tákna bókstafina sjálfa en
‘lig’ merkir ‘ligature’ – táknar ‘æ’
‘&iac;’ – þar sem ‘i’ merkir bókstafinn ‘i’ en ‘ac’
táknar ‘acute’ – táknar ‘í’
‘&th;’ stendur fyrir ‘þ’
‘&TH;’ stendur fyrir ‘Þ’
‘&dh;’ stendur fyrir ‘ð’
Texti -1
•
•
•
•
•
•
•
<text>
<body>
<div type="leaf" n="1v"><p>
<cb n="a">
<lb n="10">E&nmaj; e<expan>r</>
&th;<expan>eir</> l&eac;co at scaktafli
K<expan>nutr</> k<expan>onungr</>
<expan>oc</> V<expan>lfr</> J<expan>arl</>
&th;a l&eac;c k<expan>onungr</>
<lb n="11">fingr b<expan>ri</>ot miki&nmaj;.
&TH;a sk&aelig;c&th;i J<expan>arl</> af
h<expan>on</>o<expan>m</> riddara.
<lb n="12">K<expan>onungr</> bar aptr tafl
h<expan>ans</> <expan>ok</> s<expan>agþi</>
at h<expan>ann</> skyldi a&nmaj;<expan>at</>
leika. Jarl
•
EN er þeir léco
at scaktafli
Knutr konungr
oc Vlfr Jarl þa
léc konungr
fingr briot
mikiN. Þa
skæcþi Jarl af
honom riddara.
Konungr bar
aptr tafl hans
ok sagþi at
hann skyldi
aNat leika. Jarl
Texti - 2
•
•
•
•
<lb n="13">reiddiz oc sk&avligac;t ni&dh;r
•
taflbor&dh;ino. St&oac;&dh; up<expan>p</> oc
<lb n="14">gecc i b<expan>ro</>t.
K<expan>onungr</> m<expan>&aelig;lti</>.
Re&nmaj;r &th;v nv ulfr hin<expan>n</> ragi.
J<expan>arl</>
<lb n="15">sn<expan>er</>i aptr
v<expan>i&dh;</> dy&rmaj;in <expan>oc</>
m<expan>&aelig;</>l<expan>ti</>.
Le<expan>n</>g<expan>ra</>
m<expan>yn</>d<expan>er</> &th;u re&nmaj;a i
<lb n="16">&aac;&nmaj;e h&aelig;lgo ef &th;v
q<expan>u&aelig;</>m<expan>er</>
&th;<expan>vi</> v<expan>i&dh;</>.
kalla&th;<expan>er</> &th;v
e<expan>i</>g<expan>i</> &th;a Vlf
reiddiz oc skÈt
niðr taflborðino.
Stóð upp oc
gecc i brot.
Konungr mælti.
ReNr þv nv ulfr
hinn ragi. Jarl
sneri aptr við
dyRin oc mælti.
Lengra mynder
þu reNa i áNe
hælgo ef þv
quæmer þvi við.
kallaþer þv eigi
þa Vlf
Texti - 3
•
•
•
•
<lb n="17">hi&nmaj; raga e<expan>r</> ec
•
lag&dh;a t<expan>il</> at hialpa &th;<expan>er</>
e<expan>r</> sviar b&ohbr;r<lb n="18">&th;o y&dh;r se<expan>m</>
hu<expan>n</>da. Gecc J<expan>arl</> &th;a
&uac;t <expan>oc</> for t<expan>il</> svefns.
<lb n="19">L&iac;tlo si&dh;a&rmaj; gecc
k<expan>onungr</> at sofa. Ept<expan>er</>
v<expan>m</> morgoni&nmaj;
<lb n="20">&th;a e<expan>r</>
k<expan>onungr</> kl&aelig;ddiz. &th;a
m<expan>&aelig;</>l<expan>ti</>
h<expan>ann</> v<expan>i&dh;</> sc&oac;svein
s<expan>inn</>. Gac&th;v
hiN raga er ec
lagða til at
hialpa þer er
sviar b r- þo yðr
sem hunda.
Gecc Jarl þa út
oc for til svefns.
Lítlo siðaR gecc
konungr at sofa.
Epter vm
morgoniN þa er
konungr
klæddiz. þa
mælti hann við
scósvein sinn.
Gacþv
Texti - 4
•
•
•
•
•
•
•
<lb n="21">s<expan>egir</> h<expan>ann</> •
t<expan>il</> Vlfs J<expan>arls</> oc
d<expan>re</>p h<expan>ann</>.
Suei&nmaj;i&nmaj; gecc <expan>oc</>
v<expan>ar</> ab<expan>ro</>t v<expan>m</>
<lb n="22">h<expan>ri</>&th; oc co<expan>m</>
aptr. &TH;a m<expan>&aelig;lti</>
k<expan>onungr</>. Draptv Jarl. H<expan>ann</>
sv<expan>arar</>.E<expan>i</>g<expan>i</>
<lb n="23">d<expan>ra</>p ec h<expan>ann</>
&th;<expan>vi</>at h<expan>ann</> var
ge<expan>n</>gi&nmaj; t<expan>il</> lucis
k<expan>ir</>kio.
</p>
</div>
</body>
</text>
segir hann til
Vlfs Jarls oc
drep hann.
SueiNiN gecc oc
var abrot vm hriþ
oc com aptr. Þa
mælti konungr.
Draptv Jarl.
Hann svarar.
Eigi drap ec
hann þviat hann
var gengiN til
lucis kirkio.
Stöðlun sértákna fyrir forníslensku
• Mikinn fjölda sértákna þarf fyrir forníslensku
– aðeins örfá þeirra eru í UNICODE-staðlinum
• Helstu nauðsynleg tákn má skoða hér
– sjá nokkur dæmi á næstu glæru
• Bjarki M. Karlsson hefur unnið að stöðlun
– í tengslum við Medieval Unicode Font Initiative
– kynningu hans má skoða hér
Dæmi um nauðsynleg sértákn
Bönd og styttingar - 1
Bönd og styttingar - 2
Hlutar TEI-skjals
• Í sérhverju TEI-skjali eru tveir hlutar
– haus (header)
– texti (text)
• Í hausnum eru upplýsingar um textann
– höfund, titil, dagsetningu, uppruna,
mörkunarreglur o.s.frv.
• Í textahlutanum er sjálfur textinn
– markaður í samræmi við DTD skjalsins
Mörkun íslenskrar málheildar
• Mörkuð íslensk málheild (corpus) er í vinnslu
– hjá Stofnun Árna Magnússonar í íslenskum fræðum
• Málheildin á að innihalda hátt í 1000 textabúta
– samtals 25 milljón lesmálsorð
• Haus hvers textabúts verður markaður
– titill rits, aldur, nafn og kyn höfundar, útgáfuár, ...
• Textarnir verða markaðir
– með TEI-sniði fyrir málheildir
Hausar í markaðri íslenskri málheild
Texti í markaðri íslenskri málheild
TEI í orðabókum
• Nú er unnið að margmála leitarvél
– fyrir Norðurlandamálin
• Þar er notað TEI-XML
– sérstök útfærsla fyrir orðabækur
• Hér má sjá útfærsluna fyrir þetta verkefni
– hér er viðeigandi DTD
– hér er dæmi um stuttan orðalista
VoiceXML
• VoiceXML
– sérstök útfærsla á XML til að meðhöndla hljóð
• Hefur ýmis sérhæfð mörk
– sem nýtast í ýmiss konar talvinnslu
• talkennslum
• talgreiningu
• samræðukerfum
• Skylt VoiceXML er SSML
Meginmarkmið VoiceXML
•
•
•
•
•
Minimizes client/server interactions by specifying multiple
interactions per document.
Shields application authors from low-level, and platformspecific details.
Separates user interaction code (in VoiceXML) from
service logic (e.g. CGI scripts).
Promotes service portability across implementation
platforms. VoiceXML is a common language for content
providers, tool providers, and platform providers.
Is easy to use for simple interactions, and yet provides
language features to support complex dialogs.
VoiceXML-markaður texti
<?xml version="1.0" encoding="ISO-8859-1"?>
<vxml version="2.0">
<form id="ferskeytla">
<block>
<prompt>
<prosody rate="100">
<prosody pitch="low">
Nú er úti veður vott
verður allt að klessu.
Ekki fær hann Grímur gott
að gifta sig í <prosody rate="50">þessu</prosody>.
</prosody>
</prosody>
</prompt>
</block>
</form>
</vxml>
SSML
Tölvur og tungumál - 3
© Eiríkur Rögnvaldsson,
september 2008
Tölur og talningar í málrannsóknum
• Talningar voru lítið notaðar í málkunnáttufræði
– tíðni sýnir málbeitingu, ekki málkunnáttu
• Þetta hefur mikið breyst á seinustu árum
– farið að kanna tíðni ýmissa fyrirbæra í máli
– m.a. til að skoða breytingar í gangi
• Skýrist af aukinni tengingu við félagslega þætti
– talningar alltaf mikilvægar í félagsmálvísindum
Eigindargreining
• Eigindargreining (qualitative analysis)
–
–
–
–
miðar að nákvæmri lýsingu
byggist ekki á tíðni eða talningu
sjaldgæf fyrirbæri fá sömu athygli og algeng
hægt að gera grein fyrir margræðni
• Niðurstöður er ekki hægt að yfirfæra
– á sama hátt og niðurstöður megindargreiningar
– tölfræðilegum prófum verður ekki beitt
Megindargreining
• Megindargreining (quantitative analysis)
–
–
–
–
byggist á flokkun og talningu
áhersla á tíðni
tölfræðileg líkön eru notuð
hægt er að yfirfæra niðurstöður á annað
• Slík greining er annaðhvort – eða
– og því oft ídealísering á raunveruleikanum
– lítur framhjá sjaldgæfum fyrirbærum
Tíðniskrár og orðstöðulyklar
• Mjög margar málrannsóknir byggjast nú á
– tíðniskrám (frequency lists)
– orðstöðulyklum (concordances)
• Til eru fjölmörg mismunandi forrit
– til að útbúa tíðniskrár og orðstöðulykla
• Einfalt og þægilegt forrit er wincord
– sem er ókeypis og hefur verið sett inn á Uglu
• ásamt örstuttum leiðbeiningum á íslensku
Upphaf tíðniskrár í stafrófsröð
Bakstöðuskrá – orð sem enda á -ing
Merkingar orðsins orð
• Uppflettiorð/flettiorð (lemma, lexeme)
– skip, skip, skipi, skips eitt orð
• Orðmynd (word-form)
– skip, skip, skipi, skips þrjú orð
• Lesmálsorð (running word)
– skip, skip, skipi, skips fjögur orð
• Þegar talað er um type og token er
– type = orðmynd
– token = lesmálsorð
Úr Íslenskri orðtíðnibók
• Ég minni ykkur á það sem málfræðingurinn
sagði í áheyrn minni: Gætið að orðunum,
málfræðingar!
–
–
–
–
15 lesmálsorð
(greinarmerki ekki talin)
14 orðmyndir
(minni kemur tvisvar fyrir)
14 flettiorð
(málfræðingur tvisvar)
15 greiningarmyndir
• minni fær tvenns konar málfræðilega greiningu
Samanburður mislangra sagna
• Samanburður
Saga A
Saga B
– lesmálsorð
– orðmyndir
– meðaltíðni
34.547
5.043
6,85
3.142
1.071
2,93
• Saga A er u.þ.b. 11 sinnum lengri en Saga B
– en orðmyndir í A aðeins 4,7 sinnum fleiri en í B
• Þýðir það að A sé hlutfallslega orðfleiri en B?
– Nei, reyndar ekki, þótt svo kunni að virðast
Hlutfall fjögurra orða í fornsögum
• Sturlunga
– eg
929
þú
421
2,2:1
– eg
1087
þú
439
2,5:1
– og
15728
að
7884
2,0:1
– og
12641
að
6787
1,9:1
• Heimskringla
• Sturlunga
• Heimskringla
Algengir gallar á meðferð talna
• Látið nægja að reikna hlutföll
– án þess að huga að marktækni
• Ályktað um þýði út frá úrtaki
– án þess að hugað sé að því að úrtak sé dæmigert
• Ályktað um fylgni tveggja breyta
– án þess að huga að öðrum skýringum
• Töflur og myndir settar fram á villandi hátt
– þannig að munur líti út fyrir að vera annar en er
Tölfræðileg marktækni
• Marktækni niðurstaðna
– er hægt að yfirfæra niðurstöður á stærri hóp?
• Hverjar eru líkur á að tiltekið frávik frá
meðaltali/tiltekinn munur stafi af tilviljun?
– eftir því sem úrtak stækkar þarf minni
hlutfallslegan mun til að fá marktækni
• Tölfræðilega marktækur munur er ekki
sama og markverður munur
Viðmið um marktækni
• Marktækni miðast ekki við ákveðna tölu
– en mjög oft er miðað við að minna en 5% líkur
séu á að munur sem við finnum stafi af tilviljun
– þetta er táknað p < 0,05 (p = probability)
• Í sumum tilvikum eru gerðar meiri kröfur
– og miðað við t.d. p < 0,01 eða p < 0,001
– s.s. þegar verið er að skoða aukaverkanir lyfja
• Sjá nánar í glærum Amalíu Björnsdóttur
Gallar á talnameðferð
• Mjög oft er vinnubrögðum ábótavant
– í meðferð málfræðinga á tölum
• Meðal þess sem aflaga fer má nefna:
–
–
–
–
–
forsendur rangar á einhvern hátt
marktækni ekki reiknuð
aðferðum beitt ranglega eða af vankunnáttu
tölfræðiútreikningar birtir án skýringa
óleyfilegar ályktanir um þýði dregnar af úrtaki
Forsendur samanburðar rangar
Marktæknipróf
• Ýmis marktæknipróf eru til:
–
–
–
–
z-próf
Wilcoxon’s rank sum test
Mann-Whitney U-test
t-próf (t-test)
• Sjá nánar í glærum Amalíu Björnsdóttur
– kí-kvaðrat
• Sjá nánar í glærum Amalíu Björnsdóttur
Væntingartíðni
Innbyrðis tengsl orða – orðastæður
• Orðastæður (collocations)
– orð sem tengjast innbyrðis
• Collocations are a string of words that co-occur
under restrictions not definable by syntax nor
selectional restrictions alone. These restrictions
can be referred to as lexical restrictions since
the selection of the lexical unit is not
conceptual, thus synonyms cannot replace the
collocate. The meaning of a collocation is
compositional whereas the meaning of an idiom
is not.
Skilgreining á orðastæðum
• Collocation:
– the occurrence of two or more words within a
short space of each other in a text (Sinclair)
– “short space” =
– “a maximum of four words intervening”
– þ.e. fimm orð í hvorra átt
• Node (word):
– orðið sem miðað er út frá, lykilorðið
Hvaða orðastæður eru markverðar?
• Orðastæður skipta miklu máli í orðabókagerð
– til að negla nánar niður merkingarblæbrigði
• En hvaða orðastæður eru markverðar?
– og hvenær er dreifingin tilviljanakennd?
• Það má meta með tölfræðilegum aðferðum
– gagnkvæmum upplýsingum (mutual information)
– og Z-gildi (Z-score)
• Sjá nánar í glærum Amalíu Björnsdóttur
Að finna orðastæður
• Borin eru saman líkindi og veruleiki
– líkindin á því að tvö orð komi fyrir saman
– og hversu oft þau koma fyrir saman í raun
• Þannig má átta sig á fleiryrtum lexemum
– sem skrifuð eru í fleiri en einu lagi
– en verður að lýsa í einu lagi í orðabók
• Einnig gagnlegt við merkingargreiningu
– flokka má orð eftir umhverfi þeirra
Gildi orðastæðna
• Með hjálp orðastæðna má oft
– greina merkingar sundur á hálfsjálfvirkan hátt
• bank - river; bank - investment
– átta sig á mismunandi notkun samheita
• strong = powerful?
• strong - northerly, believer, currents, supporter, odor
• powerful - tool, minority, neighbor, symbol, figure, post
– ekki auðvelt að sjá “eðlilega flokka”
– en skiptir miklu máli við enskunám
z-gildi
•
O–E
z = ————

O = raunveruleg tíðni
E = væntingartíðni
 = staðalfrávik
_____________
 =  N (p (1-p))
p = væntingartíðni í textanum
N = fjöldi lesmálsorða í línunum sem um ræðir
Að reikna út z-gildi
• Ef orð kemur fyrir x sinnum í texta
–
–
–
–
–
–
og textinn hefur samtals y lesmálsorð
eru líkindin á að orðið standi á tilteknum stað
p = x/y
the:
p = 4194/75214 = 0,05576
______________________
 640*0,05576*(1-0,05576) = 5,80
37–35,69
z = ———— = 0,2259
5,80
Hvenær skiptir z-gildi máli?
• z-gildi fyrir the, 0,2259, er mjög lág
– sýnir ekkert marktækt frávik frá jafnri dreifingu
• Svona er hægt að reikna fyrir öll orðin
– taken fær þá 24,01; take 15,75; o.s.frv.
• Oft eru mörkin sett við töluna 3
– z-gildi yfir þrem sýnir marktækt frávik
– had fær 3,81; in fær 3,38; en that 2,17
Tölvur og tungumál - 4
© Eiríkur Rögnvaldsson,
september 2008
Tíðnikönnun Ársæls 1940
Samanburður tíðnikannana
Úr Íslenskri orðtíðnibók
Málfræðileg greining
Upphaf stafrófsskrár
Upphaf tíðniskrár
Algengustu orð í talmáli
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
vera
að (st)
það
já
ég
og
í
þessi
hann
sko
bara
á
ekki
þú
svona
2
3
6
179
8
1
4
15
7
5
13
39
176
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
hún
einhver
sem
nei
svo
en
þá
hafa
fara
með
vita
hérna
segja
nú
allur
11
59
9
28
12
44
10
29
18
67
25
49
26
Algengustu orð í ritmáli
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
og
vera
að (st)
í
á
það
hann
ég
sem
hafa
hún
en
ekki
til
þessi
6
1
2
7
12
3
9
5
18
23
16
21
13
39
8
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
við
um
með
af
að (fs)
sig
koma
verða
fyrir
segja
allur
svo
sá
fara
þegar
41
40
25
36
31
56
34
42
45
28
30
65
20
24
47
Orðtíðni í Íslendingasögum
Orðalykill að Nýja testamentinu
Orðstöðulykill Eddukvæða
Biblíulykill
Uppflettimyndir
Tveir nýlegir lyklar á netinu
• Sagnalykill
– Orðstöðulykill Íslendinga sagna
– upphaflega á geisladiski 1996, nú á netinu
– skoðið orð sem enda á -ferð
• Laxnesslykill
– gefinn út á netinu 2003
– skoðið appelsína, ævintýri
Tölvur og tungumál - 5
© Eiríkur Rögnvaldsson,
september 2008
Málheild og textasafn
• Málheild (corpus)
– safn texta, sett saman eftir ákveðnum reglum
– á yfirleitt að vera dæmigert á einhvern hátt
• representative corpus, balanced corpus
• Textasafn (text collection)
– safn texta, oft sett saman á tilviljanakenndan hátt
– ekki ætlað að vera dæmigert
Fall gagnamálfræðinnar
• [...] we can pinpoint a discontinuity in the
development of corpus linguistics fairly accurately
in the late 1950s. After this period the corpus as a
source of data underwent a period of almost total
unpopolarity and neglect. Indeed it is no
exaggeration to suggest that as a methodology it
was widely perceived as being intellectually
discredited for a time. (McEnery & Wilson
1996:4)
Chomsky gegn gagnamálfræði
• it is obvious that the set of grammatical sentences
•
cannot be identified with any particular corpus of
utterances obtained by the linguist in his field work
(Chomsky 1957:15)
Any natural corpus will be skewed. Some sentences
won't occur because they are obvious, others because
they are false, still others because they are impolite.
The corpus, if natural, will be so wildly skewed that
the description (based upon it] would be no more
than a mere list (Chomsky 1959:159)
Áhrif ytri aðstæðna á tíðni
• Ytri aðstæður sem ekki koma tungumálinu við
– spila inn í það hvort tilteknar setningar koma fyrir
– og hversu algengar þær eru:
•
•
•
•
Ég á heima í Reykjavík
Ég á heima á Hofsósi
Ég er tíu ára
Ég er eins árs
• Tíðni í textum þarf ekki að segja neitt
– um tungumálið og eðli þess
Endanleg textasöfn
• Textasöfn eru í eðli sínu endanleg
– hversu stór sem þau eru hafa þau að geyma
endanlegan fjölda orða og setninga
• En fjöldi setninga í málinu er óendanlegur
– því getur textasafn aldrei orðið endanlegur
mælikvarði á það hvaða setningar eru tækar
– þótt tiltekin setning finnist ekki í textasafni
getum við ekki sagt hvort það er vegna þess að
hún er ótæk, eða hvort þetta er bara tilviljun
Málfræði byggð á textasöfnum
• Þrjár meginröksemdir
– gegn því að byggja málfræði eingöngu á textum:
• Textarnir sýna málbeitingu
– en ekki málhæfni
• Textasafnið er aldrei fullkomið
– getur ekki sýnt allar setningagerðir og öll tilbrigði
• Nauðsynlegt er að byggja á máltilfinningu
– til að átta sig á ótækum setningum
Mikilvægi samvinnunnar
• I don't think there can be any corpora, however
large, that contain information about all of the
areas of English lexicon and grammar that I want
to explore ... [but] every corpus I have had the
chance to examine, however small, has taught me
facts I couldn't imagine finding out any other way.
My conclusion is that the two types of linguists
[corpus linguists and theoretical linguists] need
one another (Fillmore 1992:35)
Málheildir og orðabækur
• Málheildir eru forsenda nútíma orðabókagerðar
– leiða í ljós fjölbreyttar upplýsingar um málið
– sem ekki fást á annan hátt
• COBUILD ensk-enska orðabókin (1987)
– fyrsta stóra orðabókin sem byggðist á málheild
– olli byltingu í orðabókagerð
– um gerð hennar var skrifuð heil bók, Looking Up
Áhrif orðstöðulykils í orðabókagerð
Skýring tengdra orða
Áhrif tíðniupplýsinga á val flettiorðs
Áhrif umhverfis á túlkun
Tengsl formgerðar og merkingar
Orðastæður
skipverji
uns
alldjarflega og alldrengilega
hvíld og sjatna
Málheildir og máltækni
• Málheildir eru einnig ein helsta forsenda
flestra tegunda máltæknibúnaðar, s.s.
–
–
–
–
–
leiðréttingarforrita
talgreiningar
vélrænna þýðinga
einræðingar
o.fl.
• Þess vegna er víða lögð áhersla á gerð þeirra
British National Corpus
• Þekktasta málheildin er BNC
– The British National Corpus (BNC) is a 100
million word collection of samples of written
and spoken language from a wide range of
sources, designed to represent a wide crosssection of British English from the later part of
the 20th century, both spoken and written.
• BNC er fyrirmynd ýmissa annarra málheilda
– þ. á m. markaðrar íslenskrar málheildar
Samsetning BNC
• The written part of the BNC (90%) includes, for
example, extracts from regional and national newspapers, specialist periodicals and journals for all ages
and interests, academic books and popular fiction,
published and unpublished letters and memoranda,
school and university essays, among many other
kinds of text. The spoken part (10%) consists of
orthographic transcriptions of unscripted informal
conversations and spoken language collected in
different contexts, ranging from formal business or
government meetings to radio shows and phone-ins.
Tölvur og tungumál - 6
© Eiríkur Rögnvaldsson,
september 2008
Textasöfn á netinu
• Nokkur dæmi um textasöfn á netinu:
– Major Online Text Collections Ordered by
Language
– Project Runeberg
– Project Gutenberg
– Electronic Text Collections in Western European
Literature
– Electronic Text Center at Cornell
– The Complete Works of William Shakespeare
Íslensk textasöfn
• Ýmsir íslenskir textar eru á netinu:
–
–
–
–
–
–
Netútgáfan
Heimasíða Jónasar Hallgrímssonar
Textasafn Orðabókar Háskólans
Lagasafn
Umræður á Alþingi
Vefbækur
Íslensk orðtíðnibók, 1991
• 100 textabútar
– 5.000 orð hver
• Fimm textategundir
– 20 textar úr hverri
•
•
•
•
•
íslensk skáldverk
þýdd skáldverk
barna- og unglingabækur (10 frumsamdar, 10 þýddar)
ævisögur og endurminningar
fræðslutextar (10 hugvísindi, 10 raunvísindi og tækni)
Mörkuð íslensk málheild
• Í vinnslu hjá Stofnun Árna Magnússonar
– 25.000.000 lesmálsorð
– úr 900–1.000 textabútum
• hver allt að 40.000 lesmálsorð, a.m.k. 10% sleppt
• Málheildin verður skráð með stöðluðu sniði
– XML-útgáfa af TEI-sniði fyrir málheildir
• hverjum textabút fylgja bókfræðilegar upplýsingar
• hverri orðmynd fylgir mark og nefnimynd
Efnisval – upphaflegar hugmyndir
• 25% skáldverk
• 75% nytjatexti
– hagnýtt vísindi, náttúrufræði, þjóðfélagsfræði,
heimsmál, viðskipti, listir, trúarbrögð,
heimspeki, tómstundir, o.fl.
• Efni útgefið 2000 og síðar
Uppruni – upphaflegar hugmyndir
• 60% úr bókum
• 25% úr blöðum og tímaritum
• 5–10% úr öðru útgefnu efni
– bæklingar, auglýsingapésar o.s.frv.
• 5–10% úr óútgefnu efni
– bréf, dagbækur, ritgerðir, minnisblöð o.s.frv.
• <5% úr efni ætluðu til upplestrar
– pólitískar ræður, leikrit, útvarpshandrit, stólræður
...
Væntanleg niðurstaða
• < 45 % úr bókum
• 35 % úr blöðum og tímaritum
• 8 % blogg
• 8 % ýmislegt vefefni
– vefsetur, Vísindavefur)
• 4 % ýmislegt óútgefið
– til upplestrar, (t.d. stólræður, fréttahandrit útvarps),
tölvupóstur, lög og dómar, skólaritgerðir,
textavarp, ýmsir bæklingar
• ? Talmál (Ístal, þingræður, ...)
Upplýsingar um texta
<?xml version="1.0" encoding="ISO-8859-1" ?>
- <mimDoc id="A1A">
- <teiHeader>
- <fileDesc>
- <titleStmt>
<title>Mín káta angist. Skáldsaga. Íslensk skáldverk.</title>
.
<monogr>
<title>Mín káta angist</title>
<author born="1957">Guðmundur Andri Thorsson</author>
- <imprint>
- <publisher>Mál og menning</publisher>
<pubPlace>Reykjavík</pubPlace>
<date value="1988">1988</date>
</imprint>
</monogr>
.
</teiHeader>
Mörkun texta
<s n="4">
<w type="fp1en" lemma="ég">Ég</w>
<w type="sfm1eþ" lemma="setja">settist</w>
<w type="ao" lemma="fyrir">fyrir</w>
<w type="aa" lemma="framan">framan</w>
<w type="tfvfo" lemma="tveir">tvær</w>
<w type="lvfosf" lemma="gamall">gamlar</w>
<w type="nvfo" lemma="kona">konur</w>
<w type="ao" lemma="með">með</w>
<w type="nkfo" lemma="hattur">hatta</w>
<w type="ct" lemma="sem">sem</w>
<w type="sfg3fþ" lemma="segja">sögðu</w>
<w type="foven" lemma="hvor">hvor</w>
<w type="foveþ" lemma="annar">annarri</w>
<w type="au" lemma="já">jájá</w>
<w type="aa" lemma="þangað">þangað</w>
<w type="aa" lemma="til">til</w>
<w type="foveþ" lemma="annar">annarri</w>
<w type="sfm3eþ" lemma="hugkvæmast">hugkvæmdist</w>
Hvað má lesa út úr málheildinni?
• Upplýsingar um
–
–
–
–
tíðni orðflokka, orða, beygingarmynda
orðasambönd
setningagerð
merkingu
• Nú eru notuð flókin tölfræðilíkön
– til að vinna upp þessar upplýsingar
– og hagnýta þær
Nýting
• Stór málheild er nauðsynleg fyrir
– þróun þýðingarforrita
– orðabókagerð
– þróun máltæknitóla
• t.d. fyrir talgreiningu og talgervingu
– þróun hjálparforrita með ritvinnslu
• t.d. forrita sem leiðbeina um stafsetningu og málfræði
• En eykur líka almenna þekkingu á málinu
Hvaða ályktanir má draga af þögn?
• Lögmál ónýttra tækifæra
– If a certain syntactic form is used regularly in a
given function or type of context C in a living
language L, and if F is absent in C at an earlier
stage of the language, OL, then there is good
reason to assume that F does not exist in OL
(Faarlund 1990:17)
• Er þetta leyfileg ályktun?
Ótækar setningar í fornum textum
• Geta setningar sem koma fyrir verið ótækar?
– One must be prepared to allow a grammar to
characterize a certain sentence as ill-formed,
even though that sentence is actually attested in
the surviving documents. The sentence might
have been consciously used as an archaism, as an
imitation of a foreign construction, or even as
deliberately ungrammatical (Lightfoot 1979:5)
Tilbúin fornmálsdæmi
• En hvað um setningar sem ekki koma fyrir?
– Enough is known about Classical Greek for one
to make a large number of generalizations,
enough to allow most college curricula to
include courses on prose composition, where the
student composes and the teacher corrects
original and otherwise unattested Greek
sentences, based on their trained intuitions about
the language (Lightfoot 1979:6)
Textar ekki endanlegur vitnisburður
• Og niðurstaðan er
– [...] Thus, although one is bound to the texts,
they must be used with philological skill and
one must be ready to characterize certain
unattested sentences as well-formed and some
attested sentences as ill-formed (Lightfoot
1979:6)
• Textar eru ekki endanlegur vitnisburður
– um það hvað var tækt og hvað ótækt
Tölvur og tungumál - 7
© Eiríkur Rögnvaldsson,
september 2008
Töflur í Íslenskri orðtíðnibók
• Í Íslenskri orðtíðnibók eru margar töflur
– ekki bara um tíðni orða og orðmynda
– einnig um tíðni einstakra málfræðiformdeilda
• Þessar töflur gefa margvíslegar upplýsingar
– sem ekki lágu fyrir áður
– en veita manni nýja sýn á málkerfið
• Nokkrar þeirra eru sýndar hér á eftir
Tíðni og hlutfall orðflokka í ÍO
Tíðni og hlutföll orðflokka í OT
Tíðni og hlutfall kynja
Tíðni og hlutfall falla
Tíðni og hlutfall kyns, tölu, falls
Röð, tíðni og hlutfall beygingarmynda
Mörkun í beygingarkerfinu
Tíðni og hlutfall tíða, mynda og hátta
Tíð, persóna og textaflokkar
Tíðni einstakra persónuháttarmynda
Tíðni einstakra fallháttarmynda
Setningafræðileg dæmaleit í textum
• Hvernig er hægt að leita í textum
– að dæmum um tiltekna setningagerð?
• Tveir möguleikar:
– að lesa textann frá orði til orðs
• mjög seinlegt og hætt við að dæmi fari fram hjá manni
– að leita í tölvutækum textum
• en er hægt að leita í textum án nokkurrar greiningar?
• Sum atriði má tengja tilteknum orðum
Tenging við einstök orð
• Þágufallssýki má tengja ákveðnum sögnum
– leitað að lang*
– langa, langar, langi, langaði, langað
• engan okkar langar til að deyja
– en ýmislegt kemur með sem þarf að vinsa úr
• hann heyrði til þeirra langar leiðir
• Erfiðara er með kjarnafærslu í aukasetningum
– þar er ekki hægt að leita að tilteknum orðum
• Ég veit að þennan mann þekkir þú ekki
Leitað að mynstrum - 1
Leitað að mynstrum - 2
Leitað að dæmigerðum sögnum
• Hér var ekki hægt að leita beint að mynstrum
– þau voru ekki merkt á neinn hátt í textann
• Því þurfti að leita eftir tilteknum sögnum
– velja sagnir af ákveðnum flokkum
– skoða öll dæmi um þær
– vinsa úr dæmi sem hægt var að nota
• Þess vegna verða mörg dæmin keimlík
– og spurning hversu rétta mynd þetta gefur
Niðurstöður – 1
Niðurstöður - 2
Markaður texti
• Þetta er fljótlegra en lesa allan textann
– en samt seinlegt
– og hætt við að það gefi skakka mynd
• Miklu betra er að nota markaðan texta
– þar sem beygingarleg atriði hafa verið greind
– og e.t.v. setningafræðileg atriði líka
– og merkt inn í textann á kerfisbundinn hátt
• En hvar fæst slíkur texti?
Úr grunni Íslenskrar orðtíðnibókar
•f
•s
•n
•a
•n
•c
•n
•n
•s
•n
p
f
h
o
k
k
k
f
v
k e n
hann
g 3 e þ o átti
e o
afmæli
í
e o
dag
og
e n g
hvolpurinn
e n - m
Vaskur
g 3 e þ
var
e n
afmælisgjöf
hann
eiga
afmæli
í
dagur
og
hvolpur
Vaskur
vera
afmælisgjöf
Málfræðileg greining
• Orð
mark
• Orð
mark
–
–
–
–
–
–
–
fp1en
sfg1eþ
aa
aþ
nkeþ
c
sfg1eþ
–
–
–
–
–
–
–
,
nkeng
sfg3eþ
fp1eo
c
sfg3eþ
.
ég
stökk
á
eftir
strætó
og
veifaði
,
vagnstjórinn
sá
mig
og
stoppaði
.
Mörk í samfelldum texta
• Greiningarstrengur á eftir hverju orði
– ég fp1en stökk sfg1eþ á aa eftir aþ strætó nkeþ og
c veifaði sfg1eþ , , vagnstjórinn nkeng sá sfg3eþ
mig fp1eo og c stoppaði sfg3eþ . . ég fp1en
tautaði sfg1eþ takk au og c brosti sfg1eþ til ae
hans fpkee um ao leið nveo og c ég fp1en lét
sfg1eþ miðann nkeog detta sng . .
• Mörk meðhöndluð á sama hátt og orð
– þægilegt er að nota forritið wconcord
– en ýmis önnur koma til greina
Leitarmynstur
Kjarnafærsla í aukasetningum
Hverju skilar leitin?
• Leitin skilar allmörgum dæmum
– auðvelt að sía frá þau sem ekki eiga við
• Flest dæmin sýna aukafallsfrumlög
– að
– ef
– þegar
hana
henni
þess
væri ekki að dreyma
bauð svo við að horfa
var þörf
– að
– að
– ef
það
þetta
hlutum
geri ég líka
máttu þeir ekki
fylgir misjafn réttur
• Þó eru örfá dæmi um kjarnafærslu
Nýja þolmyndin
Ný þolmynd í fornu máli?
•
•
•
•
•
•
•
•
•
•
•
•
Eftir það var lokið þinginu
Og er þetta var sagt Snorra goða
Í því var sleppt blámanninum
og var skipt landinu í helminga
Eftir það var lýst áverkunum
þótti varnað sér sæmdar
Var skipt verkum með húskörlum
Í því var lokið stofuhurðinni
Svo var háttað húsinu
Þá var beitt útgöngu með konum
Síðan var kvatt féránsdóms
og var komið griðum á
Leppurinn það með áhrifssögnum
•
•
•
•
•
Einnig má [...] finna dæmi um það með öðrum sögnum en
þeim sem merkja veru eða hreyfingu, þ. á m. áhrifssögnum,
eins og sést í (8):[1]
(8) a. Það hefur einhver borðað allan grautinn minn.
b. Það getur enginn svarað þessu.
c. Það stungu einhverjir stúdentar smjörinu í vasann.
d. Það keypti hann eitthvert fífl.
– [1] Enska og norræn mál, önnur en íslenska (og að einhverju leyti
færeyska) leyfa slíkar setningar ekki […]. Þær eru þó sennilega ekki
ýkja algengar í málinu; a.m.k. fann ég ekki í fljótu bragði nein dæmi
af þessu tagi í ÍS-TAL safninu.
• (Eiríkur Rögnvaldsson: ÞAÐ í fornu máli – og síðar)
Dæmi úr ÍS-TAL
•
•
•
•
•
•
•
•
•
•
•
•
það átti enginn skap saman
það fékk enginn að fara þar inn nema ég
það heldur enginn að þú sért hommi
það veit enginn um það
það vill enginn kaupa þetta
það vissi enginn hvert átti að fara
það þorði enginn að hreyfa sig
það vissu þetta allir á Suðurnesjunum
það vita allir hver Rósa er
það þekkja allir Rósu
það þurfa allir að vinna nokkuð fyrir sálu sinni
það hefur eitthvað hreyft hana
Tölvur og tungumál - 8
© Eiríkur Rögnvaldsson,
september 2008
Lodge: Lítill heimur (Small World)
Tölvunotkun í bókmenntarannsóknum
• Tölvustuddar aðferðir eru notaðar við
– leit að óþekktum höfundi
– athugun á því hvort texti sé eftir þann sem talið er
– greiningu á því hvaða hluti texta sé eftir hvern
• Í slíkum athugunum er m.a. litið á
– sjaldgæf orð, orðasambönd, setningagerðir
– dæmigerð orð, orðasambönd, setningagerðir
– frávik frá normi
Hvað skrifaði Shakespeare?
• Vefsíða og grein um deilumál á því sviði
Gallar á höfundarrannsóknum
Mismunandi viðhorf til höfundarins
Brenglaður eða breyttur texti
Nauðsyn fjölbreyttrar þekkingar
Nýjar aðferðir í höfundargreiningu
Einkenni sem miða má við - 1
Einkenni sem miða má við - 2
Tölvustudd textagreining
• Greining kyns höfundar og textategundar
Niðurstöður greiningar
Einkenni kynja og textategunda -1
Einkenni kynja og textategunda - 2
Tengsl kynja og textategunda
• Fylgni er milli kynja og textategunda
– í ýmsum einkennum
Athuganir á Íslendingasögum
• Rannsóknir Peters Hallberg
– miklar talningar á orðum og orðasamböndum
– allar gerðar í höndunum, fyrir daga tölvunnar
– markmið ekki síst að leita að höfundi sagna
• Ritgerð Örnólfs Thorssonar, Orð af orði
– könnun á sérkennum einstakra sagna í orðaforða
– og innbyrðis líkindum í orðaforða sagna
Sérorð í Íslendingasögum
Hvað skrifaði Snorri Sturluson?
Textarannsókn í glæpamálum
• Stundum er textarannsókn beitt í glæpamálum
– forensic stylistics
– t.d. í leit að höfundi nafnlausra bréfa
– til að kanna hvort sjálfsmorðsbréf sé falsað
• Þá er litið á orðaforða og stíl og leitað að
– sjaldgæfum orðum í öðrum textum
– orðasamböndum sem einkenni textann
– sérkennum í setningagerð
innmúraður
• Tryggð hans við ónefndan mann er innmúruð og
•
ófrávíkjanleg og þess vegna þurfið þið Jón Gerald
ekki að hafa nokkrar áhyggjur. (Styrmir Gunnarsson,
tölvupóstur til Jónínu Benediktsdóttur)
Ekkert undir sólinni er alveg nýtt. Það rifjast upp
fyrir mér orð og nú í nýrri merkingu. Þetta orð er að
vísu til í Orðabók Háskólans og tengist þar múrverki
í öllum dæmum nema einu, sem er sótt í kvæði
Matthíasar Johannessen, fyrrverandi ritstjóra
Morgunblaðsins, og þar segir: „Ég opna hjarta mitt,
þetta innmúraða búr ljóða minna“ (Þorvaldur
Gylfason, Fréttablaðið 29. september 2005)
Nafnlaust bréf til Hæstaréttar, 2007
Tölvur og tungumál - 9
© Eiríkur Rögnvaldsson,
september 2008
Tungutækniskýrsla, 1999
• Meginmarkmið Íslendinga
– hlýtur að vera að unnt verði að nota íslenska
tungu, ritaða með réttum táknum, sem víðast
innan tölvu- og fjarskiptatækninnar
• Það er mikið verkefni
– að gera íslensku gjaldgenga á öllum sviðum, við
allar aðstæður. Því verður að leggja megináherslu
á þá þætti sem varða daglegt líf og starf alls
almennings, eða munu gera það á næstu árum
Grundvöllur tungutækni
• Hagnýting tungutækninnar byggist á viðamiklum mál-
•
rannsóknum af ýmsu tagi. Þær rannsóknir flokkast
einkum undir tölvufræðileg málvísindi eða máltölvun
og textamálfræði eða gagnamálfræði. Hagnýtingin
byggist einnig á notkun háþróaðrar aðferðafræði
tölvutækni og góðar lausnir munu byggjast á farsælli
samtvinnun málvísinda og upplýsinga- og tölvutækni.
Hér á landi er tungumálið tengt þjóðernishyggju og
frelsisbaráttu ungs þjóðríkis og er þar með tilfinningamál. Það gerir tungutækninni stundum erfitt fyrir.
Aðrir horfa meira til þess hvernig tungumálið gagnist
sem samskiptamiðill.
Íslensk upplýsingatækni á íslensku?
• Þegar ákveða skal hvort kosta eigi allmiklum fjárhæðum
til þess að aðlaga tól upplýsingatækninnar að íslensku
kemur óhjákvæmilega upp spurningin um hvort ekki sé
hagkvæmara að upplýsingatækni á Íslandi verði á ensku.
Allar líkur eru á að samskiptakerfi upplýsingaþjóðfélagsins verði fjöltyngd á næstu árum og áratug en verði
ekki eingöngu á ensku. Þessu ræður m.a. sterk staða
stærri málsvæða í Evrópu, svo sem franska og þýska
málsvæðisins. Á þessum svæðum er mjög ákveðin stefna
að nota þjóðtunguna í hugbúnaði og öðrum verkfærum
upplýsingatækninnar. Ólíklegt verður að teljast að þessi
málsvæði hætti að nota tungumál sitt á næstu árum.
Evrópusambandið og tungumál
• Stefna Evrópusambandsins á þessu sviði er einnig
sú að ýta undir fjöltyngi. Í bæklingnum Language
and Technology sem ESB gaf út 1996 segir um
þetta: “We should se Europe’s linguistic diversity
not as a weakness, however, but as one of its great
strengths. National and regional differences –
which reflect and are reflected by language – lead
to a rich diversity of attitudes and approaches to
solving problems and creating solutions. This
leads to the creation of a wider variety of products,
in many languages.”
Mörg tungumál upplýsingaþjóðfélags
• Því má búast við að samskiptakerfi upplýsingaþjóðfélagsins verði margtyngd. Séu þau á annað
borð hönnuð til þess að nota fleiri en eitt tungumál
ætti í framtíðinni fremur að verða auðveldara en
erfiðara að laga íslensku að hinni alþjóðlegu
upplýsingatækni. Verði því stefna stjórnvalda
áfram að nota íslensku í upplýsingatækni ætti það
að vera mögulegt. Það verður þó ekki gert án
verulegs átaks til að styrkja stöðu tungutækni á
Íslandi og það mun kosta fé og vinnu.
Tillögur starfshópsins
• Byggð verði upp sameiginleg gagnasöfn,
•
•
•
málsöfn, sem geti nýst fyrirtækjum sem
hráefni í afurðir
Fé verði veitt til að styrkja hagnýtar
rannsóknir á sviði tungutækni
Fyrirtæki verði styrkt til þess að þróa afurðir
tungutækni
Menntun á sviði tungutækni og málvísinda
verði efld
Áætlaður kostnaður
•
MKR
• Þróunarmiðstöð
25-50
• Rannsókna- og þróunarsjóður
150
• Styrkir til stærri alþjóðlegra verkefna 30
• Stutt hagnýtt nám í máltækni
10
• Meistaranám í tungutækni
10
•
Alls 225-250
–
á ári í 4-5 ár
1. Þýðing tölvuforrita
• Helstu tölvuforrit á almennum markaði
•
verði á íslensku (Windows, Word, Excel;
Netscape, Internet Explorer; Eudora; …)
Windows XP og Microsoft Office er komið
á íslensku
– og einnig ýmis önnur forrit
– en útbreiðsla þýðinganna er takmörkuð
– hætt að þýða stýrikerfi Macintosh á íslensku
2. Íslenskir bókstafir
• Unnt verði að nota íslenska bókstafi
•
(áéíóúýðþæö ÁÉÍÓÚÝÐÞÆÖ) við allar
aðstæður; í tölvum, GSM-símum, textavarpi
og öðrum tækjum sem almenningur notar.
Hér hefur staðan batnað
– m.a. með aukinni útbreiðslu Unicode
• Nú er hægt að nota íslenska stafi í GSM
– með einhverjum takmörkunum þó
3. Málgreining
• Unnið verði að þróun málgreiningar fyrir
•
íslensku, með það að markmiði að geta greint
íslenskan texta í orðflokka og setningarliði.
Nokkur slík verkefni hafa verið unnin
–
–
–
–
beygingarlýsing íslensks nútímamáls
tveir málfræðilegir markarar
vélræn íslensk setningagreining
hlutaþáttun íslensku
3.1 Textaheild – 3.2 Orðasafn
• Koma þarf upp stórri tölvutækri textaheild
•
•
•
með íslenskum textum af sem fjölbreyttustum
toga til að byggja áframhaldandi vinnu á.
Verið er að byggja upp slíka málheild
Koma þarf upp fullgreindu orðasafni (með
málfræðilegri og merkingarlegri greiningu)
til nota í áframhaldandi vinnu.
Ekkert slíkt orðasafn er til
– þótt til sé hráefni sem vinna mætti út frá
4. Hjálparforrit við ritun
• Til verði góð hjálparforrit við ritun texta á
•
íslensku, s.s. orðskiptiforrit, stafsetningarleiðréttingarforrit, málfarsleiðréttingarforrit o.fl.
Nýtt forrit til stafsetningarleiðréttingar hefur
verið unnið á vegum Microsoft
– en stendur Púkanum að baki
• Unnið er að samhengisháðri ritvilluleit
– sem einnig nýtist við málfarsleiðréttingu
• Málfarsleiðréttingaforrit eru ekki til enn
5. Íslenskur talgervill
• Til verði góður íslenskur talgervill sem geti
•
lesið upp íslenskan texta með skýrum og
auðskiljanlegum framburði og eðlilegu tónfalli
og sem sé skiljanlegur án þjálfunar.
Nýr talgervill, Ragga, er kominn á markaðinn
– byggist á fullkomnari tækni en fyrri talgervlar
– fær yfirleitt góða dóma
– virðist ætla að ná verulegri útbreiðslu
6. Talgreining
• Unnið verði að þróun talgreiningar fyrir
•
íslensku, með það að markmiði að til verði
forrit sem geti túlkað eðlilegt íslenskt tal.
Háskólinn og fjögur fyrirtæki stóðu að Hjali
– íslenskri stakorðagreiningu
– íslenskur talgreinir er nú til og virkar vel
– en hefur þó ekki verið nýttur að ráði
• Langt er í greiningu samfellds máls
7. Vélrænar þýðingar
• Unnið verði að þróun forrita til vélrænna
•
þýðinga milli íslensku og annarra
tungumála, m.a. til að auðvelda leit í
gagnabönkum.
Hér hefur lítið gerst
– ýmsir hafa unnið með þýðingarminni
– engin nothæf þýðingarforrit hafa birst
– en Alnet vinnur að íslensk-ensku þýðingarforriti
8. Ábyrgðaraðilar
• Ákveðnum aðilum (stofnunum eða fyrirtækjum)
•
verði falin ábyrgð á einstökum verkefnum.
Sett var á fót verkefnisstjórn í tungutækni
– til að ýta verkefnum af stað og samræma aðgerðir
• Þetta skilaði góðum árangri
– en verkefnisstjórnin var lögð niður í árslok 2004
• Stofnað hefur verið Tungutæknisetur
– en það hefur ekkert fé til umráða
Hvað fékkst?
•
• Fjáraukalög 2000
• Fjárlög 2001
• Fjárlög 2002
• Fjárlög 2003
• Fjárlög 2004
•
MKR
40
64,5
0
15
13,5
Alls 133MKR
Staðan að lokinni tungutækniáætlun
• Tungutækniáætlunin skilaði árangri
–
–
–
–
menntun á sviði tungutækni er hafin
Íslendingar eru farnir að fara í nám erlendis
gagnasöfn hafa verið byggð upp
ýmsum verkefnum hefur verið ýtt af stað
• En íslensk tungutækni er ekki orðin sjálfbær
– nú þegar tungutækniáætluninni er lokið
– og einmitt þyrfti meira fé í rannsóknir og þróun
Fordæmi Eista
• Eistar eru smáþjóð eins og við
– aðeins um ein milljón talar eistnesku
• Þeir hafa gert áætlun um þróun tungutækni
– til sjö ára, 2004-2011
• 2004 voru þeir á svipuðu stigi og við
– en þeirra tungutækniáætlun var þá að byrja
– okkar var að enda
• Ætlum við að láta hér við sitja?
Tölvur og tungumál - 10
© Eiríkur Rögnvaldsson,
september 2008
2001
•
Dave Bowman: Hello, HAL. Do you read me, HAL?
HAL: Affirmative, Dave, I read you.
Dave Bowman: Open the pod bay door, HAL.
HAL: I'm sorry Dave, I'm afraid I can't do that.
Dave Bowman: What's the problem?
HAL: I think you know what the problem is just as well as I do.
Dave Bowman: What are you talking about, HAL?
HAL: This mission is too important for me to allow you to jeopardize it.
Dave Bowman: I don't know what you're talking about, HAL.
HAL: I know you and Frank were planning to disconnect me, and I'm
afraid that's something I cannot allow to happen.
Dave Bowman: Where the hell'd you get that idea, HAL?
HAL: Dave, although you took thorough precautions in the pod against
my hearing you, I could see your lips move
Samtal manns og tölvu
• HAL – talandi vélmenni
–
–
–
–
í 2001: A Space Odyssey eftir Stanley Kubrick
talar við fólk eins og ekkert sé
myndin spáði aldarþriðjung fram í tímann
hefur sú spá ræst?
• Hvað þarf tungutækni að ráða við
– til að hægt sé að búa til jafningja HALs?
Hvað getur HAL?
• HAL is depicted as being capable not only of
–
–
–
–
–
–
–
–
speech recognition,
facial recognition, and
natural language processing, but also
lip reading,
art appreciation,
interpreting emotions,
expressing emotions and
reasoning.
Talkennsl - talgerving
• Speech recognition
– talkennsl
• Það að búnaður breytir talmerki í framsetningu á því
sem felst í talinu. Það sem felst í talinu getur verið
sett fram sem runa af orðum eða hljóðönum.
Upplýsingarnar sem á að bera kennsl á geta verið orð
í tiltekinni orðarunu eða hljóðan í tilteknu tungumáli.
• Speech synthesis
– talgerving
• Myndun gervitals
Náttúrulegt tungumál
• Natural language
– náttúrulegt tungumál
• Mál þar sem reglur ráðast af notkunarvenjum en eru
ekki skilgreindar fyrir fram.
• Natural language understanding
– málskilningur
• Natural language generation
– málmyndun
Upplýsingar - ályktanir
• Information extraction
– útdráttur
• Information retrieval
– upplýsingaheimt
• Aðgerðir, aðferðir og verklag við að afla upplýsinga
um tiltekið efni frá gögnum í geymslu
• Inference
– ályktun
• Rökleiðsla þar sem niðurstöður eru leiddar af
þekktum forsendum
Svið mállegrar greiningar
• Phonetics
– hljóðfræði
• Phonlogy
– hljóðkerfisfræði
• Morphology
– orðhlutafræði
• Syntax
– setningafræði
• Lexical semantics
– merkingarfræði orða
• Compositional semantics
– merkingarfræði setninga
• Pragmatics
– málnotkunarfræði
• Discourse conventions
– orðræðuvenjur
Margræðni
• Flest vandamál í talkennslum og málgreiningu tengjast margræðni (ambiguity)
– I made her duck
•
•
•
•
•
I cooked waterfowl for her
I cooked waterfowl belonging to her
I created the (plaster?) duck she owns
I caused her to quickly lower her head or body
I waved my magic wand and turned her into
undifferentiated waterfowl
Íslensk margræðni
• Er hægt að finna sambærileg íslensk dæmi?
– Ég tók mynd af Siggu
• Ég smellti af mynd sem sýnir Siggu
• Ég hrifsaði mynd úr höndunum á Siggu
• Ég náði mér í mynd sem sýnir Siggu
– Jón lofaði Pétri að raka sig
• Jón hét Pétri því að Jón myndi raka sig
• Jón leyfði Pétri að raka Jón
• Jón leyfði Pétri að raka Pétur
Einræðing
• Part-of-speech tagging
– orðflokksmörkun
• Word sense disambiguation
– einræðing merkingar
• Lexical disambiguation
– einræðing orða
• Syntactic disambiguation
– einræðing setningagerðar
Þáttun
• Parsing
– þáttun
• Það að búa til þáttunartré (parse tree): Tré sem lýsir
því hvernig tiltekinn strengur er búinn til eftir
tiltekinni mállýsingu
• Probabilistic parsing
– líkindaþáttun
• Speech act interpretation
– túlkun talgjörðar/talathafnar
Tæki og tól
• State machines
– stöðuvélar
• Formal rule systems
– formleg reglukerfi
• Logic
– rökfræði
• Probability theory
– líkindafræði
Tungumál og greind
• Oft er tungumálið tengt við greind
– ef tölvur verða jafnokar manna í beitingu
tungumáls merkir það að þær hafa öðlast greind
• Alan Turing (1950)
– kom fram með aðferð til að meta hvort tölvur
gætu hugsað
– út frá beitingu þeirra á tungumáli
Próf Turings - lýsing
• The new form of the problem can be described in
terms of a game which we call the “imitation game.”
It is played with three people, a man (A), a woman
(B), and an interrogator (C) who may be of either sex.
The interrogator stays in a room apart from the other
two. The object of the game for the interrogator is to
determine which of the other two is the man and
which is the woman. He knows them by labels X and
Y, and at the end of the game he says either “X is A
and Y is B” or “X is B and Y is A.” The interrogator
is allowed to put questions to A and B.
Próf Turings - ályktun
• When talking about the Turing Test today what is
generally understood is the following: The
interrogator is connected to one person and one
machine via a terminal, therefore can’t see her
counterparts. Her task is to find out which of the
two candidates is the machine, and which is the
human only by asking them questions. If the
machine can “fool” the interrogator, it is
intelligent.
Próf Turings - spá
• I believe that in about fifty years’ time it will be
possible, to programme computers, with a storage
capacity of about 109, to make them play the
imitation game so well that an average interrogator
will not have more than 70 per cent chance of
making the right identification after five minutes of
questioning. [...] I believe that at the end of the
century the use of words and general educated
opinion will have altered so much that one will be
able to speak of machines thinking without
expecting to be contradicted.
ELIZA
• 1966 kom Weisenbaum fram með forrit
– sem gat blekkt ýmsa með málnotkun sinni
– en byggist á einföldum sniðmátum
• ELIZA leikur sálfræðing
– og heldur uppi vitrænum samræðum
– að því er virðist
– en auðvelt er þó að afhjúpa hana
Dæmi um tungutækni í verki
• Í Kanada er í notkun forrit sem semur
•
•
veðurspár á ensku og frönsku út frá gögnum
Babel Fish frá Systran sinnir daglega meira
en milljón þýðinga fyrir AltaVista
Í Cambridge í Massachusetts er hægt að
spyrja tölvu á venjulegu talmáli um
veitingastaði – tölvan vinnur úr gagnasafni
sínu og svarar
Verkefni á tilraunastigi
• Tölva les hundruð ritgerða stúdenta og
•
•
•
gefur einkunnir á sama hátt og kennari
Tölva lætur nemendur lesa upphátt og beitir
talkennslum til að gera athugasemdir
Tölva „horfir á“ myndband af fótboltaleik
og lýsir leiknum á venjulegu máli
Tölva spáir fyrir um næstu orð til að
aðstoða fatlaða í málnotkun
Tölvur og tungumál - 11
© Eiríkur Rögnvaldsson,
október 2008
Mismunandi fjöldi orðflokka
• Í hefðbundinni málfræði eru oft 8 orðflokkar
– nafnorð, sagnir, fornöfn, forsetningar, atviksorð,
samtengingar, lýsingarhættir, og greinir
• Í enskri vélrænni greiningu eru fleiri flokkar
– 45 í Penn Treebank
– 87 í Brown corpus
– 146 í C7 tagset
Undirflokkar greiningar
• Þá er greint í ýmsa undirflokka
– sagnir
• venjulegar sagnir, hjálparsagnir, háttarsagnir
• þátíð greind sér, lh.þt., 3. persóna et. nt.
– nafnorð
• teljanleg og safnheiti
• samnöfn og sérnöfn
– atviksorð
• staðaratviksorð, háttaratviksorð, tíðaratviksorð ...
Gagnsemi greiningar
• Málfræðileg greining skiptir máli í
–
–
–
–
–
–
–
talkennslum
tölvutali (t.d. varðandi áherslu)
málfræðileiðréttingu
stafsetningarleiðréttingu
vélrænum þýðingum
„stemming“ í upplýsingaheimt
sjálfvirkri gerð útdrátta
Rök fyrir orðflokkagreiningu
• Greining í orðflokka byggist á ýmsum þáttum:
– merkingarleg rök
• nafnorð eru heiti á hlutum, hugmyndum ...
– beygingarleg rök
• nafnorð beygjast í föllum og tölum, bæta við sig greini ...
– setningafræðileg rök
• nafnorð eru höfuðorð nafnliða; frumlag, andlag ...
• Merkingarlegu rökin eru ótraustust
Íslensk orðflokkagreining
• Í hefðbundinni íslenskri orðflokkagreiningu
eru orðflokkarnir taldir 10
– sem skiptast í þrjá meginflokka:
• Fallorð
– nafnorð, lýsingarorð, fornöfn, töluorð, greinir
• Sagnorð
• Smáorð
– forsetningar, atviksorð, samtengingar,
upphrópanir, nafnháttarmerki
Markaskrá og flokkun
• Markaskrá (tagset)
– þau mörk (greiningarstrengir) sem sett eru á orðin
• Markaskráin í Íslenskri orðtíðnibók er stór
– 621 mark (greiningarstrengur) kemur fyrir
– en allt að 700 eru hugsanlegir
• Byggist að mestu á hefðbundinni greiningu
– forsetningar, upphrópanir og nafnháttarmerki þó
felld undir atviksorð
Greiningaratriði
• Nafnorð
– kyn, tala, fall, greinir; sérmark fyrir sérnöfn
• Lýsingarorð
– stig, beyging, kyn, tala, fall
• Sagnir
– háttur, mynd, persóna, tala, tíð; fallstjórn
• Fornöfn
– flokkur, kyn/persóna, tala, fall
Margræðni orðmynda
• Ekki eru allar orðmyndir ótvíræðar
– þótt í sé ótvírætt orð er á það ekki:
•
•
•
•
á
á
á
á
fs.
so. 1./3. pers. et. nt. fh. gm.
no. kvk. et. nf./þf./þgf.
no. kvk. et. þf./þgf.
(eiga)
(á)
(ær)
– þótt fóruð sé ótvírætt orð er fórum það ekki:
• fórum
• fórum
so. 1. pers. ft. þt. fh. gm.
no. kvk. ft. þgf.
(fara)
(fórur)
Margræðni í Brown Corpus
• Brown Corpus:
– 11, 5% orðmynda margræðar
– meira en 40% lesmálsorða margræð
•
•
•
•
•
•
•
ótvíræð (eitt mark) 35.340
tvö mörk
4.100
þrjú mörk
264
fjögur mörk
61
fimm mörk
12
sex mörk
2
sjö mörk
1 (still)
Margræðni í Íslenskri orðtíðnibók
• Íslensk orðtíðnibók:
– 15,9% orðmynda margræðar
•
•
•
•
•
•
•
•
ótvíræð
49.902
tvö mörk
6.586
þrjú mörk
1.772
fjögur mörk
579
fimm mörk
209
sex mörk
96
sjö mörk
69
átta mörk
26
níu mörk
20
tíu mörk
18
ellefu mörk 23
tólf mörk
8
þrettán mörk 11
fjórtán mörk 7
fimmtán mörk 4
sextán mörk
2
Nákvæmni greiningar
• Hversu nákvæm á greiningin að vera?
– íslenska er meira beygingamál en t.d. enska
– og því koma fleiri formleg atriði til greina
– en er nauðsynlegt að greina þau öll?
• Torveldar stór markaskrá greininguna?
– möguleikar á villum verða fleiri
• ef t.d. þarf að gefa hjarta fjögur mismunandi mörk
– en greining orðanna í kring verður auðveldari
Þrjár gerðir markara
• Reglumarkarar (rule-based taggers)
– byggjast á málfræðilegum reglum
• Líkindamarkarar (stochastic taggers)
– læra af þjálfunarsafni
• Námfúsir markarar (transformation-based
taggers)
– blanda af aðferðum hinna tveggja
Reglumarkarar
• Reglumarkarar fletta orðum upp í orðasafni
– nota reglur um gerð setninga og setningarliða til
að marka orðin
– forsetning kemur t.d. sjaldan næst á undan sögn
• því er líklegt að orðið fórum sé fremur nafnorð en
sögn í sambandinu í fórum mínum
– eignarfornafn sambeygist undanfarandi nafnorði
• í sambandinu hesta þinna er þinna ótvírætt eignarfall
og þannig sést að hesta er ef. en ekki þf.
Reglumarkarar á Norðurlöndum
• ENGTWOL er finnskur reglumarkari
– byggður á tveggja sviða líkaninu
– http://www.lingsoft.fi/cgi-bin/engcg
• Oslo-Bergen taggeren er norskur reglumarkari
– byggist á svipuðum grunni
– http://decentius.hit.uib.no:8005/cl/cgp/test.html
• Upphaflegri gerð norska markarans lýst hér:
– http://www.hf.uio.no/tekstlab/tagger2.html
Dæmi frá ENGTWOL
• Pavlov PAVLOV N NOM SG PROPER
• had
HAVE V PAST VFIN SVO
•
HAVE PCP2 SVO
• shown SHOW PCP2 SVOO SVO SV
• that
ADV
•
PRON DEM SG
•
DET CENTRAL DEM SG
•
CS
• salivation N NOM SG
Dæmi um reglu í ENGTWOL
• Orð: that
• ef
– (+1 A/ADV/QUANT); /* ef næsta orð er lo, ao eða kvantari */
– (+2 SENT-LIM);
/* og þarnæst koma setningaskil /*
– (NOT –1 SVOC/A)
/* og orðið á undan er ekki so. (eins og
consider) sem leyfir lo. sem fylliliði */
– þá skal þurrka út önnur mörk en ADV (ao)
– annars þurrka út ADV mark
Líkindamarkarar
• Líkindamarkarar meta líkindi á tilteknu marki
– út frá tilteknu umhverfi
• Líkindi á að orðið x hafi markið Y í umhverfi Z
– eru reiknuð út frá líkindum á að x hafi markið Y
– og líkindum á að Y standi í umhverfi Z
• Valið er markið sem fær hæst gildi í:
– P(orð|mark) x P(mark|undanfarandi n mörk)
Dæmi um val á réttu marki
• Hér á race að fá mismunandi mörk:
– Secretariat/NNP is/VBZ expected/VBN to/TO
race/VB tomorrow/NN
– People/NNS continue/VBP to/TO inquire/VB
the/DT reason/NN for/IN the/DT race/NN for/IN
outer/JJ space/NN
• Þá þarf að reikna:
– P(VB|TO)P(race|VB)
– P(NN|TO)P(race|NN)
Líkindin reiknuð út
• Líkindi á so. eftir TO eru 15 x meiri en á no.
– P(NN|TO) = 0,021
– P(VB|TO) = 0,34
• Líkindi á race sem no. eru 14 x meiri en á so.
– P(race|NN) = 0,00041
– P(race|VB) = 0,00003
• Þetta gefur rétta niðurstöðu:
– P(VB|TO)P(race|VB) = 0,00001
– P(NN|TO)P(race|NN) =0,000007
Munur á tegundum markara
• Báðar þessar tegundir hafa kosti og galla
– sem þarf að vega og meta hverju sinni
• Fljótlegra er að koma upp tölfræðimörkurum
– fjögur ársverk fóru t.d. í norskan reglumarkara
– en þrír mannmánuðir í norskan tölfræðimarkara
• Reglumarkarar skila réttari greiningu
– og ráða betur við margbrotna greiningu
Þjálfunarsafn
• Þjálfunarsafn (training corpus)
– texti sem hefur verið greindur í höndunum
– eftir sama kerfi og vélræna greiningin notar
• Þetta nýtist við gerð beggja tegunda markara
– til að átta sig á mynstrum í textanum
– til að sjá tíðni mismunandi greininga sömu mynda
• Líkindamarkarar nota þó ekki alltaf slíkt safn
– en þá nást ekki eins góðar niðurstöður
Uppbygging þjálfunarsafns
• Gott þjálfunarsafn er nauðsynlegt
– uppbygging þess fer venjulega fram í þrepum
• Lítill hluti textasafns markaður handvirkt
– markari þjálfaður á þeim hluta
• Stærri hluti safnsins markaður á vélrænan hátt
– niðurstöður leiðréttar og markari þjálfaður aftur
• Endurtekið nokkrum sinnum
– þar til viðunandi nákvæmni er náð
Markari Brills
• Þekkt útfærsla markara kennd við Eric Brill
– Brill’s tagger, Brill type tagger
• Byggist á transformation based learning
–
–
–
–
–
markarinn er keyrður á þjálfunarsafn
þar sem líklegasta mark hvers orðs er komið inn
síðan kemur hann sér upp reglum
sem breyta mörkum út frá umhverfi
orðunum í kring eða mörkum þeirra
Reglur Brills
• Reglurnar byggjast á sniðmátum (templates)
– til að takmarka breytingarnar
• Reglur geta unnið hver á móti annarri
– vegna þess að þær horfa á mismunandi atriði
• Reglunum er síðan beitt og villur taldar
– og þær reglur valdar sem fækka villum mest
• Mark hvers orðs getur breyst fram og aftur
Giskari
• Giskari (unknown word guesser) Brills
– orð með upphafsstaf talin sérnöfn
– önnur orð talin nafnorð (samnöfn)
• Síðan er orðið skoðað
–
–
–
–
eru 1-4 fyrstu/síðustu stafirnir forskeyti/viðskeyti?
kemur út orð sé 1-4 stöfum bætt framan/aftan við?
er tiltekið orð næst á undan eða eftir?
kemur tiltekinn stafur fyrir í orðinu?
Sniðmát Brills
•
•
•
•
•
•
•
•
•
•
•
•
•
tag:A>B <- tag:C@[-1].
tag:A>B <- tag:C@[1].
tag:A>B <- tag:C@[-2].
tag:A>B <- tag:C@[2].
tag:A>B <- tag:C@[-1,-2].
tag:A>B <- tag:C@[1,2].
tag:A>B <- tag:C@[-1,-2,-3].
tag:A>B <- tag:C@[1,2,3].
tag:A>B <- tag:C@[-1] & tag:D@[1].
tag:A>B <- tag:C@[-1] & tag:D@[-2].
tag:A>B <- tag:C@[1] & tag:D@[2].
tag:A>B <- wd:C@[0].
tag:A>B <- wd:C@[-1].
•
•
•
•
•
•
•
•
•
•
•
•
•
tag:A>B <- wd:C@[1].
tag:A>B <- wd:C@[-2].
tag:A>B <- wd:C@[2].
tag:A>B <- wd:C@[-1,-2].
tag:A>B <- wd:C@[1,2].
tag:A>B <- wd:C@[0] & wd:D@[-1].
tag:A>B <- wd:C@[0] & wd:D@[1].
tag:A>B <- wd:C@[0] & wd:D@[2].
tag:A>B <- wd:C@[0] & wd:D@[-2].
tag:A>B <- wd:C@[0] & tag:D@[2].
tag:A>B <- wd:C@[0] & tag:D@[-2].
tag:A>B<- wd:C@[0] & tag:D@[-1].
tag:A>B <- wd:C@[0] & tag:D@[1].
Sniðmát og reglur
• a good buy
– tag:A>B <- tag:C@[-1].
• Breytið greiningarstreng A í greiningarstreng B
• ef undanfarandi orð hefur greiningarstreng C
• a bad taste
– tag:VB>NN <- tag:JJ@[-1].
• Breytið greiningunni so. (VB) í greininguna no. (NN)
• ef orðið á undan er lo. (JJ)
Dæmi úr Wall Street Journal Corpus
•
•
•
wd(7799,a).
tag(7799,'DT').
tag('DT','DT',7799).
•
•
•
wd(7800,good).
tag(7800,'JJ').
tag('JJ','JJ',7800).
•
•
•
wd(7801,buy).
tag(7801,'VB').
tag('VB','NN',7801).
• wd = orð
• tag = mark (greining)
• 7799, 7800, 7801
•
•
•
•
= hlaupandi númer
a
DT (greinir)
good
JJ (lo.)
buy
VB (so.)
buy
NN (no.)
Reglusafnið prófað
• Markarinn kemur sér upp reglusafni
– þegar hann er keyrður á þjálfunarsafnið
• Reglurnar eru mismargar og mismunandi
– eftir stærð þjálfunarsafnsins
– eftir því hversu oft hvert samband kemur fyrir
– eftir því hvernig sniðmátin eru
• Rétt greint prófunarsafn (test corpus)
– er nauðsynlegt til að meta gæði reglusafnsins
Prófun markara
• Við prófun er oft beitt „cross validation“
– textasafni skipt í n (oft 10) aðskilin undirmengi
– þjálfunarsöfn búin til með því að skilja eftir eitt
eða fleiri af þessum mengjum
– það eða þau undirmengi sem ekki verða hluti af
þjálfunarsafni notuð sem prófunarsafn
• Prófun endurtekin n sinnum
– fundið meðaltal og staðalfrávik
Mælikvarðar á markara
• Tveir mælikvarðar skipta mestu
– þegar árangur markara er metinn
• Nákvæmni (precision)
– hversu rétt svör fást
• (fjöldi réttra svara)/(heildarfjöldi svara)
• Heimt (recall)
– hlufall svara sem fást af þeim sem ættu að fást
• (fjöldi réttra svara)/(fjöldi réttra svara í viðmiðun
(reference))
Hámarksárangur markara
• Gold Standard test set:
– prófunarsafn sem er 100% rétt greint
• Flestir markarar ná u.þ.b. 96-97% réttu
– hversu gott er það?
• Mannleg greining nær svipuðu hlutfalli
– eftir það fer málfræðinga að greina á
– ná þó allt að 100% ef þeir bera sig saman
Upphafsstaða í mörkun
• Unigram Baseline:
– valið líklegasta markið fyrir hvert margrætt orð
– út frá tíðnitölum úr handmörkuðu safni
• Þetta er sagt gefa 90-91% rétt mörk í byrjun
– í enskum rannsóknum
• Talan fer þó eftir stærð markaskrárinnar
– margar myndir eru einræðar í orðflokksgreiningu
– en margræðar ef greiningin er nákvæmari
Aðferðir við mörkun óþekktra orða
• Látið sem öll mörk séu jafnlíkleg
– giskað á rétt mark út frá þrístæðum
• Líkindi dregin af sjaldgæfum orðum
– t.d. orðum sem eitt dæmi er um í þjálfunarsafni
– gert ráð fyrir að mörkun óþekktra orða sé svipuð
• Miðað við stafsetningu orðanna
– ýmist notaðar reglur samdar af rannsakendum
– en einnig TBL-reglur sem giskarinn lærir
Tölvur og tungumál - 12
© Eiríkur Rögnvaldsson,
október 2008
Úr grunni Íslenskrar orðtíðnibókar
•f
•s
•n
•a
•n
•c
•n
•n
•s
•n
p
f
h
o
k
k
k
f
v
k e n
hann
g 3 e þ o átti
e o
afmæli
í
e o
dag
og
e n g
hvolpurinn
e n - m
Vaskur
g 3 e þ
var
e n
afmælisgjöf
hann
eiga
afmæli
í
dagur
og
hvolpur
Vaskur
vera
afmælisgjöf
Öðrum greiningarstreng bætt við
• Hér hefur viðbótar-
•
strengur verið keyrður
inn í skrána
•
•
•
•
wd(38,'til').
tag(38,'ae').
tag('ae','ae',38).
•
•
•
•
wd(39,'enda').
tag(39,'c').
tag('c','nkee',39).
•
enda fær hér viðbótarstrenginn ‘c’ (samtenging)
Það er algengasta greiningin á enda í Íslenskri
orðtíðnibók (189 dæmi)
Samhengið sýnir þó að
rétta greiningin á enda er
hér ‘nkee’ (no. kk. et. ef.)
Um þá greiningu eru hins
vegar aðeins 7 dæmi í
Íslenskri orðtíðnibók
Sniðmát fyrir íslensku
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
tag:A>B
<<<<<<<<<<<<<<<<<-
tag:C@[-1].
tag:C@[1].
tag:C@[-1,-2].
tag:C@[-1,-2,-3].
tag:C@[-1] & tag:D@[1].
tag:C@[-1] & tag:D@[-2].
tag:C@[-1] & tag:D@[-2] & tag:E@[-3].
tag:C@[1,2].
tag:C@[-1] & tag:D@[1,2].
wd:C@[0].
wd:C@[1].
wd:C@[-1].
wd:C@[0] & wd:D@[-1].
wd:C@[0] & tag:D@[-1].
wd:C@[0] & tag:D@[1].
wd:C@[-1,-2].
wd:C@[0] & wd:D@[-1] & wd:E@[-2].
Fyrsta tilraun – stærsta markaskrá
• 79,5% í prófunarsafni fá ótvíræða greiningu
– algengasta greiningin jafnframt sú rétta
• μ-tbl forritið keyrt þrisvar á þjálfunarsafnið
– lærir nýjar reglur í hverri umferð
– alls 609 reglur
• Síðan eru reglurnar keyrðar á prófunarsafnið
– villum fækkar þá úr 2445 í 1026
– þannig að 91,5% greiningarstrengja eru réttir
Önnur tilraun – fallstjórn tekin út
• 89,0% í prófunarsafni fá ótvíræða greiningu
– algengasta greiningin jafnframt sú rétta
• μ-tbl forritið keyrt þrisvar á þjálfunarsafnið
– lærir nýjar reglur í hverri umferð
– alls 339 reglur
• Síðan eru reglurnar keyrðar á prófunarsafnið
– villum fækkar þá úr 2445 í 613
– þannig að 95,0% greiningarstrengja eru réttir
Niðurstöður úr forkönnun
• Árangurinn lofaði góðu
– tæplega verður komist hærra en í 98%
• eftir það fer málfræðinga að greina á
• Nákvæm greining hefur bæði kosti og galla
– gerir greiningu sumra orða erfiðari en ella
• það er t.d. oft erfitt að greina fallstjórn so. og fs.
– en auðveldar oft greiningu orða í umhverfinu
• fallgreining er auðveldari ef fallstjórn er greind
Nokkrar íslenskar reglur
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
tag:sfg3eþ
tag:cn
tag:cn
tag:af
tag:sfg3en
tag:cn
tag:af
tag:sfg3eþ
tag:svg3eþ
tag:fpken
tag:cn
tag:sfg3en
tag:ssg
tag:foheþ
tag:fahen
tag:af
>sfg1eþ
>c
>c
>fp1fn
>sfg1en
>c
>fp1fn
>sfg1eþ
>svg1eþ
>fpkeo
>c
>sfg2en
>sþghen
>lheþsf
>faheo
>fp1fn
<<<<<<<<<<<<<<<<-
tag:fp1en@[-1,-2]
tag:svg3en@[1,2]
tag:svg3eþ@[1,2]
wd:við@[0] & tag:sfg1fn@[1]
tag:fp1en@[-1,-2]
tag:sfg3eþ@[1,2]
wd:við@[0] & tag:sfg1fþ@[1]
tag:fp1en@[1]
tag:fp1en@[-1]
tag:af@[-1]
tag:sfg3en@[1,2]
tag:fp2en@[-1,-2]
wd:var@[-1,-2]
wd:einu@[0] & wd:í@[-1]
tag:af@[-1]
wd:við@[0] & tag:sfg1fn@[-1]
Árangurinn má bæta með því að:
• Stækka þjálfunarsafnið
– þannig fást fleiri og betri reglur
• Fjölga sniðmátum og endurbæta þau
– e.t.v. leyfa þeim að skoða stærra umhverfi
• Einfalda greininguna
– ekki er þó víst hvaða áhrif það hefur
• Lagfæra reglurnar eftir á
– skoða villur og bæta reglum við handvirkt
Þjálfun líkindamarkara á íslensku
• Niðurstöður úr samanburði markara
Samanburður á þremur mörkurum
Tilraun með mörkun á 10 skrám
MeðalLægsta
Hæsta
Markari
nákvæmni nákvæmni nákvæmni
MXPOST
89,08
88,39
89,49
fnTBL
88,80
88,32
89,46
TnT
90,36
89,81
90,74
Greining einfölduð
• Áhrif einföldunar í greiningu
– á frammistöðu þriggja markara
Samanburður á mörkurum
Öll prófunarsöfn
Allt rétt
Atviksorð ekki greind
Samtengingar ekki greindar
Öllum fornöfnum slegið saman
Aeins orðflokkur réttur
Allt rangt
Samtals
Nákvæmni MXPOST
Nákvæmni fnTBL
Nákvæmni TnT
Rétt (fj.)
%
Samanl. % Rétt (fj.)
%
Samanl. % Rétt (fj.)
%
Samanl. %
525.863
89,08
89,08
524.201
88,80
88,80
533.403
90,36
90,36
6.286
1,06
90,15
5.533
0,94
89,74
6.837
1,16
91,52
1.118
0,19
90,34
806
0,14
89,88
1.076
0,18
91,70
741
0,13
90,46
600
0,10
89,98
782
0,13
91,83
40.310
6,83
97,29
42.900
7,27
97,25
37.197
6,30
98,14
15.979
2,71
100,00
16.257
2,75
100,00
11.002
1,86
100,00
590.297
100,00
590.297
100,00
590.297
100,00
Fleiri tilraunir með mörkun íslensku
• Samanburður á TnT og IceTagger
– reglumarkari smíðaður af Hrafni Loftssyni
Tölvur og tungumál - 13
© Eiríkur Rögnvaldsson,
október 2008
Setningafræðileg þáttun
• Greining setningarliða
– nafnliður, sagnliður, forsetningarliður ...
• Greining setningafræðilegra hlutverka
– frumlag, andlag, sagnfylling ...
• Mismunandi ítarleg þáttun:
– full þáttun (full/deep parsing)
• heildargreining – allir möguleikar sýndir
– hlutaþáttun (partial/shallow parsing)
• greining í einstaka liði og setningarhlutverk
Tegundir þáttunar
• Full þáttun (full parsing; deep parsing)
– þar sem búið er til fullkomið þáttunartré (parse
tree) fyrir sérhverja setningu
– oft margir möguleikar
• Hlutaþáttun (partial parsing; shallow parsing)
– þar sem setningar eru greindar í setningarhluta
– án þess að krefjast þess að sérhver hluti passi inn
í víðtæka þáttun (e. global parse)
Þáttun kemur víða að gagni
• Málfræðileiðrétting í ritvinnslukerfum
– ef ekki er hægt að þátta setningu bendir það til að
í henni séu villur – eða hún sé a.m.k.strembin
• Merkingargreining
– nýtist í vélrænum þýðingum
– sjálfvirkri svörun
– útdrætti upplýsinga
• Talkennsl
Full þáttun
• Full þáttun felst í leit
– þar sem farið er gegnum öll hugsanleg þáttunartré
– til að finna það sem á við setninguna
• Leitin stýrist af tvennu
– annars vegar ílaginu, þ.e. orðunum í setningunni
– hins vegar málfræðinni
• Fundin öll tré með rótina S
– og orðin í setningunni sem lokatákn
Þáttun einfaldrar setningar
• Ein greining möguleg
– miðað við gefnar reglur
• NP  Det Nominal
• NP  ProperNoun
• Nominal  Noun |
Noun Nominal
• Det  a
• Det  that
• Noun  flight
Brot úr enskri málfræði
• Fáeinar einfaldar liðgerðarreglur úr ensku
Ofansækni og neðansækni
• Tvenns konar leitaraðferðir
– tvær mismunandi áttir
• Ofansækin leit (top-down, goal-directed)
– byrjar á S efst í trénu
– og leitar niður á við, að orðunum
• Neðansækin leit (bottom-up, data-directed)
– byrjar á orðunum
– og leitar upp á við, allt að S
Ofansækin þáttun
• Byrjað á S
– búnir til allir trjátoppar sem byrja á S
– út frá öllum reglum með S vinstra megin við ör
• Síðan er haldið áfram í næsta lagi
– tekin öll tákn næst neðan við S
– fundnar reglur þar sem þau eru vinstra megin
• Þannig er haldið áfram þar til kemur að orðum
– þá er trjám sem ekki passa hent
Dæmi um ofansækna þáttun
• Aðeins næstsíðasta tréð í 3. lagi passar
Neðansækin þáttun
• Byrjað á orðunum
– þeim er flett upp í orðasafni
– og skrifaðir út hugsanlegir orðflokkar
• Síðan er reynt að tengja orðin saman
– leitað að strengjum sem passa við það sem er
hægra megin við örina í einhverri reglu
• Þannig er haldið áfram þar til kemur að S
– trjám sem ekki leiða þangað er hent
Dæmi
• Neðansækin
þáttun
– endanlegt
tré 
Kostir og gallar aðferðanna
• Ofansækin þáttun gengur út frá S
– eyðir aldrei tíma í tré sem ekki geta endað í S
• Hún horfir ekki á orðin í setningunni
– býr því til fjölda trjáa sem ekki falla að gögnunum
• Neðansækin þáttun gengur út frá orðunum
– eyðir ekki tímanum í tré sem ekki falla að gögnum
• Hún horfir ekki á rótina S
– býr því til trjábúta sem aldrei geta orðið að heilu tré
Breidd og dýpt
• Hvernig á að fara í gegnum möguleikana?
– nota breiddarleit (breadth-first)
– eða dýptarleit (depth-first)?
• Hér er valin dýptarleit
– einn möguleiki á hverju sviði valinn
– ef hann bregst er farið á næsta svið á undan
– og annar möguleiki þar valinn til skoðunar
Röð kvista og reglna
• Hér þarf að ákveða tvennt:
– í hvaða röð á að taka kvisti á sviði til skoðunar
– í hvaða röð á að beita reglum sem koma til greina
• Hér hefur verið valið að
– beita reglum í sömu röð og þær hafa í málfræðinni
– skoða kvistina frá vinstri til hægri
• það skiptir máli þegar kemur að orðunum
• þau koma þá til skoðunar í eðlilegri röð
Þáttun hefst
• Hér er sýnt hvernig farið er gegnum
setninguna Does this flight include a meal?
Þáttun tekst
• Hér er haldið áfram uns þáttun tekst
Neðansækin síun
• Þegar þáttunin kemur niður að orði
– er skoðað hvort það geti fallið inn í tréð
– sé svo er næsta orð tekið til skoðunar
• Það orð verður þá að geta verið:
– annaðhvort áframhald sama liðar
– eða fyrsta orð í reglu sem á við næstu eind á
sviðinu fyrir ofan
– annars er greining orðsins á undan endurskoðuð
Áhrif neðansækinnar síunar
• Í setningunni Does this flight include a meal?
–
–
–
–
er Does fyrsta orðið
það getur ekki verið fyrsta orð (vinstra horn) NP
þetta kemur í ljós við fyrstu tilraun með NP
því er óþarfi að prófa fleiri NP-reglur
• Neðansækin síun getur því flýtt mjög fyrir
– komið í veg fyrir að prófaðir séu möguleikar
– sem augljóslega ganga ekki upp
Margræðni í viðhengingu
• Hverju tengist forsetningarliðurinn?
Líkindaþáttun
• Oft eru fleiri en eitt þáttunartré hugsanleg
– þá er hægt að beita líkindum við þáttun
– probabilistic parsing
• Líkindaþáttun kemur að gagni við
– einræðingu (disambiguation)
• þar sem líklegasta túlkunin er valin í margræðni
– gerð mállíkana (language modeling)
• til að nota í talkennslum o.v.
Mismunandi líkindi á reglum
• Samhengisfrjáls málfræði með líkindum
– Probabilistic/Stochastic Context-Free Grammar
• Líkindatölum bætt við reglur
– A  β [p]
• Líkindin á tilteknum hægri hluta reglu
– P(A  β), P(A  β|A)
• Summan fyrir hvern vinstri hluta er 1
Samhengisfrjálsar reglur?
• Eru reglurnar í raun samhengisfrjálsar?
– By definition, a CFG assumes that the expansion of any one non-terminal is independent of
the expansion of any other non-terminal
• Nafnliðir eru ólíkir eftir stöðu í setningu
– frumlög eru mun oftar fornöfn en andlög
– andlög eru mun oftar nafnorð en frumlög
Áhrif einstakra orða á túlkun
• Einstök orð skipta líka miklu máli
– [dogs and cats] er líklegra en [houses and cats]
Venslamálfræði
• Venslamálfræði
– Dependency Grammar
• Byggist eingöngu á venslum milli orða
– stofnhlutar og reglur skipta ekki máli
• Hentar vel til að lýsa frjálsri orðaröð
– þarf ekki mismunandi reglur fyrir valmöguleika
• Ein útfærsla er Constraint Grammar
Dæmi um venslamálfræði
• Öll vensl eru milli orða
– hér eru engir liðir
• Hér er sýnd setningin
I gave him
my address
Vensl í venslamálfræði
• Nokkur dæmi um vensl sem táknuð eru
Trjábankar
• Trjábanki (treebank)
– setningafræðilega greind málheild
• Penn Treebank fyrstur og þekktastur
• Mismunandi aðferðir við greiningu
– stundum byggt á ákveðinni teoríu
• t.d. HPSG eða Dependency Grammar
– stundum (reynt að hafa) óháð teoríum
• Mjög tímafrek greining
– en mjög gagnleg í ýmsum máltækniverkefnum
Tölvur og tungumál - 14
© Eiríkur Rögnvaldsson,
október 2008
Hlutaþáttun
• Í mörgum tilvikum er nægjanlegt að greina
setningar í setningarhluta eða setningarliði
– án þess að krefjast þess að liðirnir passi inn í
víðtækt þáttunartré
• Þetta getur átt við á ýmsum sviðum
– upplýsingaútdrætti (e. information extraction)
– eða textaútdrætti (e. text summarization)
– þar sem greining setningarliða er mikilvægari en
full þáttun
Mismunandi þáttun setningar
• Full þáttun – mismunandi greiningar:
– [S [NL Margir] [SL hittu [NL Maríu [FL á [NL
skrifstofunni]]]]]
• eða:
– [S [NL Margir] [SL hittu [NL Maríu]] [FL á [NL
skrifstofunni]]]
• Hlutaþáttun – ein greining:
– {FRL [NL Margir]} [SL hittu] {ANDL [NL Maríu]}
[FL á [NL skrifstofunni]]
• Setningarliðirnir ekki felldir saman í eitt tré
Kostir hlutaþáttunar
• Full þáttun
– nákvæmari og sýnir alla möguleika, en:
– frek á tíma og reiknigetu
– viðkvæm fyrir villum í inntaki
• Hlutaþáttun
– sýnir ekki formgerðina eins nákvæmlega, en:
– skilar greiningu þrátt fyrir villur í inntaki
– hentar því vel t.d. fyrir texta á netinu
Hvað er greint?
• [Gerð liða]
–
–
–
–
–
–
–
NP - nafnliður
APx - lýsingarorðsliður
AdvP - atviksliður
PP - forsetningarliður
CP - tengiliður
VPx - sagnliður
MWEx - orðasamband
• {*Hlutverk}
–
–
–
–
–
–
SUBJ - frumlag
OBJ - andlag
COMP - sagnfylling
QUAL - eignarfallseink.
X > - tengist so. á eftir
X < - tengist so. á undan
Dæmi um greiningu
{*SUBJ> [NP augnaráðið nheng NP] *SUBJ>}
[VP negldist sfm3eþ VP]
[PP við ao [NP [AP gráa lkeovf AP] jakkann nkeog NP] PP]
[CP sem ct CP]
{*SUBJ> [NP hann fpken NP] *SUBJ>}
[VPb var sfg3eþ VPb]
[VPi að cn klæða sng VPi]
{*OBJ< [NP sig fpkeo NP] *OBJ<}
[PP úr aþ PP]
[CP og c CP]
[VPi hengja sng VPi]
[PP [MWE_PP inn aa í ao MWE_PP] [NP skáp nkeo NP] PP]
Stöðuvélaaðferð
• Hér er notuð stöðuvélaaðferð
– finite state method
• Aðferðin hefur ýmsa kosti
– en ræður t.d. ekki við endurkvæmni
Útfærsla
• „Incremental finite-state parser“
– stigvaxandi þáttari byggður á endanlegum
stöðuaðferðum
• Röð af stöðuferjöldum (finite-state transducers)
– þar sem sérhvert stöðuferjald:
• hefur það hlutverk að bera kennsl á tiltekið mynstur í
inntaki
• skrifar greiningarupplýsingar inn í inntakstextann
• skilar breyttum texta út, tilbúnum til meðhöndlunar fyrir
næsta stöðuferjald
Stöðuferjöldin
• Stöðuferjöldin skiptast í tvo flokka:
• Ferjöld sem greina setningarliði
– atviksliði, lýsingarorðsliði, nafnliði,
forsetningarliði, sagnliði, o.s.frv.
• Ferjöld sem greina setningafræðileg hlutverk
– frumlög, andlög, sagnfyllingar,
eignarfallseinkunnir
Setningarliðir
• Hönnunarforsendur:
– Reynt að nýta beygingarleg einkenni sem
minnst þegar setningarliðir eru greindir
– Orðflokkur og röð orða látin stýra greiningu
– Í stað þess að láta t.d. samræmi í kyni, tölu og
falli stýra greiningu á nafnliðum
• til að setningagreiningin nýtist betur fyrir
málfræðileiðréttingu
Röð ferjalda, 1
• Keyrð í tiltekinni röð – einfaldir liðir fyrst
– 1. atviksliðir
• var sfg3eþ [AdvP mjög aa AdvP] gott lhensf félagslíf
nhen
– 2. lýsingarorðsliðir
• var sfg3eþ [AP [AdvP mjög aa AdvP] gott lhensf AP]
félagslíf nhen
Röð ferjalda, 2
– 3. nafnliðir
• var sfg3eþ [NP [AP [AdvP mjög aa AdvP] gott
lhensf AP] félagslíf nhen NP]
– 4. sagnliðir
• [VPb var sfg3eþ VPb] [NP [AP [AdvP mjög aa
AdvP] gott lhensf AP] félagslíf nhen NP]
– 5. forsetningarliðir
• [PP af aþ [NP þessum fakfþ [AP stöðugu lkfþvf AP]
ósigrum nkfþ mínum fekfþ NP] PP]
Fleiri ferjöld
• Ýmis orðasambönd eru merkt sérstaklega
– ef þau haga sér eins og eitt orð
• [PP [MWE_PP út aa um ao MWE_PP] [NP
gluggann nkeog NP] PP]
• [MWE_AdvP allt fohen í aþ einu lheþsf
MWE_AdvP]
• [PP í aþ [NP [MWE_AP neins fokee konar nkee
MWE_AP] samfloti nheþ NP] PP]
Hausar og hlutverk
• Haus (aðalorð) liða er merktur sérstaklega
– í nafnliðum og lýsingarorðsliðum
• [NPn ég fp1en *HeadNn NP]
• [NPa stólinn nkeog *HeadNa NP]
• Síðan eru setningarleg hlutverk merkt
– ferjöldin nýta sér setningarliðamerkingar og
hausamerkingar undanfarandi ferjalda
• Sérstakur listi er yfir aukafallsfrumlög
Eignarfallseinkunnir og frumlög
• Eitt stöðuferjald merkir eignarfallseinkunnir
• [NPa [APa síðustu lveove *HeadAa AP] nóttina nveog
*HeadNa NP] {*QUAL [NPg okkar fp1fe *HeadNg
NP] *QUAL}
• Annað stöðuferjald merkir frumlög
• {*SUBJ> [NPn ég fp1en *HeadNn NP] *SUBJ>} [VP
tók sfg1eþ VP] [NPa ákvörðun nveo *HeadNa NP]
• [NPa hvað fsheo *HeadNa NP] [VP á sfg1en VP]
{*SUBJ< [NPn ég fp1en *HeadNn NP] *SUBJ<}
[VPi að cn segja sng VPi] ? ?
Andlög og sagnfyllingar
• Þriðja ferjald merkir andlög og sagnfyllingar
– nýtir sér liðamerkingar, frumlagsmerkingar og föll
• {*SUBJ> [NPn ég fp1en *HeadNn NP] *SUBJ>}
[VP veitti sfg1eþ VP] {*IOBJ< [NPd því fpheþ
*HeadNd NP] *IOBJ<} {*OBJ< [NPa athygli nveo
*HeadNa NP] *OBJ<}
• {*SUBJ> [NPn ég fp1en *HeadNn NP] *SUBJ>}
[VPb er sfg1en VPb] {*COMP< [APn viss lkensf
*HeadAn AP] *COMP<}
Frágangsferjöld
• Ferjöld sem snyrta til textann
– eyða aukabilum
– eyða sérstökum hjálparmerkingum
– skrifa einn setningarlið í hverja línu
{ *SUBJ> [NP ég fp1en NP] *SUBJ>}
[VP opnaði sfg1eþ VP]
{*OBJ< [NP dyrnar nvfog NP] *OBJ<}
,,
[VP steig sfg1eþ VP]
[AdvP inn aa AdvP]
,,
[VP sparkaði sfg1eþ VP]
{*OBJ< [NP [AP hvítum lkeþsf AP] brennivínspoka nkeþ NP] *OBJ<}
[PP með aþ [NP sunddóti nheþ NP] PP]
[PP til ae [NP hliðar nvee NP] PP]
,,
Upphaflegur texti
• pabbi nken hennar fpvee var sfg3eþ vinur nken
minn feken og c við fp1fn tefldum sfg1fþ oft aa
saman aa á ao kvöldin nhfog og c hann fpken
studdi sfg3eþ mig fp1eo og c ég fp1en hélt sfg1eþ
meira lheovm að cn segja sng áfram aa að cn
koma sng til ae hans fpkee eftir ao að c allt fohen
var sfg3eþ orðið sþghen skrýtið lhensf og c hún
fpven hætt sþgven að cn hringja sng í ao mig
fp1eo . .
Orðasambönd
• pabbi nken hennar fpvee var sfg3eþ vinur nken
minn feken og c við fp1fn tefldum sfg1fþ oft aa
saman aa á ao kvöldin nhfog og c hann fpken
studdi sfg3eþ mig fp1eo og c ég fp1en hélt sfg1eþ
[MWE_AdvP meira lheovm að cn segja sng
MWE_AdvP] áfram aa að cn koma sng til ae hans
fpkee [MWE_SCP eftir ao að c MWE_SCP] allt
fohen var sfg3eþ orðið sþghen skrýtið lhensf og c
hún fpven hætt sþgven að cn hringja sng í ao mig
fp1eo . .
Atviksliðir og tengingar
• pabbi nken hennar fpvee var sfg3eþ vinur nken
minn feken [CP og c CP] við fp1fn tefldum
sfg1fþ [AdvP oft aa AdvP] [AdvP saman aa
AdvP] á ao kvöldin nhfog [CP og c CP] hann
fpken studdi sfg3eþ mig fp1eo [CP og c CP] ég
fp1en hélt sfg1eþ [MWE_AdvP meira lheovm að
cn segja sng MWE_AdvP] [AdvP áfram aa
AdvP] að cn koma sng til ae hans fpkee
[MWE_SCP eftir ao að c MWE_SCP] allt fohen
var sfg3eþ orðið sþghen skrýtið lhensf [CP og c
CP] hún fpven hætt sþgven að cn hringja sng í ao
mig fp1eo . .
Lýsingarorðsliðir
• pabbi nken hennar fpvee var sfg3eþ vinur nken
minn feken [CP og c CP] við fp1fn tefldum
sfg1fþ [AdvP oft aa AdvP] [AdvP saman aa
AdvP] á ao kvöldin nhfog [CP og c CP] hann
fpken studdi sfg3eþ mig fp1eo [CP og c CP] ég
fp1en hélt sfg1eþ [MWE_AdvP meira lheovm að
cn segja sng MWE_AdvP] [AdvP áfram aa
AdvP] að cn koma sng til ae hans fpkee
[MWE_SCP eftir ao að c MWE_SCP] allt fohen
var sfg3eþ orðið sþghen [AP skrýtið lhensf AP]
[CP og c CP] hún fpven hætt sþgven að cn
hringja sng í ao mig fp1eo . .
Nafnliðir
•
[NP pabbi nken NP] [NP hennar fpvee NP] var sfg3eþ
[NP vinur nken minn feken NP] [CP og c CP] [NP við
fp1fn NP] tefldum sfg1fþ [AdvP oft aa AdvP] [AdvP
saman aa AdvP] á ao [NP kvöldin nhfog NP] [CP og c
CP] [NP hann fpken NP] studdi sfg3eþ [NP mig fp1eo
NP] [CP og c CP] [NP ég fp1en NP] hélt sfg1eþ
[MWE_AdvP meira lheovm að cn segja sng
MWE_AdvP] [AdvP áfram aa AdvP] að cn koma sng til
ae [NP hans fpkee NP] [MWE_SCP eftir ao að c
MWE_SCP] [NP allt fohen NP] var sfg3eþ orðið sþghen
[AP skrýtið lhensf] [CP og c CP] [NP hún fpven NP]
hætt sþgven að cn hringja sng í ao [NP mig fp1eo NP] . .
Sagnir
•
[NP pabbi nken NP] [NP hennar fpvee NP] [VPb var
sfg3eþ VPb] [NP vinur nken minn feken NP] [CP og c
CP] [NP við fp1fn NP] [VP tefldum sfg1fþ VP] [AdvP
oft aa AdvP] [AdvP saman aa AdvP] á ao [NP kvöldin
nhfog NP] [CP og c CP] [NP hann fpken NP] [VP
studdi sfg3eþ VP] [NP mig fp1eo NP] [CP og c CP]
[NP ég fp1en NP] [VP hélt sfg1eþ VP] [MWE_AdvP
meira lheovm að cn segja sng MWE_AdvP] [AdvP áfram
aa AdvP] [VPi að cn koma sng VPi] til ae [NP hans
fpkee NP] [MWE_SCP eftir ao að c MWE_SCP] [NP
allt fohen NP] [VPb var sfg3eþ VPb] [VPp orðið sþghen
VPp] [AP skrýtið lhensf] [CP og c CP] [NP hún fpven
NP] [VPp hætt sþgven VPp] [VPi að cn hringja sng
VPi] í ao [NP mig fp1eo NP] . .
Forsetningarliðir
•
[NPn pabbi nken] [NPg hennar fpvee] [VPb var sfg3eþ
VPb] [NPn vinur nken minn feken] [CP og c CP] [NPn
við fp1fn] [VP tefldum sfg1fþ VP] [AdvP oft aa AdvP]
[AdvP saman aa AdvP] [PP á ao [NPa kvöldin nhfog]
PP] [CP og c CP] [NPn hann fpken] [VP studdi sfg3eþ
VP] [NPa mig fp1eo] [CP og c CP] [NPn ég fp1en] [VP
hélt sfg1eþ VP] [MWE_AdvP meira lheovm að cn segja
sng MWE_AdvP] [AdvP áfram aa AdvP] [VPi að cn
koma sng VPi] [PP til ae [NPg hans fpkee] PP]
[MWE_SCP eftir ao að c MWE_SCP] [NPn allt fohen]
[VPb var sfg3eþ VPb] [VPp orðið sþghen VPp] [APn
skrýtið lhensf] [CP og c CP] [NPn hún fpven] [VPp
hætt sþgven VPp] [VPi að cn hringja sng VPi] [PP í ao
[NPa mig fp1eo] PP] . .
Eignarfallseinkunnir
•
[NPn pabbi nken] {*QUAL [NPg hennar fpvee] *QUAL}
[VPb var sfg3eþ VPb] [NPn vinur nken minn feken] [CP
og c CP] [NPn við fp1fn] [VP tefldum sfg1fþ VP]
[AdvP oft aa AdvP] [AdvP saman aa AdvP] [PP á ao
[NPa kvöldin nhfog] PP] [CP og c CP] [NPn hann
fpken] [VP studdi sfg3eþ VP] [NPa mig fp1eo] [CP og c
CP] [NPn ég fp1en] [VP hélt sfg1eþ VP] [MWE_AdvP
meira lheovm að cn segja sng MWE_AdvP] [AdvP áfram
aa AdvP] [VPi að cn koma sng VPi] [PP til ae {*QUAL
[NPg hans fpkee] *QUAL} PP] [MWE_SCP eftir ao að c
MWE_SCP] [NPn allt fohen] [VPb var sfg3eþ VPb]
[VPp orðið sþghen VPp] [APn skrýtið lhensf] [CP og c
CP] [NPn hún fpven] [VPp hætt sþgven VPp] [VPi að
cn hringja sng VPi] [PP í ao [NPa mig fp1eo] PP] . .
Frumlög
•
{*SUBJ> [NPn pabbi nken] {*QUAL [NPg hennar fpvee] *QUAL}
*SUBJ>} [VPb var sfg3eþ VPb] [NPn vinur nken minn feken] [CP
og c CP] {*SUBJ> [NPn við fp1fn] *SUBJ>} [VP tefldum sfg1fþ
VP] [AdvP oft aa AdvP] [AdvP saman aa AdvP] [PP á ao [NPa
kvöldin nhfog] PP] [CP og c CP] {*SUBJ> [NPn hann fpken]
*SUBJ>} [VP studdi sfg3eþ VP] [NPa mig fp1eo] [CP og c CP]
{*SUBJ> [NPn ég fp1en] *SUBJ>} [VP hélt sfg1eþ VP]
[MWE_AdvP meira lheovm að cn segja sng MWE_AdvP] [AdvP
áfram aa AdvP] [VPi að cn koma sng VPi] [PP til ae {*QUAL
[NPg hans fpkee] *QUAL} PP] [MWE_SCP eftir ao að c
MWE_SCP] {*SUBJ> [NPn allt fohen] *SUBJ>} [VPb var sfg3eþ
VPb] [VPp orðið sþghen VPp] [APn skrýtið lhensf] [CP og c CP]
{*SUBJ [NPn hún fpven] *SUBJ} [VPp hætt sþgven VPp] [VPi að
cn hringja sng VPi] [PP í ao [NPa mig fp1eo] PP] . .
Andlög og sagnfyllingar
•
{*SUBJ> [NPn pabbi nken] {*QUAL [NPg hennar fpvee] *QUAL}
*SUBJ>} [VPb var sfg3eþ VPb] {*COMP< [NPn vinur nken minn
feken] *COMP<} [CP og c CP] {*SUBJ> [NPn við fp1fn]
*SUBJ>} [VP tefldum sfg1fþ VP] [AdvP oft aa AdvP] [AdvP
saman aa AdvP] [PP á ao [NPa kvöldin nhfog] PP] [CP og c CP]
{*SUBJ> [NPn hann fpken] *SUBJ>} [VP studdi sfg3eþ VP]
{*OBJ< [NPa mig fp1eo] *OBJ<} [CP og c CP] {*SUBJ> [NPn
ég fp1en] *SUBJ>} [VP hélt sfg1eþ VP] [MWE_AdvP meira
lheovm að cn segja sng MWE_AdvP] [AdvP áfram aa AdvP] [VPi
að cn koma sng VPi] [PP til ae {*QUAL [NPg hans fpkee] *QUAL}
PP] [MWE_CP eftir ao að c MWE_CP] {*SUBJ> [NPn allt fohen]
*SUBJ>} [VPb var sfg3eþ VPb] {*COMP< [VPp orðið sþghen
VPp] *COMP<} {*COMP [APn skrýtið lhensf] *COMP} [CP og
c CP] {*SUBJ [NPn hún fpven] *SUBJ} {*COMP [VPp hætt
sþgven VPp] *COMP} [VPi að cn hringja sng VPi] [PP í ao [NPa
mig fp1eo] PP] . .
Lokaútkoma - 1
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
{*SUBJ> [NP pabbi nken NP] {*QUAL [NP hennar fpvee NP] *QUAL} *SUBJ>}
[VPb var sfg3eþ VPb]
{*COMP< [NPn vinur nken minn feken] *COMP<}
[CP og c CP]
{*SUBJ> [NPn við fp1fn] *SUBJ>}
[VP tefldum sfg1fþ VP]
[AdvP oft aa saman aa AdvP]
[PP á ao [NP kvöldin nhfog NP] PP]
[CP og c CP]
{*SUBJ> [NP hann fpken NP] *SUBJ>}
[VP studdi sfg3eþ VP]
{*OBJ< [NP mig fp1eo NP] *OBJ<}
[CP og c CP]
{*SUBJ> [NP ég fp1en NP] *SUBJ>}
[VP hélt sfg1eþ VP]
Lokaútkoma - 2
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
[MWE_AdvP meira lheovm að cn segja sng MWE_AdvP]
[AdvP áfram aa AdvP]
[VPi að cn koma sng VPi]
[PP til ae [NP hans fpkee NP] PP]
[MWE_SCP eftir aþ að c MWE_SCP]
{*SUBJ> [NP allt fohen NP] *SUBJ>}
[VPb var sfg3eþ VPb]
{*COMP< [VPp orðið sþghen VPp] *COMP<}
{*COMP< [AP skrýtið lhensf AP] *COMP<}
[CP og c CP]
{*SUBJ [NP hún fpven NP] *SUBJ}
{*COMP [VPp hætt sþgven VPp] *COMP}
[VPi að cn hringja sng VPi]
[PP í ao [NP mig fp1eo NP] PP]
..
Mat á frammistöðu þáttarans
• Búið var til prófunarsafn
– 509 setningar úr grunni Íslenskrar orðtíðnibókar
– valdar tilviljanakennt
• Þetta safn var greint í höndunum
– í samræmi við þáttunarskemað
• Sú greining myndar gold standard
– sem greining þáttarans er borin saman við
Setningarliðir
• Nákvæmni í
greiningu
setningarliða
– bæði miðað
við rétt
mörk úr
Íslenskri
orðtíðnibók
og mörk úr
IceTagger
Setningafræðileg hlutverk
• Nákvæmni í
greiningu
setningafræðilegra
hlutverka
– bæði miðað
við rétt
mörk úr
Íslenskri
orðtíðnibók
og mörk úr
IceTagger
Röng greining liða, 1
• Ranglega greindur atviksliður:
– [PP um [NP það NP] PP] [VP vissi VP] [NP
stelpan NP] [AdvP ekki þá AdvP]
• hér er ekki setningaratviksorð en stendur ekki með
tíðaratviksorðinu þá
• Ranglega greindur lýsingarorðsliður:
– [CP og CP] [VP tóku VP] [NP [AP [AdvP
fram AdvP] eigin AP] dósir NP]
• hér er fram sagnarögn en stendur ekki með eigin
Röng greining liða, 2
• Ranglega greindur samsettur nafnliður:
– [AP sterkur AP] [VPb var VPb] [NPs [NP
hann NP] [CP og CP] [NP íþróttamaður NP]
NPs] [AP ágætur AP]
• hér standa hann og íþróttamaður í sama falli og
aðaltenging á milli, og eru því greindir sem
samsettur nafnliður
• á hinn bóginn er lo. ágætur ekki greint sem hluti
nafnliðar af því að það stendur á eftir no.
Röng greining hlutverka
• Ófullkomin greining frumlags
– [VPb er VPb] [AdvP ekki AdvP] [VPi að koma
VPi] {*SUBJ [NP matur NP] *SUBJ}?
• hér truflar liður milli sagnar og frumlags greininguna
• Röng liðgreining > röng hlutverksgreining
– {*OBJ< [NP [AP [AdvP fram AdvP] eigin AP]
dósir NP] *OBJ<}
• fram greint sem hluti andlags af því að það var greint
sem hluti lýsingarorðsliðar
Niðurstöður
• Niðurstöðurnar lofa góðu
– 96,7% nákvæmni í greiningu setningarliða
– 84,3% nákvæmni í greiningu hlutverka
• Árangurinn mætti bæta með því að
– nýta beygingarlegar upplýsingar meira
– byggja meira á ýmiss konar orðalistum
– endurbæta stöðuferjöldin og fjölga þeim
Tölvur og tungumál - 15
© Eiríkur Rögnvaldsson,
október 2008
Að giska á næsta orð
• Er hægt að giska á næsta orð?
– Ég þarf að hringja eitt ...
• Þetta skiptir máli við t.d.
–
–
–
–
talkennsl (speech recognition)
lestur handskriftar (hand-writing recognition)
villuleit í stafsetningu (spelling error detection)
samskiptahjálp fyrir fatlaða (augmentative
communication for the disabled)
Samskiptahjálp fyrir fatlaða
• Augmentative communication systems
–
–
–
–
–
auðvelda fötluðum að nota málið
m.a. með því að giska á orð sem á að nota
t.d. út frá fyrsta bókstaf og tíðniskrá
eða út frá undanfarandi orðum
stundum aðlöguð orðaforða og stíl notanda
Réttar myndir á röngum stað
• Algengustu stafsetningar- og málfræðivillur
– rétt rituð orð á röngum stað í setningu
•
•
•
•
•
•
•
Ég hitti systir þína
vegna þeirrar tilhneigingu
fjöldi manna komu
mér langar
það er kominn morgun
ég hitti Kristinn
hann er farin
– hér sker umhverfið úr
> systur
> tilhneigingar
> kom
> mig langar
> morgunn
> Kristin
> farinn
Líkindi á orði
• Stundum er um að ræða ólíklegan streng
– þótt hann standist í sjálfu sér málfræðilega
• Þarna eru berin sem ég týndi í gær
• Villuleitarforrit geta metið líkindi á streng
– og stungið upp á breytingum
– ef strengurinn er mjög ólíklegur
– en annar svipaður strengur mun líklegri
• (context-sensitive spelling error correction)
Mállíkön og málfræði
• N-stæðulíkan (N-gram model)
– notar undanfarandi N-1 orð
– til að spá fyrir um næsta orð
• Mállíkan (language model, LM)
– vísar til tölfræðilegra líkana af orðarunum
• Málfræði (grammar)
– lýsing á málinu
Merkingar orðsins orð
• Hvernig á að fara með beygingarmyndir?
• Flest N-stæðulíkön byggjast á orðmyndum
– líta á hestur, hest, hesti, hests sem fjögur orð
• Í mörgum tilvikum er þetta óheppilegt
– betra að byggja á flettiorðinu (lemma)
• Lesmálsorð – orðmyndir – flettiorð
– tokens – types – lemmas
Orðafjöldi í nokkrum söfnum
• Brown corpus
– 1.000.000 lesmálsorð
– 61.805 orðmyndir
– 37.851 flettiorð
• Íslensk orðtíðnibók
– 519.186 lesmálsorð
– 59.343 orðmyndir
– 31.876 flettiorð
• Shakespeare
– 884.647 lesmálsorð
– 29.066 orðmyndir
• Íslendingasögur
– 880.000 lesmálsorð
– 37.000 orðmyndir
– 13.500 flettiorð
Líkindi á tilteknu orði
• Ef orð geta komið fyrir í hvaða röð sem er
– og 100.000 orð eru í íslensku
– þá eru líkindin 1/100.000, eða 0,00001
– á því að tiltekið orð fari á eftir öðru tilteknu orði
• Ef líkindin á tilteknu orði fara eftir tíðni þess
– og í hefur 2,9% tíðni en sæng 0,001%
– þá eru líkindin á hvoru um sig eftir En tilsvarandi
– en hvað með Hann skreið undir ...
Líkindi eftir umhverfi
• Við þurfum að skoða líkindin á tilteknu orði
– miðað við orðin á undan
• Líkurnar á sæng eftir (skreið) undir
• P(sæng|undir)
– eru meiri en líkurnar á sæng yfirleitt
• Líkindi á orði út frá undanfarandi streng
– P(wn|w1n-1)
– en engin auðveld leið er til að reikna þetta
Tvístæðulíkan
• Í stað þess að reikna líkindin
– P(sæng|Hann skreið undir)
• er beitt nálgun og miðað við næsta orð á undan
– P(sæng|undir)
• Þetta er kallað tvístæðulíkan (bigram model)
– sú hugmynd að líkindin á orði ráðist eingöngu af
undanfarandi orði er kölluð Markov assumption
• að segja fyrir um framtíðina án þess að skyggnast of
langt inn í fortíðina
N-stæðulíkön
• N-stæðulíkön líta á undanfarandi orð
– P(wn|w1n-1)  P(wn|wn-N+1n-1)
• tvístæða (bigram) lítur eitt orð til baka
• þrístæða (trigram) lítur tvö orð til baka
• N-stæða (N-gram) lítur N-1 orð til baka
• N-stæðulíkön voru vinsæl um miðja 20. öld
– í verkfræði, sálfræði og málvísindum
– Chomsky ýtti þeim til hliðar um tíma
– en þau hafa í seinni tíð nýst vel í talkennslum
N-stæður og orðastæður
• N-stæður (N-grams)
– orð sem standa saman af einhverjum ástæðum
– málfræðilegum, merkingarlegum, vegna tíðni
• og hann, ég er, hátt tré
• Orðastæður (collocations)
– orð sem standa saman af málfræðilegum eða
merkingarlegum ástæðum eða vegna málvenju
• hátt tré, djúpur skafl, varðist drengilega
Mismunandi ritvilluleitarforrit
• Stafsetningarleiðréttingarforrit
– byggjast á mismunandi forsendum
• Sum hafa eingöngu að geyma orðasafn
– lesa orð í texta og bera saman við orðasafn
– t.d. orðasafn með WordPerfect
• Sum kunna beygingar- eða orðmyndunarreglur
– samþykkja orð sem eru ekki í orðasafni
– ef þau samræmast reglunum
Villuleitarforrit með orðmyndun
• Kostirnir við að kunna reglur eru ótvíræðir
– forritin þekkja rétt mynduð orð
– ekkert orðasafn getur verið endanlegt
• En þessu geta líka fylgt ókostir
– sum orð samræmast ekki málvenju
– enda þótt þau séu rétt mynduð miðað við reglur
• mánaðarmót
Breytingafjarlægð
• Breytingafjarlægð (edit distance)
– fjöldi aðgerða til að breyta einum streng í annan
• innsetning, brottfelling eða skipti á einum staf
– kvarði til að meta líkindi strengja
• Breytingafjarlægð milli bestan og fresta er 3
– umskipti á ‘b’ og ‘f’
– innskot ‘r’
– brottfelling ‘n’
(bestan > festan)
(festan > frestan)
(frestan > fresta)
Villa og uppástungur - 1
Villa og uppástungur - 2
Takmarkanir villuleitarforrita
• Venjuleg ritvilluleitarforrit finna dæmigerðar
– beygingar-/orðmyndunar-/orðmyndavillur
• annarar, þáttaka, æfintýri
– prent-/ásláttarvillur
• sme (< sem), atur (< aftur), hannn (< hann)
• Þau finna ekki
– prent-/ásláttarvillur sem falla saman við orð
• farm (< fram), maður (< maur)
Réttar myndir á röngum stað
• Villuleitarforrit finna ekki heldur
– raunverulegar stafsetningarvillur
– þar sem menn rugla saman samhljóma orðum
– nota rétt ritað orð á röngum stað í setningu
• það er kominn morgun
• ég hitti Kristinn
• hann er farin
– hér sker umhverfið úr um rithátt
> morgunn
> Kristin
> farinn
Dæmigerðar stafsetningarvillur
• Slíkar villur eru mjög algengar í íslensku
– ekki síst n-villur
• Nemendur í íslensku áttu að skrifa:
– Morgunninn leið án þess að ský drægi upp á
himininn.
• 41 tók prófið
– 29 skrifuðu morguninn í stað morgunninn
– 2 skrifuðu himinninn í stað himininn
N-stæður í stafsetningarleiðréttingu
• Stafsetningarleiðrétting út frá umhverfi
– context-sensitive spelling error correction
• Hversu margar villur eru raunveruleg orð?
– enskar athuganir benda til 15-40%
– líklega hærra hlutfall í íslensku
• Hægt er að nota N-stæðulíkön í villuleit
– rita hvert orð á alla hugsanlega vegu
– og velja síðan líklegustu myndina
Úr wikipedia
• Recently, research has focused on
•
developing algorithms which are capable of
recognizing a misspelled word, even if the
word itself is in the vocabulary, based on
the context of the surrounding words [...]
Context-sensitive spell checkers are likely
to appear in future text-processing products.
– http://en.wikipedia.org/wiki/Spell_checker
Samhljóma orð með hv og kv
•
•
•
•
•
•
•
•
•
Með hv:
hver (fn., no., goshver)
hvað (fn.)
hvalir (dýr)
hvelja (húð)
hviða (þota, vindhviða)
hvika (hopa, hörfa),
hviklæstur, hviklyndur,
hvikull
hví (spurnarao.; no., óhljóð)
hvísl (hljóðskraf)
•
•
•
•
•
•
•
•
•
Með kv:
kver (lítil bók)
kvað (so. að kveða)
kvalir (þjáningar)
kvelja (pína)
kviða (kvæði, hljómkviða)
kvika (so. að hreyfast; no.,
alda, hold; kvikur: lifandi,
kviksetja)
kví (rétt, byrgi)
kvísl (vatnsfall, hey- eða
matkvísl)
Orð með -eiji
beygi
degi
deigi
deyi
eigi
eygi
fleygi
fleyi
heyi
hneigi
legi
leigi
megi
neii
peyi
segi
seigi
smeygi
sveigi
sveii
teygi
tregi
vegi
þegi
Mynstur í texta - orðasambönd
• Leitað að einkennandi mynstrum í texta
– hvalir og kvalir
•að síðustu pínandi, eins og helvítis
• Get ekkert hreyft mig. Ó, ég hefi
•
sátu föst í honum, heldur einnig
• með storkandi ró. Ofþreytan eykur
•
fyrir vestan svo hátt, að
•
biðu hans ef til vill klip og
• nokkuð liðsint mér. Þessar stöðugu
•
og svíða mér hinar brennandi
•
Dóra mín! Hugsaðu þér aðrar eins
•
og hendurnar snarpar af vinnu.
kvalir ? Hvað munaðurinn var
kvalir í hnakkanum - annars ekkert
hvalir og hnísur. Þessar skepnur
kvalir hugans. Spretturinn var til
hvalir hlupu á land í Trékyllisvík.
kvalir og smánarlegt líflát á
kvalir drepa úr mér alla dáð.
kvalir þínar ekki síður en sjálfum þér.
kvalir . Að liggja máttvana, stirð
Kvalir afbrýðinnar gripu hug hennar
Málfræðileg og setningarleg staða
• Málfræðilegt umhverfi skoðað
– í grennd við farinn má búast við karlkynsorði
– í grennd við farin má búast við kvenkynsorði
• Setningarleg staða skoðuð
– morgunn er líklegt til að vera frumlag eða
sagnfylling
– morgun er líklegt til að vera andlag eða fallorð
forsetningar
Orðastæður og tíðni
• Orðastæður skoðaðar
– allt að 5 orð í báðar áttir út frá markorði
– athugað hvort einhver orð koma nær eingöngu
fyrir í grannstöðu við annað orð í samhljóma pari
– ef markorðið er sk[íý]ra og orðið prestur kemur
fyrir í grennd er líklegt að skíra sé rétt
• Tíðniupplýsingar nýttar
– er skíra algengara en skýra?
Tölvur og tungumál - 16
© Eiríkur Rögnvaldsson,
október 2008
Málfarsleiðrétting
• Málfarsleiðréttingaforrit
– grammar checker, style checker
• Hvað er hægt að skoða?
–
–
–
–
villur í samræmi og falli
óeðlilega orðaröð
klúðurslegan stíl
rangt notuð orðasambönd
Forsendur leiðréttingar
• Til að lagfæra og leiðrétta málfar þarf að
–
–
–
–
marka orð
þátta setningar
hafa skrá um orðasambönd og orðastæður
hafa reglusafn – bæði boð og bönn
• Hér koma dæmi um algenga galla á málfari
– veltið fyrir ykkur hvort og hvernig hægt væri að
leiðrétta þá á vélrænan hátt
Stofnanamál
• Nafnorðastíll
– gera könnun; fólksfjöldi eykst
• Eignarfallssambönd
– breytt fyrirkomulag innheimtu virðisaukaskatts
• Langar og flóknar málsgreinar
– þrjár rækjuvinnslur í samvinnu við sveitarfélög
á Norðurlandi vestra standa að rekstrinum
maður og það
• maður er oft notað sem óákveðið fornafn
• ef maður gerir þetta; maður heldur stundum að ...
– við því var áður amast, en varla lengur
– hins vegar á ekki að nota þú á þennan hátt
• það er oft notað í upphafi setninga
– án þess að vísa til nokkurs
• það komu margir í veisluna; það rignir mikið núna
– þetta er óformlegt, en gengur vel í ritmáli
Eignarfall
• Eignarfall eintölu af ýmsum karlkynsorðum:
– í upphafi þessa áratugar – ekki áratugs
– bók prófessors Ágústs – ekki Ágústar
– notkun vefjarins hefur aukist – eða vefsins?
• Ef. et. af kvenkynsorðum sem enda á -ing:
– leiddi til mikillar aukningar – ekki aukningu
– höfnun þessarar kenningar – ekki kenningu
– vegna nýlegrar tilkynningar – ekki tilkynningu
Föll með ópersónulegum sögnum
• Þágufall í stað þolfalls eða nefnifalls:
– mig langar/vantar, ekki mér langar/vantar
– ég hlakka til/kvíði fyrir, ekki mér hlakkar/kvíðir
• Oft eru persónufornöfn í þf. en annað í þgf.:
– vantar þig og þínu fólki eitthvað
• Nefnifall í stað þolfalls:
– báturinn rak að landi í stað bátinn rak að landi
– reykurinn leggur upp í stað reykinn leggur upp
Samræmi í kyni og tölu
• Gætið að samræmi í kyni og tölu:
–
–
–
–
–
–
krakkarnir eru hérna allir – ekki öll
foreldrar mínir eru skildir (??)
hún varð vör við þetta – ekki var
hér verður gerð grein fyrir vandanum – ekki gert
fjöldi fólks kom á fundinn – ekki komu
meirihluti stjórnarmanna samþykkti tillöguna –
ekki samþykktu
Samræmi í löngum málsgreinum
• Athugið samræmi í löngum málsgreinum
– ef langt er milli orða sem eiga að samræmast:
• Áður frestuðum hverfafundi með íbúum Túna, Holta,
Norðurmýrar og Hlíða verður haldinn á Kjarvalsstöðum
• Þau 600 tonn af síld sem hingað til hefur verið landað í
Vestmannaeyjum hefur verið dælt gegnum þessa sugu
• Tillagan sem ríkissáttasemjari bar fram í gær var hafnað
í atkvæðagreiðslu
• Þeir sem kynnu að hafa tillögur um slík verkefni er bent
á að rita stjórn sjóðsins
Fornöfn
– Hún vinnur við eitthvað verkefni
Hún vinnur við eitthvert verkefni
– Þeir töluðu við hvorn annan
Þeir töluðu hvor við annan
– Þau eiga sitthvorn bílinn
Þau eiga sinn bílinn hvort
– Bæði samtökin styðja tillöguna
Hvortveggja samtökin styðja tillöguna
Myndir sagna
– Verslunin opnar klukkan 10
Verslunin verður opnuð klukkan 10
– Frásögnin byggir á traustum heimildum
Frásögnin byggist á traustum heimildum
Bíllinn stöðvaði fyrir framan aðalinnganginn
Bíllinn stöðvaðist fyrir framan aðalinnganginn
– eða Bíllinn var stöðvaður fyrir framan
aðalinnganginn
Orðalag - 1
– Þetta er sagt að gefnu tilefni/af þessu tilefni
– Hagnaður fyrirtækisins er 25 miljónir í ár miðað
við 17 miljónir í fyrra
Hagnaður fyrirtækisins er 25 miljónir í ár en var
17 miljónir í fyrra
– Útgerðin gekk vel í fyrra á meðan vinnslan tapaði
Útgerðin gekk vel í fyrra en vinnslan tapaði
– Þeir keyptu hugmyndina umsvifalaust
Þeir féllust umsvifalaust á hugmyndina
Orðalag - 2
– Gæði vörunnar eru mjög góð
Gæði vörunnar eru mjög mikil; varan er mjög góð
– Fyrirtækið gerði könnun á viðhorfum kjósenda
Fyrirtækið kannaði viðhorf kjósenda
– Fyrsti bruni ársins leit dagsins ljós á mánudagskvöld
Fyrsti bruni ársins varð á mánudagskvöld
– Tíðni glæpa fer ört vaxandi
Glæpum fjölgar ört
Orðalag - 3
– Velta fyrirtækisins á ársgrundvelli er 200 miljónir
Velta fyrirtækisins er 200 miljónir á ári
– eða Árleg velta fyrirtækisins er 200 miljónir
– Störfum í ferðamannaiðnaði hefur fjölgað
Störfum í ferðaþjónustu hefur fjölgað
– Rekstraraðili fyrirtækisins
Eigandi/umsjónarmaður/stjórnandi fyrirtækisins
– eða Sá/sú sem rekur fyrirtækið
Orðalag - 4
– Þetta er ásættanlegt/óásættanlegt
Þetta er viðunandi/óviðunandi
– Fyrirtækið er staðsett á Ártúnshöfða
Fyrirtækið er á Ártúnshöfða
– Kaupmátturinn hefur hækkað
Kaupmátturinn hefur aukist/vaxið
– Ég var að versla (inn) nýjar vörur
Ég var að kaupa nýjar vörur
Orðalag - 5
– Hann er farinn erlendis
Hann er farinn til útlanda
– Óvíst er að samkomulagið haldi
Óvíst er að samkomulagið standist
– eða Óvíst er að samkomulagið verði haldið
– eða Óvíst er að staðið verði við samkomulagið
– Þetta eru einhverjar 20 milljónir
Þetta eru um það bil 20 milljónir
Tölvur og tungumál - 17
© Eiríkur Rögnvaldsson,
nóvember 2008
Merkingarvensl orða
• Merkingarfræði setninga
– compositional semantics
• Merkingarfræði orða
– lexical semantics
• Flettiorð (les)
– lexeme
• Vensl flettiorða skoðuð
Samhljómun
• Samhljómun
– homonymy
• bakki 1 kk ‘barmur, brún; hóll, hæð; skýjabólstur’
• bakki 2 kk ‘grunnt fat, bytta’
– homophones – mismunandi orð, sami framburður
• hár hk ‘hornþráður sem vex út úr húð manna og dýra’
• hár kk ‘róðrarþollur, keipur’
– einstöku sinnum mismunandi stafsetning
• æft [aift] lh.þt. af æfa
• æpt [aift] lh.þt. af æpa
Samfall ritmynda
• Sama ritmynd, mismunandi framburður
– homographs
• villa kv ‘skekkja, röng hugmynd’
• villa kv ‘(glæsilegt) einbýlishús’
• Samhljómun innan orðflokks er erfið viðfangs
– stundum er samfall aðeins í einstökum myndum
• brenna 1 (þt. brann)
• brenna 2 (þt. brenndi)
Vandkvæði við samhljómun 1
• Stafsetningarleiðrétting
– hætta á að leyfilegum myndum sé ruglað saman
• skildi/skyldi, leiti/leyti; himinn/himin
• Talkennsl
– samhljóma orð skapa auðsæ vandamál
• sbr. dæmin hér að ofan
– einnig vandamál við algera samhljómun
• ruglar N-stæðulíkön
Vandkvæði við samhljómun 2
• Talgervlar (text-to-speech systems)
– eiga erfitt með ólíkan framburð sömu ritunar
• en slík dæmi eru mjög fá í íslensku; aðallega -ll-
• Upplýsingaheimt (information retrieval)
– verður erfiðari við samhljómun
• ef leitað er upplýsinga um horn dýra koma skjöl sem
varða götuhorn, borðshorn o.s.frv. með
Fjölmerking
• Fjölmerking
– polysemy
• rétt hjá Kristmanni ... var flaska með svensku bankó,
drukkin niður í axlir.
• Þar sem mætist blað og leggur kallast öxl – áraröxl.
• Utan akbrauta eru axlir eða vegbekkir.
• en nær er kollur Hellisskógsheiðar og sveigmyndaðar
dökkar axlir hennar mót suðri.
• Nokkuð virðist þó síra Sigurður í bréfinu bera kápuna á
báðum öxlum.
• Allir karlar lögðu byssur við öxl til virðingar við hann.
Samhljómun og fjölmerking
• Hver er munur á samhljómun og fjölmerkingu?
– mjög oft er erfitt að greina þar á milli
• Hvaða rökum má beita við sundurgreiningu?
– orðsifjafræði (etymology)
• uppruni bakki 1 og bakki 2 er ólíkur
• en allar merkingar orðsins öxl eiga sama uppruna
– tilfinning málnotenda
• finnst þeim bakki 1 og bakki 2 vera sama orðið?
• og hvað þá með öxl?
Fjöldi merkingartilbrigða
• Hversu mörgum merkingartilbrigðum á að
gera ráð fyrir?
– tilhneiging til að hafa þau of mörg
• Tenging tvenns konar notkunar (zeugma)
–
–
–
–
Jón er sterkur
Kaffið er sterkt
?Jón er sterkur og kaffið hans líka
?Jón er eins sterkur og kaffið sem hann drekkur
Samheiti
• Samheiti
– synonyms
– mismunandi lexem sömu merkingar
• Hvenær er merkingin sú sama?
– oft prófað með umskiptanleika
•
•
•
•
þessi maður er hár
þessi maður er langur
*þessi dagur er hár
*þessi turn er langur
Jaðarmerking og orðastæður
• Oft er grunnmerking tveggja lexema sú sama
– en annað hefur jaðarmerkingu sem hitt hefur ekki
• stór og mikill hafa líka merkingu
• en stór er meira notað um áþreifanlega hluti
• mikill frekar um eitthvað óáþreifanlegt
• Einnig þarf að huga að orðastæðum
– tvö orð merkja kannski alveg það sama
– en hafa samt með sér einhverja verkaskiptingu
Málsnið
• Einnig þarf að taka tillit til málsniðs (register)
– orð með sömu merkingu geta verið óumskiptanleg
– vegna þess að þau tilheyra mismunandi málsniði
• Sum orð eru einkum notuð í skáldskap
– jór, fákur, jöfur …
• Sum orð eru óformleg eða talmálsleg
– pabbi, mamma, seiva, bömmer …
Yfir- og undirheiti
Yfirheiti
– hyponym
• dýr er yfirheiti kattar
• Undirheiti
– hypernym
• köttur er undirheiti dýrs
• Flokkun út frá slíkum venslum er gagnleg
– til að gera merkingarlýsingu orða
WordNet
• WordNet
– orðfræðilegt gagnasafn fyrir ensku
– sem sýnir margvísleg merkingartengsl orða
– http://www.cogsci.princeton.edu/~wn/
• hægt að hlaða því niður
Dæmi úr WordNet
•
The noun "bass" has 8 senses in WordNet.
1. bass -- (the lowest part of the musical range)
2. bass, bass part -- (the lowest part in polyphonic music)
3. bass, basso -- (an adult male singer with the lowest voice)
4. sea bass, bass -- (the lean flesh of a saltwater fish of the family
Serranidae)
5. freshwater bass, bass -- (any of various North American freshwater
fish with lean flesh (especially of the genus Micropterus))
6. bass, bass voice, basso -- (the lowest adult male singing voice)
7. bass -- (the member with the lowest range of a family of musical
instruments)
8. bass -- (nontechnical name for any of numerous edible marine and
freshwater spiny-finned fishes)
Merkingar sagna í WordNet
• Flestar
sagnir
hafa
eina
eða
fáar
merkingar
Nafnorð í WordNet
• Vensl nafnorða í WordNet
Sagnir, lýsingarorð, atviksorð
• Vensl sagna í WordNet
• Vensl lýsingarorða og atviksorða í WordNet
Samheitamengi
• Samheitamengi
– synset – a set of synonyms
• {chump, fish, fool, gull, mark, patsy, fall
guy, sucker, schlemiel, shlemiel, soft touch,
mug}
– ‘a person who is gullible and easy to take
advantage of’
• Sérhvert þessara orða á að geta komið þessari
merkingu á framfæri við einhverjar aðstæður
Merkingarhlutverk
• Helstu merkingarhlutverk og skilgreiningar
Dæmi
• Nokkur dæmi um merkingarhlutverk
Önnur skilgreining hlutverka
•
•
•
•
•
•
•
GERANDI (AGENT/ACTOR): sá sem viljandi kemur af stað þeirri athöfn
sem umsögnin lýsir.
ÞEMA/ÞOLANDI (THEME/PATIENT): sá/það sem verður fyrir áhrifum af
þeirri athöfn sem umsögnin lýsir.
SKYNJANDI/REYNANDI (EXPERIENCER): sá/það sem skynjar eða
upplifir eitthvert (sálrænt, huglægt) ástand sem umsögnin lýsir.
ÞIGGJANDI (BENEFACTIVE/BENEFICIARY): sá/það sem hagnast á
þeirri athöfn sem umsögnin lýsir.
MARKMIÐ (GOAL): sá/það sem sú athöfn sem umsögnin lýsir beinist að.
UPPTÖK (SOURCE): sú persóna/sá staður þaðan sem eitthvað er fært með
þeirri athöfn sem umsögnin lýsir.
STAÐUR (LOCATION): staðurinn þar sem athöfnin eða ástandið sem
sögnin lýsir á sér stað.
Íslensk dæmi um hlutverk
• Jón (GERANDI) sendi Maríu (ÞIGGJANDI/
•
•
•
•
•
•
MARKMIÐ) bókina (ÞEMA)
Jón (GERANDI) velti boltanum (ÞEMA) til
Sveins (MARKMIÐ)
Boltinn (ÞEMA) valt til Sveins (MARKMIÐ)
Jóni (SKYNJANDI/REYNANDI) var kalt
Jón (SKYNJANDI/REYNANDI) var hræddur
Jón (GERANDI) keypti bókina (ÞEMA) af Sveini
(UPPTÖK)
Jón (ÞEMA) býr í Reykjavík (STAÐUR)
Hlutverk og setningarliðir
• Hlutverkastigveldi
– thematic hierarchy
– GERANDI > TÆKI > ÞEMA
• Linking theory
– tenging merkingarhlutverka við setningarhluta
• Alternations
– mismunandi tengsl hlutverka og setningarhluta
Mismunandi hlutverk í sömu athöfn
• Erfitt er að segja til um val og tengsl hlutverka
– út frá atburði og þátttakendum einum saman
• Anna keypti bók af Pétri fyrir 1000 krónur
• Pétur seldi Önnu bók fyrir 1000 krónur
• Anna borgaði Pétri 1000 krónur fyrir bók
– hér er sömu viðskiptum lýst á marga vegu
• Því þarf að skrá möguleg tengsl hverrar sagnar
– setningafræðitengsl og hlutverkatengsl
FrameNet
• Slíka skráningu er að finna í FrameNet
– þar eru taldir allir hugsanlegir rökliðir orðs
– ásamt merkingarhlutverkum þeirra
– og setningafræðilegu eðli og hlutverki
• Hlutverk í FrameNet eru mjög sérhæfð
– hvert hlutverk skilgreint sem hluti ramma (frame)
– hver rammi sem hluti léns (domain)
• Þarna næst allgóð samsvörun við setningagerð
Valhömlur
• Valhömlur
– selectional restrictions
– orð setja nágrönnum sínum í setningu skilyrði
• Valhömlur byggjast á fjölbreyttum þáttum
– merkingarþáttum eins og [±LIFANDI]
– þáttum eins og [±ÆTILEGT], [±LÆSILEGT]
– og stundum á einstökum orðum
Valhömlur sem samheitamengi
• Valhömlur má setja fram sem samheitamengi
– valhömlur á þema eat: {food, nutrient}
– hamborgarar eru ætilegir!
• hamburger, beefburger
=> sandwich
=> snack food
=> dish
=> nutriment, nourishment,…
=> food, nutrient
=> substance,
=> entity
Þáttagreining
• Primitive decomposition
– componential analysis
– greining merkingarþátta
• Byggist á því að losa sig frá einstökum orðum
– greina þess í stað frumþætti merkingar þeirra
– s.s. GERA, VALDA, VERÐA
• Þetta minnir á „lexical semantics“ um 1970
Dæmi um þætti
• Merkingarþættir og skilgreiningar þeirra
Tölvur og tungumál - 18
© Eiríkur Rögnvaldsson,
nóvember 2008
Einræðing merkingarbrigða
• Einræðing merkingarbrigða orða
– word sense disambiguation
– greining orða í samhengi
• Tvær aðferðir
– einræðing samfara merkingargreiningu
– einræðing óháð merkingargreiningu
• Valhömlur
– selectional restrictions
Margrætt orð: réttur
• réttur 1
– gæta verður þess að hafa ekki of sterkt karrí ef
börn eiga að borða réttinn
– Þá er rétturinn tilbúinn til átu og finnst mér best
að borða réttinn með tómatsósu og sinnepi
• réttur 2
– þeir sem koma út af Sölvhólsgötunni eiga
réttinn fyrir þeim sem koma niður Ingólfsstrætið
– Norðmenn eiga réttinn á rótarlénunum .bv og .sj
Einræðing með valhömlum
• Valhömlur nýtast í einræðingu
– orð kann að vera margrætt út af fyrir sig
– en valhömlur orðanna í kring gera það einrætt
• Gildir bæði um umsagnir og rökliði
– valhömlur geta einrætt margræða rökliði
• borða rétt – brjóta rétt
– valhömlur geta einrætt margræða umsögn
• bursta fötin – bursta andstæðinginn
Hvernig fer einræðing fram?
• Tengsl setninga- og merkingargreiningar
– merkingareindir eru myndaðar
– og brot á valhömlum könnuð
– um leið og setningarliðir eru myndaðir
• Þetta krefst upplýsinga um tvennt:
– stigveldisröðun í merkingu rökliða
– valhömlur milli rökliða og umsagna
• Hvort tveggja fæst úr WordNet
Valhömlur eru ófullnægjandi
• Stundum skortir skýrar valhömlur
– ... sé sams konar réttur og ...
• Neitun getur fellt valhömlur úr gildi
– fyrst þá munið þið finna að það er ekki hægt að
borða peninga
• Stundum eru valhömlur brotnar í líkingum
– Bara þær [plönturnar] geta vaxið við það eitt að
éta grjót, vatn og loft og liggja í sólbaði!
Valtengsl í stað valhamlna
• Því er ekki hægt að beita valhömlum í blindni
– þá gengur merkingargreining iðulega ekki upp
• Valtengsl
–
–
–
–
selectional association
styrkleiki tengsla milli umsagnar og rökliðar
skali í stað annaðhvort – eða
en dugir ekki í tvöfaldri margræðni
• þegar bæði umsögn og rökliður eru margræð
Aðrar aðferðir við einræðingu
• Notkun valhamlna við einræðingu er of flókin
– krefst upplýsinga sem sjaldnast eru fyrir hendi
• Þess í stað hafa verið þróaðar aðrar aðferðir
– sem hægt er að beita á hráan texta
– og byggjast ekki á flókinni greiningu
– eða nákvæmum upplýsingum úr gagnabönkum
• Þessar aðferðir byggjast á þjálfun
Markorð og umhverfi
• Greining markorðs og umhverfis
– target word and context
• Öll orðin eru greind í orðflokka
• Upphaflegu umhverfi oft skipt út
– fyrir misstórar eindir umhverfis markorðið
• Oft er stofn orðanna í umhverfinu greindur
• Stundum er framkvæmd ófullkomin þáttun
– til að greina tiltekin merkingar- eða setningavensl
Orðastæðuþættir og grenndarþættir
• Tvenns konar málfræðiatriði eru mikilvægust
• Orðastæðuþættir (collocational features)
– upplýsingar um orð á tilteknum stöðum í grennd
• orðmynd, orð, orðflokkur
• Grenndarþættir (co-occurrence features)
– upplýsingar um tíðni orða í grennd við markorð
• t.d. fimm orð í hvora átt
• Flest kerfi nýta bæði þessi atriði
Hvað sýna þættirnir?
• Orðastæðuþættir
– sýna dæmigerðar orðastæður markorðsins
• t.d. forsetningu með því, atviksorð sem það tekur
– sem duga oft til einræðingar merkingar
• Grenndarþættir
– sýna dæmigerð orð í grennd við markorðið
– sem bera vitni um viðfangsefni textans
– og duga þannig oft til einræðingar
Margrætt orð: bakki
• bakki 1
– Eitt sinn er Jóhannes skírari stóð á bakka árinnar
Jórdan
– Er honum fyrir komið við bakka ár eða stöðuvatns
• bakki 2
– Nauðsynlegt er að bera drykkina fram á bakka
fyrir dómarana
– Ef pappír er fastur í bakka, prufið að ná honum
gegnum bakkann fyrir ofan
Viðgjafaraðferðir 1
• Viðgjafaraðferðir (supervised learning methods)
– við að þjálfa kerfi til einræðingar
• Líklegasta merking valin út frá þjálfunarsafni
– líkindin á að við standi næst á undan bakka 1 eða 2
• Flokkaraskrá (decision list classifiers)
– reglur sem mátaðar eru við hvert dæmi
– og dæmið flokkað út frá því
– falli engin regla að því er algengasta merking valin
Reglur um val milli merkinga bass
• Orð í
grennd
og
orðastæður
nýtast
til að
greina
á milli
Viðgjafaraðferðir 2
• Bootstrapping approach
– valdar eru nokkrar dæmigerðar setningar
– og þær síðan notaðar sem fræ (seeds)
– til að mynda stærra þjálfunarsafn
• Fræin má velja á ýmsa vegu
– hægt er að velja þau handvirkt
– en einnig má velja orð sem tengjast mjög sterkt
– og nota þau til að finna fræ
bass ‘hljóðfæri’
• Setningar fundnar út frá play
bass ‘fiskur’
• Setningar fundnar út frá fish
Notkun orðabókarskilgreininga 1
• Einnig er hægt að nota rafrænar orðabækur
– skoða allar merkingarskilgreiningar orðanna
– og athuga hvort þær skarast
– réttur
• tilkall, réttindi
• matur, matartegund í máltíð
– bragðdaufur
• dapur, hnugginn
• (um mat) bragðlítill
Notkun orðabókarskilgreininga 2
• Orðabókarskilgreiningar eru oft stuttar
– óvíst að réttu orðin komi fyrir í skilgreiningu
– ljúffengur
• gómsætur, sem bragðast vel
• Stundum er hægt að víkka þetta út
– taka líka orð sem nýta markorðið í skilgreiningu
• ef t.d. réttur kæmi fyrir í skilgreiningu ljúffengur
Upplýsingaheimt
• Upplýsingaheimt
– information retrieval
• Byggist yfirleitt aðeins á orðum
– ekki á neinni setningafræðilegri greiningu
• enginn munur á Jón sá Björn og Björn sá Jón
• Máta þarf spurningu við texta
– og meta líkindin þar á milli
Vægi heita í leit
• Gefa þarf heitum (terms) mismunandi vægi
– til að ná sem bestum árangri í leit
• Tveir þættir skipta þar mestu máli:
– tíðni heitis í einstökum skjölum
• algengt heiti er væntanlega vísbending um efnið
– dreifing heitis á skjölin í leitarsafninu
• heiti sem dreifast jafnt skipta minna máli en hin
Stofngreining og óorðaskrá
• Stundum er beitt stofngreiningu (stemming)
– það skiptir mun meira máli í íslensku en ensku
– notað t.d. á vef Alþingis og í gagnasafni Mbl.
– en getur líka verið til trafala
• Stundum er notuð órðaskrá (stop word list)
– til að útiloka algeng orð
– sem hafa litla sjálfstæða merkingu
– en myndu stækka indexana mikið
Samhljómun, fjölmerking, samheiti
• Samhljómun og fjölmerking rýrir nákvæmni
– leitin skilar orðum sem ekki koma málinu við
– vegna þess að þau líta út eins og leitarorðið
• leit að réttur skilar dæmum um báðar merkingar
• Sameiti og yfirheiti rýra skil (recall)
– leitin skilar aðeins orðum sem beðið er um
– en ekki öðrum á sama merkingarsviði
• leit að réttur skilar ekki dæmum um matur
Aðferðir við að bæta niðurstöður
• Relevance feedback
– notandanum sýndar fáeinar leitarniðurstöður
– spurður hver samsvari væntingum hans best
– síðan endurskilgreinir kerfið spurninguna
• Query expansion
– spurningin víkkuð út
– og látin taka einnig til samheita
Vélrænn útdráttur
• Vélrænn útdráttur
– automatic text summarization
• Þekkingarbyggður (knowledge-based)
– byggist á merkingargreiningu frumtextans
– myndaðar nýjar setningar út frá merkingunni
• Valbyggður (selection-based)
– setningum gefið vægi eftir orðalista og reglum
– valdar setningar sem hafa mest vægi
Tölvur og tungumál - 19
© Eiríkur Rögnvaldsson,
nóvember 2008
Eru vélrænar þýðingar raunhæfar?
• Fullkomin vélræn þýðing er óraunhæf:
– „The problem of automatically producing a highquality translation of an arbitrary text from one
language to another is thus far too hard to
automate completely.“
• Vélræn þýðing getur hins vegar verið raunhæf
– þar sem gróf þýðing er nægjanleg
– þar sem eftirvinnsla fer fram
– á mjög afmörkuðum sviðum málsins
Vélrænar þýðingar geta dugað
• Hrá þýðing getur verið fullnægjandi
– t.d. í upplýsingaleit á vefnum
• Hrá þýðing er oft fyrsta skref
– í átt til fullkominnar þýðingar
• tölvustudd þýðing, computer-aided human translation
• Vélræn þýðing getur verið fullkomin
– þar sem orðaforði og setningagerð eru takmörkuð
• s.s. í veðurfregnum, vörumerkjaskrám o.þ.h.
Yfirfærslulíkanið
• Yfirfærslulíkan
– transfer model
– inntaki breytt til að falla að reglum markmáls
• Þrír fasar líkansins:
– greining setninga í máli sem þýtt er af
– yfirfærsla; breyting setningagerðar
– myndun setninga á máli sem þýtt er á
Yfirfærslulíkanið myndrænt
• Hér er sýnt hvernig yfirfærslulíkanið verkar
Enska > japanska
• Stig í þýðingu úr
ensku á japönsku
Ummyndanir
• Nauðsynlegar setningafræðilegar ummyndanir
– í þýðingu úr japönsku á ensku
• ef inntakið samsvarar vinstri hluta ummyndunarinnar er
það umskrifað í samræmi við hægri hlutann
Merkingarlíkanið
• Merkingarlíkan
– interlingua
• Byggist á merkingargreiningu
– merking setninga í frummáli greind
– og setningar í markmáli myndaðar út frá því
• Krefst fullkominnar greiningar
– og er því erfitt í framkvæmd
Merkingarlýsing
• Merkingarlýsing fyrir merkingarlíkanið
– There was an old man gardening
Tengsl líkana
• Tengsl yfirfærslulíkans
og
merkingarlíkans
Bein þýðing
• Bein þýðing
– direct translation
• Miðast við að gera eins lítið og hægt er
– yfirleitt sérsniðið fyrir hvert par tungumála
– takmarkast við það sem nauðsynlegt er til að
þýða af frummáli á markmál
• Yfirleitt brotið upp í nokkur stig
– þar sem ákveðnu atriði er sinnt á hverju stigi
Stig í þýðingu úr japönsku á ensku
• Þýðingarferlið brotið upp í stig
Aðgerðum beitt á streng
• Hér er ekki framkvæmd nákvæm greining
– hvorki á setningagerð né merkingu
• Inntakið er strengur af orðum (morfemum)
– sem ýmsum aðgerðum er beitt á
• skipti á orðum, umröðun orða o.s.frv.
• Fæst þýðingarkerfi eru einsleit
– flest nýta þætti úr mismunandi líkönum
• bein þýðing nýtir oft merkingargreiningu og yfirfærslu
Hliðskipaðir textar
• Hliðskipaðir textar – tvímálatextar
– parallel texts – bilingual texts/corpora
– sami textinn á tveimur tungumálum
• Samskipun (alignment)
– samskipun setninga
– samskipun orða
• Sýnir tengsl orða í málunum tveimur
Tölfræðilíkan
• Tölfræðilíkan
– statistical model of translation
– leggur áherslu á útkomuna en ekki ferlið
• Tvennt sem mælikvarði er lagður á
– eðlileiki í markmálinu (fluency)
• sæmilegar aðferðir við mælingu til
– trúnaður við frumtexta (faithfulness)
• getur verið erfitt að mæla það
Vélrænar og mannlegar þýðingar
• Samspil vélrænna og mannlegra þýðinga
– eftirvinnsla mikið notuð
• Forvinnsla (pre-editing) er einnig notuð
– heppileg ef þýða skal á mörg tungumál
• Takmörkun á setningum frummálsins
– forðast að nota flóknar setningagerðir
• Meginatriði að hafa orðin rétt
– notendur sjá oftast gegnum ranga setningagerð
Orðasöfn og þýðingarminni
• Góð orðasöfn eru grundvallaratriði
– innihalda helst líka málshætti, föst orðasambönd,
algeng setningabrot og heilar setningar
• Slík gögn eru oft sótt beint í málheildir
– frekar en í orðasöfn
– Example-based Machine Translation
• Þýðingarminni (translation memory)
– nýting setninga sem áður hafa verið þýddar
Þýðingarminni ESTeam
• Sentence:
– Chemical and pharmaceutical products, all
intended for industrial purposes.
• Subsentence (subsentence units highlighted
in red):
– Chemical and pharmaceutical
products , all intended for industrial
purposes .
Þýðingarferli hjá ESTeam
•
•
TM = translation
memory
TL = target language
Vélrænar þýðingar Stefáns Briem
• Vefsíða um vélrænar þýðingar
– http://www.simnet.is/stbr/vel.html
• Tungutorg
– vélrænar grófþýðingar á íslensku
• úr ensku og esperanto
– vélrænar grófþýðingar úr íslensku
• á dönsku og ensku
Tölvur og tungumál - 20
© Eiríkur Rögnvaldsson,
nóvember 2008
Túlkun frumtexta
• Forsenda þýðingar er skilningur frumtexta
– sá skilningur er margþættur
• Túlkunin fer fram á nokkrum sviðum:
– Semantic level: understanding words out of
context, as in a dictionary.
– Syntactic level: understanding words in a
sentence.
– Pragmatic level: understanding words in
situations and context.
Nauðsynlegar forsendur þýðingar
• Knowledge of the source language, which allows us
to understand the original text.
• Knowledge of the target language, which makes it
possible to produce a coherent text in that language.
• Knowledge of equivalents between the source and
target languages.
• Knowledge of the subject field as well as general
•
knowledge, both of which aid comprehension of the
source language text.
Knowledge of socio-cultural aspects, that is, of the
customs and conventions of the source and target
cultures.
Þýðing af frönsku á ensku
Þýðingarvillur
•
•
•
•
•
•
•
•
•
•
1. Words or phrases that are apparently correct but
which do not translate the meaning in context:
Original: l'esprit guerrier
Systran: the warlike spirit
Reverso: the warlike spirit
HT:
the warmongering mood
2. Words without meaning:
Original: comme l'a dit le président George W. Bush
Systran: like said it the president George W. Bush
Reverso: as said it the president George W. Bush
HT:
as President George Bush put it
Málnotkunarvillur
•
•
•
•
•
•
•
•
•
The translation is understandable in that the MT
produces the meaning but does not respect usage:
Original: semble avoir balayé ces scrupules
Systran:
seems to have swept these scruples
Reverso: seems to have swept (annihilated) these scruples
HT:
seems to have swept away such scruples
Original: qui n'est pas avec nous est avec les terroristes
Systran:
which is not with us is with the terrorists
Reverso: which (who) is not with us is with the terrorists
HT:
either you are with us or with the terrorists
Nokkur þýðingarforrit á netinu
•
•
•
•
•
•
•
•
•
Babelfish:
Dictionary:
Systran:
Systran Systranet:
WorldLingo:
ProMT:
Voilà:
Free Translation:
Tungutorg:
http://babelfish.altavista.com/
http://www.dictionary.com/translate
http://www.systransoft.com/
http://www.systranet.com/systran/net
http://worldlingo.com/wl/Translate
http://www.translate.ru/eng/other.asp
http://trans.voila.fr/
http://www.freetranslation.com/
http://www.tungutorg.is
Bein þýðing
Source language text
La
jeune
fille a acheté
Breakdown in source language
La
jeune
fille acheter
Lexical Transfer
The young girl buy
Adaptation in target language
The young girl bought
deux
livres
deux
livre
two
book
two
books
Babelfish: franska > enska
•
Les conservateurs du chancelier •
sortant Wolfgang Schuessel ont
remporté la victoire aux élections
législatives de dimanche en
Autriche, obtenant 42,3% des voix
selon les projections de la
télévision nationale. Le FPOe,
l'extrême droite du populiste Joerg
Haider, avec laquelle M.Schuessel
avait gouverné vaille que vaille
pendant près de trois ans,
s'effondre à environ 10,2% mais
une reconduction de la coalition
sortante droite-extrême droite reste
possible.
The conservatives of the outgoing
chancellor Wolfgang Schuessel
gained the victory with the
legislative elections of Sunday in
Austria, obtaining 42,3% of the
voices according to projections' of
national television. FPOe, the
extreme line of the populist Joerg
Haider, with whom M.Schuessel
had controlled after a fashion
during nearly three years, breaks
down to approximately 10,2% but
a renewal of the outgoing coalition
right-hand side-extreme right
remains possible.
Babelfish: rússneska > enska
•
Отгремел пражский саммит
•
НАТО, семь новоиспеченных
членов (Литва, Латвия, Эстония,
Словения, Словакия, Болгария,
Румыния), оказавшись под
крылышком альянса, вздохнули
свободно, мол, теперь имперским
амбициям России (какие амбиции,
не растерять бы того, что
получили в наследство от СССР)
пришел конец. Бывший
Варшавский блок, медленно, но
верно трансформируется в
североатлантический альянс, что,
безусловно, радует американцев, а
нам добавляет только головной
боли.
Prague Summit OF NATO died
down, seven newly-made terms
(Lithuania, Latvia, Estonia,
Slovonia, Slovakia, Bulgaria,
Rumania), after proving to be under
the wing of alliance, sighed freely, it
is said, to the now imperial
ambitions of Russia (what ambitions,
not to lose that they obtained as the
inheritance from THE USSR) it
arrived end.The former Warsaw
block, it is slow, but correctly it is
transformed into the North Atlantic
alliance, which undoubtedly
gladdens Americans, and to us are
added only headaches.
Vélþýðing og mannleg þýðing
•
Prague Summit OF NATO died
•
down, seven newly-made terms
(Lithuania, Latvia, Estonia, Slovonia,
Slovakia, Bulgaria, Rumania), after
proving to be under the wing of
alliance, sighed freely, it is said, to
the now imperial ambitions of Russia
(what ambitions, not to lose that they
obtained as the inheritance from THE
USSR) it arrived end.The former
Warsaw block, it is slow, but
correctly it is transformed into the
North Atlantic alliance, which
undoubtedly gladdens Americans,
and to us are added only headaches.
The NATO summit in Prague is
over, seven new NATO members
(Lithuania, Latvia, Estonia,
Slovenia, Slovakia, Bulgaria,
Romania) have breathed with
relief being glad Russia’s empire
ambitions are conquered (What
ambitions? What was inherited
from the USSR should be kept at
least!). Former Warsaw block has
been gradually transformed into
the North-Atlantic Treaty
Organization, so Americans are
satisfied, while Russians have one
more reason to be concerned.
Hearts in Atlantis (Babelfish, 1)
•
Bobby Garfield's father
had been one of those
fellows who start losing
their hair in their twenties
and are completely bald
by the age of forty-five or
so. Randall Garfield was
spared this extremity by
dying of a heart attack at
thirty-six.
•
Vater SchupoGarfield war
einer jener Gefährten
gewesen, die anfangen, ihr
Haar in ihren Zwanziger
Jahren zu verlieren und durch
das Alter von forty-five oder
so vollständig kahl sind.
Randall Garfield wurde diese
Extremität erspart, indem
man an einem Inneren
Angriff bei thirty-six starb.
Hearts in Atlantis (Babelfish, 2)
•
He was a real-estate agent,
and breathed his last on
the kitchen floor of
someone else's house. The
potential buyer was in the
living room, trying to call
an ambulance on a
disconnected phone, when
Bobby's dad passed away.
At this time Bobby was
three.
•
Er war ein Immobilienmakler
und atmete sein Letztes auf
dem Küchefußboden von
jemand sonst Haus. Der
mögliche Kunde war im
lebenden Raum und
versuchte, einen
Krankenwagen an einem
getrennten Telefon zu
benennen, als Vati des
Schupos weg überschritt.
Diesmal war Schupo drei.
Hearts in Atlantis (Babelfish, 3)
•
He had vague memories of
a man tickling him and
then kissing his cheeks
and his forehead. He was
pretty sure that this man
had been his dad. Sadly
missed, it said on Randall
Garfield's gravestone, but
his mom never seemed all
that sad, and as for Bobby
himself ... well, how could
you miss a guy you could
hardly remember?
•
Er hatte vage Speicher eines
Mannes, der ihn tickling und
dann seine Backen und seinen
Forehead geküßt worden sein
würde. Er war recht sicher,
daß dieser Mann sein Vati
gewesen war. Traurig vermißt,
sagte es auf gravestone
Randall Garfield, aber sein
mom nie alles trauriges das
und schien für Schupo selbst...
auch, wie könnte Sie an ein
Halteseil vermissen, das Sie
kaum sich erinnern konnten?
Hearts in Atlantis (Voilà, 1)
•
Bobby Garfield's father
had been one of those
fellows who start losing
their hair in their twenties
and are completely bald
by the age of forty-five or
so. Randall Garfield was
spared this extremity by
dying of a heart attack at
thirty-six.
•
Vater von Bobby Garfield
war einer jener Gefährten
gewesen, die anfangen, ihr
Haar in ihren zwanziger
Jahren zu verlieren, und
durch das Alter von
fünfundvierzig vollkommen
kahl sind oder so. Randall
Garfield wurde dieses
Äußerste verschont, an einem
Herzanfall an
sechsunddreißig sterbend.
Hearts in Atlantis (Voilà, 2)
•
He was a real-estate agent,
and breathed his last on
the kitchen floor of
someone else's house. The
potential buyer was in the
living room, trying to call
an ambulance on a
disconnected phone, when
Bobby's dad passed away.
At this time Bobby was
three.
•
Er war ein
Grundeigentumagent, und
atmete sein letzt auf dem
Küchenfußboden des Hauses
von jemandem anderen. Der
potentielle Kunde war im
Wohnzimmer, versuchend,
einen Krankenwagen auf
einem getrennten Telefon zu
nennen, als Vati von Bobby
verging. In dieser Zeit war
Bobby drei.
Hearts in Atlantis (Voilà, 3)
•
He had vague memories of
a man tickling him and
then kissing his cheeks
and his forehead. He was
pretty sure that this man
had been his dad. Sadly
missed, it said on Randall
Garfield's gravestone, but
his mom never seemed all
that sad, and as for Bobby
himself ... well, how could
you miss a guy you could
hardly remember?
•
Er hatte vage Erinnerungen
eines Mannes, der ihn und
dann Küssen seiner Backen
und seiner Stirn kitzelt. Er war
recht sicher, dass dieser Mann
sein Vati gewesen war.
Traurig verpasst sagte es auf
Grabstein von Randall
Garfield, aber seine Mama
schien nie alles, woran traurig,
und bezüglich Bobby selbst ...
gut wie konnten Sie einen Kerl
verpassen, Sie sich kaum
erinnern konnten?
Hearts in Atlantis (samanburður, 1)
•
Vater SchupoGarfield war
einer jener Gefährten
gewesen, die anfangen, ihr
Haar in ihren Zwanziger
Jahren zu verlieren und
durch das Alter von fortyfive oder so vollständig kahl
sind. Randall Garfield
wurde diese Extremität
erspart, indem man an
einem Inneren Angriff bei
thirty-six starb.
•
Vater von Bobby Garfield
war einer jener Gefährten
gewesen, die anfangen, ihr
Haar in ihren zwanziger
Jahren zu verlieren, und
durch das Alter von
fünfundvierzig vollkommen
kahl sind oder so. Randall
Garfield wurde dieses
Äußerste verschont, an einem
Herzanfall an
sechsunddreißig sterbend.
Hearts in Atlantis (samanburður, 2)
•
Er war ein
Immobilienmakler und
atmete sein Letztes auf dem
Küchefußboden von jemand
sonst Haus. Der mögliche
Kunde war im lebenden
Raum und versuchte, einen
Krankenwagen an einem
getrennten Telefon zu
benennen, als Vati des
Schupos weg überschritt.
Diesmal war Schupo drei.
•
Er war ein
Grundeigentumagent, und
atmete sein letzt auf dem
Küchenfußboden des Hauses
von jemandem anderen. Der
potentielle Kunde war im
Wohnzimmer, versuchend,
einen Krankenwagen auf
einem getrennten Telefon zu
nennen, als Vati von Bobby
verging. In dieser Zeit war
Bobby drei.
Hearts in Atlantis (samanburður, 3)
•
Er hatte vage Speicher eines
Mannes, der ihn tickling und
dann seine Backen und seinen
Forehead geküßt worden sein
würde. Er war recht sicher,
daß dieser Mann sein Vati
gewesen war. Traurig
vermißt, sagte es auf
gravestone Randall Garfield,
aber sein mom nie alles
trauriges das und schien für
Schupo selbst... auch, wie
könnte Sie an ein Halteseil
vermissen, das Sie kaum sich
erinnern konnten?
•
Er hatte vage Erinnerungen
eines Mannes, der ihn und
dann Küssen seiner Backen
und seiner Stirn kitzelt. Er
war recht sicher, dass dieser
Mann sein Vati gewesen
war. Traurig verpasst sagte
es auf Grabstein von
Randall Garfield, aber seine
Mama schien nie alles,
woran traurig, und
bezüglich Bobby selbst ...
gut wie konnten Sie einen
Kerl verpassen, Sie sich
kaum erinnern konnten?
Das Brot (Babelfish, 1)
•
Plötzlich wachte sie auf.
Es war halb drei. Sie
überlegte, warum sie
aufgewacht war. Ach so!
In der Küche hatte jemand
gegen einen Stuhl
gestoßen. Sie horchte nach
der Küche. Es war still. Es
war zu still und als sie mit
der Hand über das Bett
neben sich fuhr, fand sie
es leer. Das war es, was es
so besonders still gemacht
hatte: sein Atem fehlte.
•
Suddenly it woke up. There
half three. It considered,
why it had waked up. Oh
so! In the kitchen someone
had pushed against a chair.
It horchte after the kitchen.
It was quiet. It was too quiet
and as it with the hand over
the bed beside itself drove,
found it empty it. That was
it, which had made it so
particularly quiet: its breath
was missing.
Das Brot (Babelfish, 2)
•
Sie stand auf und tappte
durch die dunkle
Wohnung zur Küche. In
der Küche trafen sie sich.
Die Uhr war halb drei. Sie
sah etwas Weißes am
Küchenschrank stehen.
Sie machte Licht. Sie
standen sich im Hemd
gegenüber. Nachts. Um
halb drei. In der Küche.
•
She rose and groped by
the dark dwelling to the
kitchen. In the kitchen
they met. The clock was
half three. She saw
something white at the
kitchen cabinet. It made
light. They faced each
other in the shirt. At night.
Around half three. In the
kitchen.
Das Brot (Voilà, 1)
•
Plötzlich wachte sie auf. Es
war halb drei. Sie überlegte,
warum sie aufgewacht war.
Ach so! In der Küche hatte
jemand gegen einen Stuhl
gestoßen. Sie horchte nach
der Küche. Es war still. Es
war zu still und als sie mit
der Hand über das Bett
neben sich fuhr, fand sie es
leer. Das war es, was es so
besonders still gemacht
hatte: sein Atem fehlte.
•
Suddenly she woke up. It was
half past two. She considered,
why she had woken up. Oh so!
In the kitchen somebody had
pushed against a chair. She
listened after the kitchen. It was
quiet. It was too quiet and when
she went with the hand about
the bed near herself, she found
it empty. This was it what had
done it so particularly quietly:
his(its) breath was absent
(lacking).
Das Brot (Voilà, 2)
•
Sie stand auf und tappte
durch die dunkle
Wohnung zur Küche. In
der Küche trafen sie sich.
Die Uhr war halb drei. Sie
sah etwas Weißes am
Küchenschrank stehen.
Sie machte Licht. Sie
standen sich im Hemd
gegenüber. Nachts. Um
halb drei. In der Küche.
•
She got up and groped about
by the dark house to the
kitchen. In the kitchen they
met. The watch(clock) was
half past two. She saw
something white in the
kitchen cupboard standing.
She did light. They were
confronted in the shirt. At
night. At half past three. In
the kitchen.
Das Brot (samanburður, 1)
•
Suddenly it woke up. There
half three. It considered,
why it had waked up. Oh
so! In the kitchen someone
had pushed against a chair.
It horchte after the kitchen.
It was quiet. It was too quiet
and as it with the hand over
the bed beside itself drove,
found it empty it. That was
it, which had made it so
particularly quiet: its breath
was missing.
•
Suddenly she woke up. It was
half past two. She considered,
why she had woken up. Oh so!
In the kitchen somebody had
pushed against a chair. She
listened after the kitchen. It was
quiet. It was too quiet and when
she went with the hand about
the bed near herself, she found
it empty. This was it what had
done it so particularly quietly:
his(its) breath was absent
(lacking).
Das Brot (samanburður, 2)
•
She rose and groped by
the dark dwelling to the
kitchen. In the kitchen
they met. The clock was
half three. She saw
something white at the
kitchen cabinet. It made
light. They faced each
other in the shirt. At night.
Around half three. In the
kitchen.
•
She got up and groped about
by the dark house to the
kitchen. In the kitchen they
met. The watch(clock) was
half past two. She saw
something white in the
kitchen cupboard standing.
She did light. They were
confronted in the shirt. At
night. At half past three. In
the kitchen.
Frétt af mbl.is – þýðing InterTran, 1
•
Hamassamtökin lýstu í
dag ábyrgð á hendur sér á
sjálfsmorðsárás í
Jerúsalem í morgun en þar
sprengdi Palestínumaður
sprengju sem hann bar á
sér innanklæða með þeim
afleiðingum að 12 manns
til viðbótar létu lífið og
tugir særðust.
•
Hamassamtökin lýstur
með kertum today
guarantee river throw
scrape together river
sjálfsmorsárás into City of
David this morning while
there sprengdi
Palestínumaur shrapnel
whom he bar river scrape
together innanklæa me
them afleiingum a 12
human to vibótar létu lífi
and tugir særust.
Frétt af mbl.is – þýðing InterTran, 2
•
Meðal þeirra sem létu lífið
voru börn á leið í skóla.
Heimastjórn
Palestínumanna hefur
fordæmt sprengjutilræðið
en Ariel Sharon
forsætisráðherra Ísraels
hefur skipað Ísraelsher að
undirbúa hefndaraðgerðir
gegn Palestínumönnum.
•
Meal them whom létu lífi
voru heeltap river lei into
intramural. Home rule
Palestínumanna hast
reprobate sprengjutilræi
while Ariel Sharon
forsætisráherra Lsrael hast
order Ísraelsher a set up
hefndaragerir through
Palestínumönnum.
Frétt af cnn.com – þýðing InterTran, 1
•
A suicide bomber killed
11 people and injured 50 - including many
schoolchildren -- aboard a
crowded Israeli commuter
bus in Jerusalem on
Thursday morning,
according to Israeli police.
The bus regularly carries
schoolchildren and
university students,
according to Jerusalem
Mayor Ehud Olmert.
•
A sjálfsmorð sprengjuflugvél
óvirkur 11 fólk og slasaður 50
að meðtöldum margir
schoolchildren um borð a
fjölmennur Ísraeli
vinnuferðalangur strætisvagn í
Jerusalem á Fimmtudagur
morgunn góðan daginn ,
according to til Ísraeli lögregla.
The strætisvagn reglulega
flutningsaðili schoolchildren og
háskóli námsmaður , according
to til Jerusalem Borgarstjóri
Ehud Olmert.
Frétt af cnn.com – þýðing InterTran, 2
•
Eyewitnesses told Israeli
media the explosion
occurred shortly after a
man boarded the bus.
"Every time I come to
such a site, I can't escape
the thought that a living
person entered the bus,
and he saw the young kid
of 6, 7 years old sitting,
and he blows him apart,"
Olmert said, from about
two meters from the scene
of the attack.
•
Sjónarvottur told Ísraeli frá
miðöldum the sprenging
viðburður bráðlega eftir á a
maður heimavistarnemandi the
strætisvagn. " í hvert skipti ÉG
koma til svo sem a staður , ÉG
can't flýja the hugsun þessi a
líf manneskja koma inn í the
strætisvagn , og hann saga the
ungur krakki af 6, 7 ár gamall
lota , og hann blása hann í
sundur Olmert , frá óður í tveir
landamörk frá the vettvangur
af the árás.
Frétt af mbl.is – þýðing InterTran, 1
•
Myndarlegur
jólatrésfarmur fór í dag frá
Skógræktinni í Skorradal
suður á Reykjanes og
verða trén sett upp á
torgum bæja þar. Um var
að ræða 30 tré, allt frá 4 til
13 metra á hæð. Alls verða
felld um 130 torgtré hjá
Skógræktinni í Skorradal
fyrir þessi jól.
•
Handsome jólatrésfarmur fór
today of Skógræktinni into
Skorradal suður river
Smokable and become
treenail set atop square
municipal there. About var
snuggle up to speech 30
wood , everything of 4 to 13
metric river height.
Altogether become felldur
inn í about 130 square with
Skógræktinni into Skorradal
pay lip service to ;l) plum
pudding.
Frétt af mbl.is – þýðing InterTran, 2
•
Felld heimilistré verða um
500 og að auki verður
almenningi gefinn kostur á
að fella sín eigin tré í
Selsskógi helgina 14.-15.
desember nk. Á myndinni
sjást starfsmenn
Skógræktarinnar að lesta
bíl frá ÞÞÞ á Akranesi.
•
Felldur inn í white goods
become about 500 and
besides worth public given
choice river snuggle up to
trip himself not wood into
Selsskógi weekend 14. 15
December nk. RIVER
myndinni sjást til
occupational education
Skógræktarinnar snuggle
up to load bíl of ÞÞÞ river
Akranesi.
Frétt af cnn.com – þýðing InterTran, 1
•
Escaped convict Chadrick
Fulks was arrested
Wednesday after an
attempted bank robbery,
the FBI said, and North
Carolina authorities have
stepped up a search for a
South Carolina woman
Fulks is believed to have
abducted.
•
Flýja sakfella Chadrick
Fulks var handtaka
Miðvikudagur eftir á
óákveðinn greinir í ensku
tilraun bankarán the FBI ,
og Norður
Fagnaðarsöngur
authorities hafa aukinn
upp a leita að a Suður
Fagnaðarsöngur kona
Fulks er trúa til hafa ræna.
Frétt af cnn.com – þýðing InterTran, 2
•
The FBI confirmed Fulks'
arrest in Middlebury
Wednesday morning but
released no details.
Investigators believe
Fulks, 25, and fellow
convict Branden Basham,
21, who was arrested
Sunday in Kentucky,
kidnapped Alice Donovan
from a parking lot in
Conway, South Carolina,
Thursday.
•
The FBI staðfestur Fulks'
handtaka í Meðaljón
Miðvikudagur morgunn
góðan daginn en gefa út
neitun smáatriði.
Rannsóknarmaður trúa
Fulks, 25, og náungi sakfella
Vörumerki Roknahögg, 21,
hver var handtaka
Sunnudagur í Kentucky ,
mannræningi Alice Gefandi
frá a bílastæði í Conway,
Suður Fagnaðarsöngur,
Fimmtudagur.
Tölvur og tungumál - 21
© Eiríkur Rögnvaldsson,
nóvember 2008
Úr skýrslu starfshóps um tungutækni
• Unnið verði að þróun talgreiningar fyrir
íslensku, með það að markmiði að til verði
forrit sem geti túlkað eðlilegt íslenskt tal.
– Með talgreiningu (speech recognition) er átt
við það að tölvur skilji talað mál. Mjög miklar
framfarir hafa orðið á þessu sviði upp á síðkastið. Líklegt er að talgreining muni skipta
miklu máli á ýmsum sviðum í framtíðinni, t.d.
við upplýsingaleit og stjórn ýmiss konar tækja.
Því er mjög mikilvægt að hefja skipulega vinnu
að þróun talgreiningar fyrir íslensku.
Hjal
• Árið 2003 tóku nokkrir aðilar sig saman
– og ákváðu að reyna að koma upp hljóðsafni
– sem nýta mætti í íslenska talgreiningu
• Þátttakendur í verkinu voru fimm
– Háskólinn, Landssíminn, Hex, Nýherji, Grunnur
• Sótt var um styrk úr Tungutæknisjóði
– sem veitti 14,8 milljónir til verksins, Hjals
Forsvarsmenn þátttakenda
• Frá undirritun samnings, 31. mars 2003
Stjórn og starfsmenn
• Formaður stýrihóps:
– Sæmundur Þorsteinsson, Landssímanum
• Verkefnisstjóri:
– Helga Waage, Hex
• Umsjón með málfræðilegum hluta:
– Eiríkur Rögnvaldsson, Háskóla Íslands
• Starfsmenn – stúdentar í tungutækni:
– Björn Kristinsson, Geir Gunnarsson,
Jón Pétur Friðriksson, Valdís Ólafsdóttir
Markmið og eðli greiningar
• Markmið:
– söfnun hráefnis í hljóðsafn
– til að gera tölvum kleift að skilja íslenskt talmál
• Stakorðagreining
– greining einstakra orða
– ekki greining formgerðar eða merkingar
• Slík greining er vissulega takmörkuð
– en nýtist þó mjög vel á mörgum sviðum
Forsendur: tækni og hráefni
• Samstarf við tungutæknifyrirtækið ScanSoft
– sem sá um þjálfun talgreinisins
– með tækni sem er óháð tungumálum
– og hefur verið beitt á tæp 50 mál
• Hráefni við gerð íslensks talgreinis
– upptökur með framburði 2000 Íslendinga
– hljóðritun á þessum upptökum
– hljóðritað safn algengustu orðmynda málsins
Hljóðritunarkerfi
• International Phonetic Alphabet (IPA)
– alþjóðlegt kerfi; notar mikinn fjölda tákna
• óþjált vegna takmarkana lyklaborðs og ýmissa forrita
• Tvö kerfi gerð til notkunar í tölvum
– ARPAbet
• amerískt; notar ASCII (< 128)
– SAMPA
• evrópskt ; notar ASCII (< 128)
Íslenskt SAMPA
• ScanSoft notar SAMPA
– því þurfti að koma upp íslenskum SAMPA-staðli
– velja hljóðtákn fyrir íslensk málhljóð
• Ákveðið var að víkja sem minnst frá hefðinni
– í vali tákna fyrir einstök hljóð
• Hljóðritun er líka að flestu leyti hefðbundin
– lengd samhljóða er þó ekki táknuð sérstaklega
Samanburður SAMPA og IPA
• SAMPA
–
–
–
–
–
–
–
–
–
–
f
v
D
T
s
j
C
G
x
h
IPA
Orð
Hljóðritun
f
v
ð
θ
s
j
ç
γ
x
h
finna
vera
viður
þunnur
sofa
játa
hjóla
saga
rækta
halda
/fIna/
/vE:ra/
/vI:DYr/
/TYnYr/
/sO:va/
/jau:da/
/Cou:la/
/sa:Ga/
/raixda/
/halda/
Nauðsyn mikils hráefnis
• Hvers vegna þessi fjöldi þátttakenda?
– framburður sama orðs getur verið mismunandi
– bæði milli manna og hjá sama málhafa
• Talgreinirinn styðst eingöngu við hljóðbylgjur
– í greiningu á hljóðum og orðum
– hefur ekki stuðning af setningagerð eða merkingu
• Því þarf fjölda dæma um hvert hljóðasamband
– til að koma upp traustu greiningarlíkani
Textablöð
• Útbúin voru 1000 mismunandi textablöð
– sem þátttakendur lásu upp í síma
• aðeins 2-3 lásu sama blaðið
• Á blöðunum voru ýmis algeng orð
– sem tengjast líklegu notkunarsviði talgreinisins
• dagsetningar, tölur, manna- og staðanöfn, ...
• Einnig voru þar heilar setningar
– valdar eftir hljóðasamböndum sem þær geymdu
• til að fá framburð allra hljóðasambanda málsins
Hljóð og hljóðasambönd
• Hljóð verða fyrir áhrifum frá umhverfinu
– því þarf að greina öll hugsanleg hljóðasambönd
• Líkan ScanSoft byggist á tví- og þrístæðum
– því þurfti að tryggja að þær kæmu allar með
• Dæmi: valur
– tvístæður:
– þrístæður:
#v – va – al – lu – ur – r#
#va – val – alu – lur – ur#
Skörun einstakra hljóða
• Mismunur
/a/ eftir
umhverfi
–
–
–
–
valur
gat
safi
maður
Dreifing mæligilda fyrir F1 og F2
í stuttum einhljóðum í íslensku –
sjá Íslenskt mál 4, 1982
Val setninga
• Hljóðmynstur fengust úr Íslenskri rímorðabók
– alls 182 mynstur
– tæpar 800 tví- og þrístæður
• Setningar valdar úr textasafni eftir tvístæðum
– tryggt að nægilegur fjöldi allra kæmi með
• a.m.k. 500 dæmi um þær helstu, 50 um sjaldgæfar
• Valdar voru 5-12 orða setningar
– samtals 1433 notaðar af tæplega 90 þúsund
Dæmi um mynstur
• V eitthvert sérhljóð
• V* öll sérhljóð
• J* eitthvert af j/i/í/e/æ
• J- annað en j/i/í/e/æ
• C+ einfaldur eða
•$
tvöfaldur samhljóði
hvaða strengur sem
er – má aðeins hafa
eitt sérhljóð
•
•
•
•
•
•
•
•
•
•
•
•
•
•
V
#
V*
V*
V*
#
#
$
V
V
#
V
V
#
k
k
k
k
k
k
k
k
k
k
k
k+
k+
k
JJ*
J*
k
k
l
n
r
r
s
V*
l
n
V*
JJ*
Hljóðritun og þjálfun
• Upptökurnar voru síðan skráðar
– með venjulegri stafsetningu
– aðeins hljóðritað ef framburður var „óvenjulegur“
• fimmta<fImta>
– og upptökur og skráning sent til ScanSoft
• Einnig var hljóðritað með SAMPA
– safn með 50.000 algengustu orðmyndum málsins
– völdum úr Morgunblaðinu, skáldsögum og Ístal
Dæmi úr orðaskrá
félag
félaga
félagana
félaganna
félagar
félagarnir
félagasamtaka
félagasamtök
félagasamtökum
félagi
félagið
félaginn
félagins
félaginu
félags
félagsfræði
félagsfræðingur
félagsfund
félagsfundi
félagsgjöld
félagsheimili
félagsheimilið
félagsheimilinu
félagsins
félagsleg
félagslega
félagslegan
félagslegar
félagslegra
félagslegrar
félagslegri
félagslegs
félagslegt
félagslegu
félagslegum
félagslið
félagsliða
félagsliðum
félagslíf
félagslífi
félagslífið
félagslynd
félagslyndur
félagsmaður
félagsmanna
félagsmál
félagsmála
félagsmálaráðherra
félagsmálaráðuneytið
félagsmálaráðuneytinu
félagsmálaráðuneytisins
félagsmálastjóri
félagsmálastofnun
félagsmálum
félagsmenn
félagsmiðstöð
félagsmiðstöðinni
félagsmiðstöðva
félagsmiðstöðvar
félagsmönnum
félagsráðgjafa
félagsráðgjafar
félagsráðgjafi
félagsráðgjafinn
Íslenskt framburðarorðasafn
• Slík framburðarsöfn eru mjög mikilvæg
– í talkennslum (automatic speech recognition, ASR)
– og talgervingu (text-to-speech, TTS)
• Einn framburður var valinn sem aðalafbrigði
– en helstu mállýskur einnig sýndar
• banki
• banki<sEDlabauJcI>
• banki<sEDlabaJ0J_I>
sEDlabauJ0J_I
sEDlabauJcI
sEDlabaJ0J_I
Þjálfun talgreinis
• ScanSoft sá um þjálfun sjálfs talgreinisins
– greiningarbúnaður ber saman upptökur og
skráningu
– býr til líkan um samsvörun hljóðbylgna og hljóða
• Síðan þarf að raða hljóðunum saman í orð
– til að vita hvað sagt var
• Við þetta er beitt þekktum aðferðum
– m.a. HMM (Hidden Markov model)
„Noisy channel“ líkanið
• Reynt er að reikna út áhrif „hávaða“ á orðið
– hávaðinn er þá hvers konar „truflun“ á leiðinni
•
•
•
•
einstaklingsbundinn framburðarmunur
breytileiki í framburði (mállýskur, óskýrmæli ...)
áhrif orða í umhverfinu
ytri áhrif (suð í síma, umhverfishljóð ...)
Að finna rétta orðið
• Reikna þarf út líkindi þess að
– tiltekið orð komi fram sem tiltekinn hljóðastrengur
– tiltekið hljóð komi fram sem tilteknir
eðlisfræðilegir þættir
• Leitað er að orðum í framburðarorðasafni
– sem gætu samsvarað hljóðastrengnum
– og stuðst við mállíkan og afkótara (decoder)
Hljóðinntak búið til greiningar
• Breyta þarf hljóðinntaki fyrir greiningu
– flaumrænu (analog) formi í stafrænt (digital)
• Taka þarf sýni
– a.m.k. tvö úr hverri sveiflu
• 20.000 Hz fyrir venjulegt tal
• 8.000 Hz fyrir tal í síma
• Mæligildum er síðan breytt í hljóðrófsþætti
– sem nýta má í greininunni
Ferli við talkennsl
• Hljóðbylgjunni er skipt upp í ramma
– 10, 15 eða 20 millisekúndur hver
– og hljóðróf (spectral features) þeirra greint
• Hljóð eru greind með tölfræðilegum aðferðum
– tauganetum, Gaussian líkönum
• Leitað er að orðum í framburðarorðasafni
– sem gætu samsvarað hljóðastrengnum
– og stuðst við mállíkan og afkótara (decoder)
Einfaldað líkan af talgreini
Villur í greiningu
• Oft finnst strengurinn í orðasafninu
– þá er gert ráð fyrir því að rétt greining sé fundin
• Stundum finnst strengurinn þó ekki
– en annar mjög svipaður þess í stað
– þá er líklegt að villa hafi verið gerð í greiningu
• Koma þarf upp reglum um líklegar villur
– t.d. ekki ólíklegt að önghljóðum sé ruglað saman
• soða fyrir sofa væri „eðlileg“ villa
Setningafræði í talgreiningu
• Ekki er öruggt að greining sé rétt
– þótt strengurinn finnist í orðasafninu
• liður gæti verið villa fyrir lifur, þótt liður sé til
• Hér kæmu setningarlegar upplýsingar að gagni
– umhverfið myndi oft skera úr vafaatriðum
• Þær þarf að vinna úr fullgreindri málheild
– sem ekki er til fyrir íslensku
– en nauðsynlegt er að koma upp
Samræðusamhengi
• Setningarlegt samhengi er ekki tiltækt
– því verður að skapa annað samhengi í staðinn
• Talgreinirinn styðst við samræðusamhengi
–
–
–
–
handrit að samræðum er skrifað
notandanum lögð orð í munn til að velja á milli
kerfið látið hlusta eftir þeim orðum
og öðrum skyldum sem gætu komið í staðinn
• samheitum, öðrum beygingarmyndum
Mikilvægi handrits að samræðum
• Notkun stakorðagreinis er þjónustumiðuð
– því er hægt að skilgreina orð til að hlusta eftir
– og auðvelda þannig greininguna til muna
• Því skiptir miklu máli að handritið sé gott
– notandinn leiddur þægilega áfram
– hugsað fyrir öllum eðlilegum viðbrögðum hans
– beðið um staðfestingu á að rétt sé greint
Samræðustjórar
• Talþjónn (conversational agent)
– kerfi sem svarar spurningum á afmörkuðu sviði
• um flugferðir, veitingahús o.s.frv.
• Samræðustjóri (dialogue manager)
– sá hluti kerfisins sem stjórnar framvindu samræðu
• hvaða spurninga á að spyrja
• hvaða kosti á að bjóða
• Slík kerfi nefnast „single/system initiative“
Stöðuvél fyrir samræðustjóra
• Einföld stöðuvél fyrir samræðustjóra
Fyrirspurn brotin niður
• Í slíku kerfi verður að brjóta fyrirspurn niður
– spyrja aðeins um eitt atriði í einu
•
•
•
•
Hvert viltu fljúga?
Aðra leið eða báðar?
Hvaða dag?
Klukkan hvað?
• Þetta getur orðið seinlegt og leiðigjarnt
– notendur vilja fremur bera fram margþættar óskir
• Ég þarf miða til Akureyrar, aðra leið, kl. 3 á mánudag
Sniðmátakerfi
• Mörg nýrri samræðukerfi eru flóknari
–
–
–
–
nota ramma (frames) eða sniðmát (templates)
þar sem upplýsingar notanda fylla inn í eyður
þar til kerfið getur sent fyrirspurn í gagnagrunn
og svarað notanda í einni segð
• Talþjónar verða að staðfesta þekkingargrunn
– láta vita að þeir hafi skilið notanda rétt
– óska eftir endurtekningu ef þeir skilja ekki
Hönnun samræðukerfa
• Meginmáli skiptir að skrifa gott handrit
– sem leiðir notandann þægilega áfram
– stýrir honum og takmarkar viðbrögð hans
– án þess að það trufli hann
• Þrjú meginatriði í hönnun samræðukerfa
– skoða þarf verkefnið og væntanlega notendur vel
– gera þarf frummyndir (prototypes)
– prófa þarf kerfið og lagfæra eftir þörfum
Íslenski talgreinirinn
• Gerð íslenska talgreinisins lauk haustið 2003
– hann hefur verið prófaður mikið og virkar vel
– virðist greina rétt í yfir 97% tilvika
• Hann mun nýtast mjög vel með talgervli
– sem nú er unnið að
– og verður tilbúinn snemma árs 2006
XML-markaður texti
<?xml version="1.0" encoding="ISO-8859-1"?>
<vxml version="2.0">
<form>
<block>
<prompt>
Nú er úti veður vott.
Verður allt að klessu.
Ekki fær hann Grímur gott.
Að gifta sig í þessu.
</prompt>
</block>
</form>
</vxml>
VoiceXML
<?xml version="1.0" encoding="ISO-8859-1"?>
<vxml version="2.0">
<form id="ferskeytla">
<block>
<prompt>
<prosody rate="100">
<prosody pitch="low">
Nú er úti veður vott.
Verður allt að klessu.
Ekki fær hann Grímur gott.
Að gifta sig í <prosody rate="50">þessu</prosody>.
</prosody>
</prosody>
</prompt>
</block>
</form>
</vxml>
Tölvur og tungumál - 22
© Eiríkur Rögnvaldsson,
nóvember 2008
Úr skýrslu starfshóps um tungutækni
• Til verði góður íslenskur talgervill sem geti
lesið upp íslenskan texta með skýrum og
auðskiljanlegum framburði og eðlilegu
tónfalli og sem sé skiljanlegur án þjálfunar.
– Undanfarin ár hefur verið á markaðnum
íslenskaður talgervill frá sænska fyrirtækinu
Infovox. Þessi talgervill er byggður á tækni sem
nú þykir úrelt. Ljóst er að framburði hans er um
margt ábótavant, en þó hefur hann gagnast
sumum mjög vel.
Fyrsti talgervillinn
• Talgervill Wolfgangs von Kempelen,
– 17691869
• Eftirlíking
af
talfærum
mannsins
Formendatalgervlar
• Gunnar Fant bjó til talgervil 1953
– Orator Verbis Electris (OVE-1)
• Þessi talgervill byggðist á formendum
– en ekki á því að líkja eftir talfærum
• Tölvan er látin mynda sveiflur
– á ákveðnum tíðnisviðum
– í samræmi við formendur hljóðs sem á að mynda
Formendatíðni
• Íslensk sérhljóð
– formendatíðni
• Hljóð úr talgervli
–
–
–
–
[iː]
[ɛː]
[œː]
[ɔː]
• Prófið sjálf!
[ɪː]
[aː]
[ʏː]
[uː]
Fyrsti íslenski talgervillinn
• Formendatalgervill, búinn til um 1990
– í samstarfi HÍ, Öryrkjabandalagsins og KTH
• Var lagaður eftir sænskum talgervli
– og hafði því stundum vott af sænskum hreim
• Var eintóna og hafði ýmsa galla
– en nýttist þó blindum og sjónskertum mjög vel
• Hæfði ekki fyrir almennan markað
Hljóð og hljóðasambönd
• Hljóð hvers tungumáls eru ekki ýkja mörg
– en hljóðin hafa áhrif hvert á annað
– góður talgervill þarf að taka tillit til þess
• Samfall ritmynda veldur erfiðleikum
– s.s. villa, halli
• Slík dæmi eru mjög fá í íslensku
– ef eingöngu er litið til ósamsettra orða
– en helst þyrfti að morfemgreina textann
Tölur og skammstafanir
• Ýmis orð lúta ekki almennum reglum
– t.d. sófi, sagógrjón
– slík orð þurfa að vera í undantekningasafni
• Tölustafir eru erfiðir
– tölur beygjast en sést ekki á formi tölustafanna
• Skammstafanir valda líka vandræðum
– fyrir hvað stendur KR og frv.?
Tónfall í talgervli
• Leysa þarf mörg vandamál varðandi tónfall
–
–
–
–
hvernig breytist tónhæð?
hvar hikum við?
hversu lengi hikum við?
hvernig spyrjum við spurninga?
• Rétt tónfall skiptir mjög miklu máli
– án skilnings verður tónfall rangt
– og rangt tónfall torveldar skilning
Talgervillinn Snorri
• Talgervillinn var endurbættur kringum 2000
– og þá með annarri tækni
• Nú er hann byggður á upptökum
– notaðir eru dífónar
• seinni hluti hljóðs og fyrri hluti þess næsta
• 58 hljóð, 582 = 3364 dífónar – 2106 koma fyrir
• Þessi gerð nefnist Snorri
– tekur þeirri eldri fram en samt enn ófullkomin
Samanburður talgervla
• Formendatalgervlar hafa lítil takmörk
– fræðilega er hægt að líkja eftir hvaða rödd sem er
– óháð kyni, aldri, tungumáli, mállýsku....
– en við höfum ekki þekkingu til að nýta möguleikana
• Talgervlar byggðir á upptökum eru takmarkaðri
– talgervillinn hefur aðeins eina rödd
– sé ákveðið hljóðasamband ekki til erum við ráðalaus
– en það er mun minna mál að búa þá til
Mögulegar endurbætur
• Helstu hnökrar á talgervlum eru á samskeytum
– þar sem upptökubútar eru tengdir saman
• Því er að bæta slíka talgervla
–
–
–
–
með því að taka upp meira og fjölbreyttara efni
þannig að fleiri orð og setningar komi fyrir
sem hægt er að nýta í heilu lagi
þannig að samskeytum fækki
• Þetta er hægt með öflugri tölvum
MBROLA-talgervill
• Björn Kristinsson bjó til einfaldan talgervil
– í tungutækninámi sínu 2004
• Þetta er MBROLA dífónatalgervill
– sem er ókeypis á netinu
• Hægt er að sækja hann hér
– og hlusta á hljóðdæmi hér
• Talgervillinn hefur þó ekkert verið þróaður
Talgervillinn Ragga
• Nýr talgervill, Ragga, hefur nú verið gerður
– í samstarfi Háskólans, Símans og Hex hugbúnaðar
• Byggist á upptökum af 10.000 setningum
– stærri einingar en dífónar nýttar
– hljóðritunarsafn notað til þjálfunar
• til verður líkindatré sem segir frá líkindum þess að hljóð
A standi fyrir tákn B í samhengi undanfarandi og
eftirfarandi X tákna
• Hljómar mun eðlilegar en Snorri
Hljóðdæmi frá talgervlum
•
•
•
•
Íslendingar eru í hópi þeirra þjóða sem hvað
best nýta sér upplýsingatæknina og með
hverju árinu sem líður leikur tæknin stærra
hlutverk í daglegu lífi okkar.
Opnast hefur aðgangur að gífurlegu magni
upplýsinga og þjónustu, bæði frá opinberum
aðilum og fyrirtækjum.
Um leið eru samskipti manna í millum fjölbreyttari og auðveldari en nokkru sinni fyrr.
Upplýsinga- og fjarskiptatækni hafa fært
okkur þessi nýju tækifæri og auknu
lífsgæði.
Snorri Ragga
Snorri Ragga
Snorri Ragga
Snorri Ragga
Notkun
• Ragga hefur nú verið tekin í notkun
– m.a. í fréttum á mbl.is
• Hægt er að láta hana lesa eigin texta
– sem vefþuluna
• Á næstunni má búast við þjónustuverum
– þar sem íslenskur talgervill og talgreinir spila
saman