Transcript Slide 1
CLARIN - NL
Taal en Spraaktechnologie in een
Infrastructuur voor Geesteswetenschappers
Jan Odijk
Utrecht, 11 juni 2010
1
Overzicht
•
•
•
•
•
•
Taal- en Spraaktechnologie
Geesteswetenschappers?
CLARIN-NL
Maximaal Open Data
Standaarden
Onderwijs
2
Taal- & Spraaktechnologie
• bieden grote mogelijkheden om grote
hoeveelheden talige data waar
geesteswetenschappers mee werken te
ontsluiten
– Spraak
– Tekst
3
Taal- & Spraaktechnologie
• Ontsluiting audio en videobestanden mbv spraaktechnologie
– Herkenning, Oplijning, indexering doorzoekbaarheid
• Journaaldemos
– http://hmi.ewi.utwente.nl/showcases/Broadcast-news-demo
– http://hmi.ewi.utwente.nl/?page=8uurjournaal_en_krant
• Radio Oranje (NIOD)
– http://niod.al-m.nl/nl/thema/10/
• Buchenwald
– http://www.buchenwald.nl/
• En vele andere …..
4
Taal- & Spraaktechnologie
• Automatisch ontleden van grote tekstbestanden +
zoekfunctionaliteit
– Voor taaltechnologen om de taaltechnologie te verbeteren
– Voor geesteswetenschappers: empirische basis voor
onderzoek
• Reeds gebruikt
– Bij de ontwikkeling van Alpino (automatische ontleder voor
het Nederlands)
– Voor het automatisch opsporen van idiomatische
uitdrukkingen (IRME project DUELME databank)
– Voor verbeterde vraag-antwoordsystemen (IMIX)
– Voor taalkundig onderzoek (Van Eynde 2009)
5
Taal- & Spraaktechnologie
• Tokenisatie en opschoning van grote
tekstbestanden
– Opsplitsen tekstbestand in een sequentie van
woordvoorkomens
– Spellingscorrectie en -normalisatie
– OCR-correctie
• TiCC (Tilburg), voor D-COI en SONAR
tekstcorpora (500M woorden modern
Nederlands) en i.s.m. de KB
6
Taal- & Spraaktechnologie
• Verrijking van tekstcorpora met annotaties
– Woordsoorttoekenning
– Lemmatisering
– Oppervlakkige ontleding (“chunking”)
– Semantische annotatie (argumentrollen, locatie en
tijdsbepalingen)
– “named entity” recognition
– Coreferentie annotatie
7
Taal- & Spraaktechnologie
•
•
•
•
•
•
STEVIN:
D-COI, SONAR Al deze annotaties
COREA annotatie van coreferentierelaties
LASSY syntactische ontleding
DPC parallelle corpora + annotaties
…
8
Taal- & Spraaktechnologie
• De hoeveelheid beschikbare data
– is zeer groot en
– zal alleen maar groeien.
• Uitgebreide en diepgaande analyse is alleen
mogelijk met behulp van digitale taal- en
spraaktechnologische technieken
9
Geesteswetenschappers?
• moet bruikbaar zijn voor
geesteswetenschappelijke onderzoekers
• de taaltechnologische tools en de data
moeten naadloos op elkaar aansluiten
– compatibel met elkaar qua vorm en
betekenis (interoperabel zijn)
• op eenvoudige wijze (zonder dat
uitgebreide technische kennis noodzakelijk is)
10
Geesteswetenschappers?
• Vereist een gezamenlijke inspanning van
– Taal- en spraaktechnologen en
– Geesteswetenschappers
– om tot overeenstemming te komen over de
daarvoor benodigde standaarden voor formele en
semantische interoperabiliteit
– Om behoeftes en technische mogelijkheden op
elkaar af te stemmen
11
CLARIN-NL
• CLARIN-NL doet precies dit!
• Kadert in een Europese inspanning geïnitieerd door
het CLARIN voorbereidingsproject
• Partners:
– Universiteiten, KNAW-instituten, (Sociale) geschiedenis
instituten, Koninklijke Bibliotheek, Data Centra
– Taal- en spraaktechnologen en informatici (enablers),
geesteswetenschappers (gebruikers), data centra en KB
(dataleveranciers/beheerders)
• Nauwe samenwerking met SURF, SARA, …
• 2009-2014
• Budget: 9.01M euro
12
CLARIN-NL
• Specificatie, implementatie, exploitatie van een
gedistribueerde technische infrastructuur voor
geesteswetenschappers (IIP)
– CLARIN-centra (MPI, MI, INL, DANS)
• Gebruikersonderzoek
• Data en tools (webservices) beschikbaar via CLARIN portaal
(initiële versie: Virtual Language Observatory)
• Data en tools vindbaar via metadata (Metadata Project)
• Data en metadata doorzoekbaar met tekstuele en structurele
zoekfunctionaliteit (Search&Develop)
• Data en tools sluiten naadloos op elkaar aan, gebaseerd op
overeengekomen standaarden en best practices
• Webservices beschikbaar in workflows (TTNWW, NL +VL)
13
CLARIN-NL
• INTER-VIEWS project;
– Datacuratie en doorzoekbaar maken van
interviews met veteranen van het
Veteraneninstituut
• AAM-LR
– Tool als annotatiehulp voor (veld)linguïsten
– markering van spraak/niet spraak
– Markeren van verschillende sprekers
14
CLARIN-NL
• TTNWW (spraak)
– Opzet gebruikersvriendelijke workflow services
voor indexering en doorzoekbaarheid van (een
beperkte set) audio en videodata
– Ten behoeve van sociaal historici (Aletta, KDC,
KADOC, M2P)
• TICClops (Tilburg)
– tekstopschoning, spellingscorrectie en –
normalisatie
15
CLARIN-NL
• Adelheid (Nijmegen)
– tekstopschoning, woordsoorttoekenning en lemmatisering
– historische Nederlandse teksten (13e eeuw)
– Tbv historisch taalkundig onderzoek
• Geleerdenbrievenproject (CKCC)
– Verrijking van “geleerdenbrieven” met syntactische en
semantische annotaties
– Volgens CLARIN standaarden
– tbv onderzoek naar de circulatie van kennis in brieven van
geleerden in NL in de 17e eeuw
16
CLARIN-NL
• LASSY demo:
– Eenvoudige (‘Google-style’) zoekinterface op
automatisch ontlede tekstcorpora
• TTNWW (tekst)
– Opzet gebruikersvriendelijke workflow services
voor verrijking van tekstcorpora met annotaties
– Ten behoeve van literatuurwetenschappers
(Huygens) en archeologen (Salagassos)
17
CLARIN-NL
• Standaardisatie en integratie van taalkundige
data en tools (tbv taalkundig onderzoek)
– En Garde/DUELME-LMF (UU)
• DUELME database van multi-word expressies
– WFT-GTB (Fryske Akademy)
• Integratie Wurdboek fan ‘e Fryske Taal met
Geintegreerde Taaldatabank
– ADEPT (UG)
• Adaptatie edit-distance tool tbv dialect en historisch
onderzoek
18
CLARIN-NL
• Standaardisatie en integratie van taalkundige data
en tools (tbv taalkundig onderzoek)
– MIMORE (MI, UU)
• Microcomparative Morphosyntax Research Tool
– TDS-Curator (UU)
• Curation of the Typological Database System
– TQE (RU)
• Transcription Quality Evaluation
– Sign-LinC (RU)
• Verbindt lexicale databanken en geannoteerde corpora van
gebarentalen
19
CLARIN-NL
• En er komen meer projecten
– Nieuwe oproep te verwachten begin Juli 2010
– Samenwerking tussen beoogde gebruikers en
enablers is verplicht in deze projecten
• De CLARIN infrastructuur kan alleen een
succes worden als aan een aantal andere
voorwaarden ook voldaan wordt:
20
Maximaal Open Data
in door de overheid gesubsidieerde
onderzoeksprojecten moeten
onderzoeksdata,
onderzoeksresultaten
ontwikkelde tools
maximaal vrij beschikbaar gesteld worden aan
de onderzoeksgemeenschap
in een omgeving die hergebruik door andere
onderzoekers eenvoudig toelaat.
21
Standaarden
• Bestaande data en tools moeten aangepast worden
aan de voorgestelde standaarden
– En waar nodig ook andersom!
• het maken van nieuwe onderzoeksdata en tools
volgens deze standaarden moet systematisch als
verplicht onderdeel in onderzoeksprojecten
ingebouwd worden
• gestimuleerd worden door universiteiten en
afgedwongen worden door subsidiërende instanties,
• activiteiten hiervoor dienen gesubsidieerd te worden!
22
Onderwijs
Studenten en jonge onderzoekers moeten
vertrouwd gemaakt worden met deze nieuwe
manier van werken
door gerichte cursussen
ISOCAT tutorial
Metadata tutorial
En er komt meer!
door deze aanpak in het normale curriculum op te
nemen!!
23
CLARIN-NL
Dank voor uw aandacht
Meer informatie:
http://www.clarin.nl
24