Transcript Slide 1

CLARIN - NL
Taal en Spraaktechnologie in een
Infrastructuur voor Geesteswetenschappers
Jan Odijk
Utrecht, 11 juni 2010
1
Overzicht
•
•
•
•
•
•
Taal- en Spraaktechnologie
Geesteswetenschappers?
CLARIN-NL
Maximaal Open Data
Standaarden
Onderwijs
2
Taal- & Spraaktechnologie
• bieden grote mogelijkheden om grote
hoeveelheden talige data waar
geesteswetenschappers mee werken te
ontsluiten
– Spraak
– Tekst
3
Taal- & Spraaktechnologie
• Ontsluiting audio en videobestanden mbv spraaktechnologie
– Herkenning, Oplijning, indexering  doorzoekbaarheid
• Journaaldemos
– http://hmi.ewi.utwente.nl/showcases/Broadcast-news-demo
– http://hmi.ewi.utwente.nl/?page=8uurjournaal_en_krant
• Radio Oranje (NIOD)
– http://niod.al-m.nl/nl/thema/10/
• Buchenwald
– http://www.buchenwald.nl/
• En vele andere …..
4
Taal- & Spraaktechnologie
• Automatisch ontleden van grote tekstbestanden +
zoekfunctionaliteit
– Voor taaltechnologen om de taaltechnologie te verbeteren
– Voor geesteswetenschappers: empirische basis voor
onderzoek
• Reeds gebruikt
– Bij de ontwikkeling van Alpino (automatische ontleder voor
het Nederlands)
– Voor het automatisch opsporen van idiomatische
uitdrukkingen (IRME project DUELME databank)
– Voor verbeterde vraag-antwoordsystemen (IMIX)
– Voor taalkundig onderzoek (Van Eynde 2009)
5
Taal- & Spraaktechnologie
• Tokenisatie en opschoning van grote
tekstbestanden
– Opsplitsen tekstbestand in een sequentie van
woordvoorkomens
– Spellingscorrectie en -normalisatie
– OCR-correctie
• TiCC (Tilburg), voor D-COI en SONAR
tekstcorpora (500M woorden modern
Nederlands) en i.s.m. de KB
6
Taal- & Spraaktechnologie
• Verrijking van tekstcorpora met annotaties
– Woordsoorttoekenning
– Lemmatisering
– Oppervlakkige ontleding (“chunking”)
– Semantische annotatie (argumentrollen, locatie en
tijdsbepalingen)
– “named entity” recognition
– Coreferentie annotatie
7
Taal- & Spraaktechnologie
•
•
•
•
•
•
STEVIN:
D-COI, SONAR Al deze annotaties
COREA annotatie van coreferentierelaties
LASSY syntactische ontleding
DPC parallelle corpora + annotaties
…
8
Taal- & Spraaktechnologie
• De hoeveelheid beschikbare data
– is zeer groot en
– zal alleen maar groeien.
• Uitgebreide en diepgaande analyse is alleen
mogelijk met behulp van digitale taal- en
spraaktechnologische technieken
9
Geesteswetenschappers?
• moet bruikbaar zijn voor
geesteswetenschappelijke onderzoekers
• de taaltechnologische tools en de data
moeten naadloos op elkaar aansluiten
– compatibel met elkaar qua vorm en
betekenis (interoperabel zijn)
• op eenvoudige wijze (zonder dat
uitgebreide technische kennis noodzakelijk is)
10
Geesteswetenschappers?
• Vereist een gezamenlijke inspanning van
– Taal- en spraaktechnologen en
– Geesteswetenschappers
– om tot overeenstemming te komen over de
daarvoor benodigde standaarden voor formele en
semantische interoperabiliteit
– Om behoeftes en technische mogelijkheden op
elkaar af te stemmen
11
CLARIN-NL
• CLARIN-NL doet precies dit!
• Kadert in een Europese inspanning geïnitieerd door
het CLARIN voorbereidingsproject
• Partners:
– Universiteiten, KNAW-instituten, (Sociale) geschiedenis
instituten, Koninklijke Bibliotheek, Data Centra
– Taal- en spraaktechnologen en informatici (enablers),
geesteswetenschappers (gebruikers), data centra en KB
(dataleveranciers/beheerders)
• Nauwe samenwerking met SURF, SARA, …
• 2009-2014
• Budget: 9.01M euro
12
CLARIN-NL
• Specificatie, implementatie, exploitatie van een
gedistribueerde technische infrastructuur voor
geesteswetenschappers (IIP)
– CLARIN-centra (MPI, MI, INL, DANS)
• Gebruikersonderzoek
• Data en tools (webservices) beschikbaar via CLARIN portaal
(initiële versie: Virtual Language Observatory)
• Data en tools vindbaar via metadata (Metadata Project)
• Data en metadata doorzoekbaar met tekstuele en structurele
zoekfunctionaliteit (Search&Develop)
• Data en tools sluiten naadloos op elkaar aan, gebaseerd op
overeengekomen standaarden en best practices
• Webservices beschikbaar in workflows (TTNWW, NL +VL)
13
CLARIN-NL
• INTER-VIEWS project;
– Datacuratie en doorzoekbaar maken van
interviews met veteranen van het
Veteraneninstituut
• AAM-LR
– Tool als annotatiehulp voor (veld)linguïsten
– markering van spraak/niet spraak
– Markeren van verschillende sprekers
14
CLARIN-NL
• TTNWW (spraak)
– Opzet gebruikersvriendelijke workflow services
voor indexering en doorzoekbaarheid van (een
beperkte set) audio en videodata
– Ten behoeve van sociaal historici (Aletta, KDC,
KADOC, M2P)
• TICClops (Tilburg)
– tekstopschoning, spellingscorrectie en –
normalisatie
15
CLARIN-NL
• Adelheid (Nijmegen)
– tekstopschoning, woordsoorttoekenning en lemmatisering
– historische Nederlandse teksten (13e eeuw)
– Tbv historisch taalkundig onderzoek
• Geleerdenbrievenproject (CKCC)
– Verrijking van “geleerdenbrieven” met syntactische en
semantische annotaties
– Volgens CLARIN standaarden
– tbv onderzoek naar de circulatie van kennis in brieven van
geleerden in NL in de 17e eeuw
16
CLARIN-NL
• LASSY demo:
– Eenvoudige (‘Google-style’) zoekinterface op
automatisch ontlede tekstcorpora
• TTNWW (tekst)
– Opzet gebruikersvriendelijke workflow services
voor verrijking van tekstcorpora met annotaties
– Ten behoeve van literatuurwetenschappers
(Huygens) en archeologen (Salagassos)
17
CLARIN-NL
• Standaardisatie en integratie van taalkundige
data en tools (tbv taalkundig onderzoek)
– En Garde/DUELME-LMF (UU)
• DUELME database van multi-word expressies
– WFT-GTB (Fryske Akademy)
• Integratie Wurdboek fan ‘e Fryske Taal met
Geintegreerde Taaldatabank
– ADEPT (UG)
• Adaptatie edit-distance tool tbv dialect en historisch
onderzoek
18
CLARIN-NL
• Standaardisatie en integratie van taalkundige data
en tools (tbv taalkundig onderzoek)
– MIMORE (MI, UU)
• Microcomparative Morphosyntax Research Tool
– TDS-Curator (UU)
• Curation of the Typological Database System
– TQE (RU)
• Transcription Quality Evaluation
– Sign-LinC (RU)
• Verbindt lexicale databanken en geannoteerde corpora van
gebarentalen
19
CLARIN-NL
• En er komen meer projecten
– Nieuwe oproep te verwachten begin Juli 2010
– Samenwerking tussen beoogde gebruikers en
enablers is verplicht in deze projecten
• De CLARIN infrastructuur kan alleen een
succes worden als aan een aantal andere
voorwaarden ook voldaan wordt:
20
Maximaal Open Data
 in door de overheid gesubsidieerde
onderzoeksprojecten moeten
 onderzoeksdata,
 onderzoeksresultaten
 ontwikkelde tools
 maximaal vrij beschikbaar gesteld worden aan
de onderzoeksgemeenschap
 in een omgeving die hergebruik door andere
onderzoekers eenvoudig toelaat.
21
Standaarden
• Bestaande data en tools moeten aangepast worden
aan de voorgestelde standaarden
– En waar nodig ook andersom!
• het maken van nieuwe onderzoeksdata en tools
volgens deze standaarden moet systematisch als
verplicht onderdeel in onderzoeksprojecten
ingebouwd worden
• gestimuleerd worden door universiteiten en
afgedwongen worden door subsidiërende instanties,
• activiteiten hiervoor dienen gesubsidieerd te worden!
22
Onderwijs
 Studenten en jonge onderzoekers moeten
vertrouwd gemaakt worden met deze nieuwe
manier van werken
 door gerichte cursussen
 ISOCAT tutorial
 Metadata tutorial
 En er komt meer!
 door deze aanpak in het normale curriculum op te
nemen!!
23
CLARIN-NL
Dank voor uw aandacht
Meer informatie:
http://www.clarin.nl
24