Transcript Slide 1
CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010 1 Overzicht • • • • • • Taal- en Spraaktechnologie Geesteswetenschappers? CLARIN-NL Maximaal Open Data Standaarden Onderwijs 2 Taal- & Spraaktechnologie • bieden grote mogelijkheden om grote hoeveelheden talige data waar geesteswetenschappers mee werken te ontsluiten – Spraak – Tekst 3 Taal- & Spraaktechnologie • Ontsluiting audio en videobestanden mbv spraaktechnologie – Herkenning, Oplijning, indexering doorzoekbaarheid • Journaaldemos – http://hmi.ewi.utwente.nl/showcases/Broadcast-news-demo – http://hmi.ewi.utwente.nl/?page=8uurjournaal_en_krant • Radio Oranje (NIOD) – http://niod.al-m.nl/nl/thema/10/ • Buchenwald – http://www.buchenwald.nl/ • En vele andere ….. 4 Taal- & Spraaktechnologie • Automatisch ontleden van grote tekstbestanden + zoekfunctionaliteit – Voor taaltechnologen om de taaltechnologie te verbeteren – Voor geesteswetenschappers: empirische basis voor onderzoek • Reeds gebruikt – Bij de ontwikkeling van Alpino (automatische ontleder voor het Nederlands) – Voor het automatisch opsporen van idiomatische uitdrukkingen (IRME project DUELME databank) – Voor verbeterde vraag-antwoordsystemen (IMIX) – Voor taalkundig onderzoek (Van Eynde 2009) 5 Taal- & Spraaktechnologie • Tokenisatie en opschoning van grote tekstbestanden – Opsplitsen tekstbestand in een sequentie van woordvoorkomens – Spellingscorrectie en -normalisatie – OCR-correctie • TiCC (Tilburg), voor D-COI en SONAR tekstcorpora (500M woorden modern Nederlands) en i.s.m. de KB 6 Taal- & Spraaktechnologie • Verrijking van tekstcorpora met annotaties – Woordsoorttoekenning – Lemmatisering – Oppervlakkige ontleding (“chunking”) – Semantische annotatie (argumentrollen, locatie en tijdsbepalingen) – “named entity” recognition – Coreferentie annotatie 7 Taal- & Spraaktechnologie • • • • • • STEVIN: D-COI, SONAR Al deze annotaties COREA annotatie van coreferentierelaties LASSY syntactische ontleding DPC parallelle corpora + annotaties … 8 Taal- & Spraaktechnologie • De hoeveelheid beschikbare data – is zeer groot en – zal alleen maar groeien. • Uitgebreide en diepgaande analyse is alleen mogelijk met behulp van digitale taal- en spraaktechnologische technieken 9 Geesteswetenschappers? • moet bruikbaar zijn voor geesteswetenschappelijke onderzoekers • de taaltechnologische tools en de data moeten naadloos op elkaar aansluiten – compatibel met elkaar qua vorm en betekenis (interoperabel zijn) • op eenvoudige wijze (zonder dat uitgebreide technische kennis noodzakelijk is) 10 Geesteswetenschappers? • Vereist een gezamenlijke inspanning van – Taal- en spraaktechnologen en – Geesteswetenschappers – om tot overeenstemming te komen over de daarvoor benodigde standaarden voor formele en semantische interoperabiliteit – Om behoeftes en technische mogelijkheden op elkaar af te stemmen 11 CLARIN-NL • CLARIN-NL doet precies dit! • Kadert in een Europese inspanning geïnitieerd door het CLARIN voorbereidingsproject • Partners: – Universiteiten, KNAW-instituten, (Sociale) geschiedenis instituten, Koninklijke Bibliotheek, Data Centra – Taal- en spraaktechnologen en informatici (enablers), geesteswetenschappers (gebruikers), data centra en KB (dataleveranciers/beheerders) • Nauwe samenwerking met SURF, SARA, … • 2009-2014 • Budget: 9.01M euro 12 CLARIN-NL • Specificatie, implementatie, exploitatie van een gedistribueerde technische infrastructuur voor geesteswetenschappers (IIP) – CLARIN-centra (MPI, MI, INL, DANS) • Gebruikersonderzoek • Data en tools (webservices) beschikbaar via CLARIN portaal (initiële versie: Virtual Language Observatory) • Data en tools vindbaar via metadata (Metadata Project) • Data en metadata doorzoekbaar met tekstuele en structurele zoekfunctionaliteit (Search&Develop) • Data en tools sluiten naadloos op elkaar aan, gebaseerd op overeengekomen standaarden en best practices • Webservices beschikbaar in workflows (TTNWW, NL +VL) 13 CLARIN-NL • INTER-VIEWS project; – Datacuratie en doorzoekbaar maken van interviews met veteranen van het Veteraneninstituut • AAM-LR – Tool als annotatiehulp voor (veld)linguïsten – markering van spraak/niet spraak – Markeren van verschillende sprekers 14 CLARIN-NL • TTNWW (spraak) – Opzet gebruikersvriendelijke workflow services voor indexering en doorzoekbaarheid van (een beperkte set) audio en videodata – Ten behoeve van sociaal historici (Aletta, KDC, KADOC, M2P) • TICClops (Tilburg) – tekstopschoning, spellingscorrectie en – normalisatie 15 CLARIN-NL • Adelheid (Nijmegen) – tekstopschoning, woordsoorttoekenning en lemmatisering – historische Nederlandse teksten (13e eeuw) – Tbv historisch taalkundig onderzoek • Geleerdenbrievenproject (CKCC) – Verrijking van “geleerdenbrieven” met syntactische en semantische annotaties – Volgens CLARIN standaarden – tbv onderzoek naar de circulatie van kennis in brieven van geleerden in NL in de 17e eeuw 16 CLARIN-NL • LASSY demo: – Eenvoudige (‘Google-style’) zoekinterface op automatisch ontlede tekstcorpora • TTNWW (tekst) – Opzet gebruikersvriendelijke workflow services voor verrijking van tekstcorpora met annotaties – Ten behoeve van literatuurwetenschappers (Huygens) en archeologen (Salagassos) 17 CLARIN-NL • Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) – En Garde/DUELME-LMF (UU) • DUELME database van multi-word expressies – WFT-GTB (Fryske Akademy) • Integratie Wurdboek fan ‘e Fryske Taal met Geintegreerde Taaldatabank – ADEPT (UG) • Adaptatie edit-distance tool tbv dialect en historisch onderzoek 18 CLARIN-NL • Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) – MIMORE (MI, UU) • Microcomparative Morphosyntax Research Tool – TDS-Curator (UU) • Curation of the Typological Database System – TQE (RU) • Transcription Quality Evaluation – Sign-LinC (RU) • Verbindt lexicale databanken en geannoteerde corpora van gebarentalen 19 CLARIN-NL • En er komen meer projecten – Nieuwe oproep te verwachten begin Juli 2010 – Samenwerking tussen beoogde gebruikers en enablers is verplicht in deze projecten • De CLARIN infrastructuur kan alleen een succes worden als aan een aantal andere voorwaarden ook voldaan wordt: 20 Maximaal Open Data in door de overheid gesubsidieerde onderzoeksprojecten moeten onderzoeksdata, onderzoeksresultaten ontwikkelde tools maximaal vrij beschikbaar gesteld worden aan de onderzoeksgemeenschap in een omgeving die hergebruik door andere onderzoekers eenvoudig toelaat. 21 Standaarden • Bestaande data en tools moeten aangepast worden aan de voorgestelde standaarden – En waar nodig ook andersom! • het maken van nieuwe onderzoeksdata en tools volgens deze standaarden moet systematisch als verplicht onderdeel in onderzoeksprojecten ingebouwd worden • gestimuleerd worden door universiteiten en afgedwongen worden door subsidiërende instanties, • activiteiten hiervoor dienen gesubsidieerd te worden! 22 Onderwijs Studenten en jonge onderzoekers moeten vertrouwd gemaakt worden met deze nieuwe manier van werken door gerichte cursussen ISOCAT tutorial Metadata tutorial En er komt meer! door deze aanpak in het normale curriculum op te nemen!! 23 CLARIN-NL Dank voor uw aandacht Meer informatie: http://www.clarin.nl 24