Remco van Veenendaal

Download Report

Transcript Remco van Veenendaal

Hergebruik van taal- en
spraakdata in e-health
Remco van Veenendaal
projectleider TST-Centrale
Ehealth4com
Nijmegen
3 oktober 2013
Onderzoek
• Wie van u…
• Maakt of verzamelt taal- en spraakdata?
– (Bijv. teksten, spraakopnames,
videomateriaal)
• Deelt taal- en spraakdata met anderen of
hergebruikt taal- en spraakdata van
anderen?
Waarom hergebruik?
Daan Roosegaarde:
“Delen is het nieuwe hebben.”
Neelie Kroes:
“Data zijn het
nieuwe goud.”
Ehealth4com en hergebruik
• Symposiumwebsite:
– “Ontwikkelingen in de taal- en spraaktechnologie dragen bij
aan toepassingen voor de behandeling en ondersteuning van
mensen met een communicatieve beperking. (…) Speciale
aandacht gaat uit naar het verzamelen van taal- en spraakdata
om geavanceerde e-healthtoepassingen te ontwikkelen, gericht
op diagnostiek en behandeling van communicatieve beperkingen.”
• Anders, concreter:
– U kunt door de behandeling en ondersteuning van mensen met een
communicatieve beperking bijdragen aan ontwikkelingen in de taal- en
spraaktechnologie, bijvoorbeeld door speciale aandacht te schenken aan
het verzamelen van taal- en spraakdata.
• En:
– De TST-Centrale kan u daarbij helpen. Samen zorgen we er zo voor dat er
geavanceerde e-healthtoepassingen ontwikkeld kunnen worden.
Ja, maar…
• Geen Big Science
–
–
–
–
Big budgets
Big staffs
Big machines
Big laboratories
• Maar “Small Science”
–
–
–
–
Beperkte budgetten
Kleine organisaties
Geringe commerciële interesse
Grote diversiteit aan behoeften
De Taalunie schept kansen
• Samenwerking Nederland,
Vlaanderen en Suriname
• STEVIN: onderzoek naar en
basistaalmaterialen voor
taal- en spraaktechnologie
(TST)
• TST-Centrale
– Advisering
– Beheer en onderhoud
– Beschikbaarstelling en
Advisering
• Makelen en schakelen: wat is elders
(al) beschikbaar?
• Welke standaarden en (open)
formaten?
• Welke afspraken met uw
“leveranciers”?
– Contracten, sprekerformulieren
• Welke afspraken tussen u en ons?
– Samenwerkingsovereenkomst
Beheer en onderhoud
• Beheer (medio 2013)
• Voorbeelden
onderhoud
– Updates van
formaatversies
– Verbetering
(online)
zoekapplicaties
– Aanvulling en verbetering (‘bugfixing’) van
data
Beschikbaarstelling en
ondersteuning
• Licenties (medio 2013)
– Excl. webapplicaties
– Incl. Google
• Voorbeelden
ondersteuning
– Gastcolleges
– Data op maat
– Hulp bij contract met uitgever
Beschikbaarstelling ook via
Europese CLARIN
• CLARIN werkt aan makkelijke en duurzame
toegang tot digitale taaldata en geavanceerde
taaltools, waar deze zich ook bevinden
• Taalunie lid van CLARIN ERIC
• TST-Centrale verzorgt Nederlands-Vlaams
knooppunt
in CLARIN-infrastructuur
Taal- en spraakdata voor
e-healthtoepassingen
• Corpus Gesproken Nederlands
– Trainen spraakherkenning en spraaksynthese
– Computerprogramma dat ondersteuning biedt bij het
lezen, spreken en schrijven
– Woordvoorspeller bij spreken, voor mensen met een
communicatieve beperking
• Cornetto: tekst-naar-pictogram-omzetter
(poster Vandeghinste en Schuurman)
• SoNaR: algoritmen uit andere talen testen
met Nederlandstalige data
• Zie ook rapporten “TST en
communicatieve beperkingen”
(beschikbaar online en in onze stand)
Meer taal- en spraakdata (ehealth)
• SPACE (IWT-SBO-project Vlaanderen)
– Universiteiten Leuven, Gent, Brussel en Antwerpen)
• COPAS (Corpus Pathologische en Normale Spraak)
– Opnames Dutch Intelligibility Assessment (DIA),
voorgelezen tekstpassages, zinnen en spontane spraak.
– Geannoteerde opnames van bijna 200 Vlaamse
pathologische sprekers en 122 Vlaamse controlesprekers.
• CHOREC (Children's Oral Reading Corpus)
– 130 uur spraak afkomstig van 400 Vlaamse kinderen die
teksten en woordenlijsten voorlezen voor
leesvaardigheidsontwikkeling en -toetsen.
– Leesstrategie en soorten leesfouten geannoteerd.
Meer taal- en spraakdata
(kinderen)
• JASMIN-spraakcorpus
–
–
–
–
Aanvulling op Corpus Gesproken Nederlands
Jongeren, anderstaligen en senioren
Voorgelezen teksten en mens-machinedialogen
STEVIN-project van Radboud Universiteit, K.U. Leuven
en TalkingHome
• BasiLex – wat lezen basisschoolleerlingen?
– NWO-project van universiteiten Radboud, Tilburg,
Amsterdam en Leiden)
• BasiScript – hoe schrijven
basisschoolleerlingen?
– NWO-project van universiteiten Radboud, Tilburg,
Samenvatting
• Door bij uw werk aandacht te
besteden aan het verzamelen,
bewaren en delen van taal- en
spraakdata …
• … kan de taal- en
spraaktechnologie
zich
blijven
• …
en kunnen…toepassingen ontwikkeld worden
ontwikkelen
die bijdragen aan de diagnostiek, behandeling
en ondersteuning van mensen met een
communicatieve beperking.
• Wij helpen u graag, zodat u vooral ook uw werk
goed kunt blijven doen.
Vragen of opmerkingen?
Spreek ons gerust aan of
kom langs in onze stand.
Contact
@tstcentrale
+31 70 346 95 48
http://tst-centrale.org
[email protected]
Nederland
België
Bezoekadres
Lange Voorhout 21
2514 EB Den Haag
Postadres
TST-Centrale
p/a NTU
Postbus 10595
2501 HN Den Haag
Nederland
Bezoekadres
Universiteit Antwerpen - Stadscampus (gebouw R)
Kamer R2.21
Rodestraat 14
2000 Antwerpen
Postadres
TST-Centrale
p/a Universiteit Antwerpen
CST, R2.21
Prinsstraat 13
2000 Antwerpen
België