Tools voor semantische analyse van tekst

Download Report

Transcript Tools voor semantische analyse van tekst

SEMANTISCHE ANALYSE VAN TEKST
MARIEKE VAN ERP
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Waarom semantische analyse?
Taaltechnologie
Taalvariatie maakt teksten interessant en laat zien hoe mensen zich door de tijd heen uitdrukten.
Maar taalvariatie maakt taalinterpretatie ook moeilijk. Om in de KB kranten alle artikelen over
‘branden’ te krijgen, moet je waarschijnlijk ook op ‘vuur’ zoeken, en misschien ook wel op alle
spellingvariaties en verouderde synoniemen. Aan de andere kant kan hetzelfde woord ook
meerdere betekenissen hebben zoals ‘paard’ (gaat het over het dier, het turnstel of het
schaakstuk?). Door middel van taaltechnologie kunnen we de computer ‘leren’ om te gaan met
taalvariatie.
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Taaltechnologie
101
Informatica
Linguistiek
Semantic Web
Taaltechnologie is het onderzoeksveld dat zich bezighoudt met het interpreteren
van taal door computers. In het veld werken informatici en taalkundigen samen
om software te ontwikkelen die in tekst woordsoorten kan herkennen, de
grammaticale structuur van een tekst kan analyseren, namen kan herkennen, en
teksten kan vertalen. Recent is daar ook de samenwerking met Semantic Web
onderzoekers bij gekomen om achtergrondkennis bij het proces te betrekken.
Toepassingen:
- Zoekmachines
- SIRI/Alexa/Cortana
- Spellingcorrectie
- Autocomplete
- Business analytics
Adder
Als je alleen op trefwoord ‘adder’
zoekt krijg je ook artkelen terug
met melding ‘addertje onder het
gras’ en ‘adderringslang’ (uit de
taxonomische familie Natricidae en
niet Viperidae waar de adders
onder vallen)
Biologen zijn geïnteresseerd in
geografische spreiding van
diersoorten door de tijd. Er
zullen niet voor alle diersoorten
exemplaren verzameld zijn op
ieder punt in de tijd, maar
krantenberichten maken vaak
melding van voorkomens van
bepaalde dieren.
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Voorbeelden
Adder
Beroepen
Gebouwen
Biologen zijn geïnteresseerd in
geografische spreiding van
diersoorten door de tijd. Er
zullen niet voor alle diersoorten
exemplaren verzameld zijn op
ieder punt in de tijd, maar
krantenberichten kunnen wel
melding maken van
voorkomens van bepaalde
dieren.
‘Computer’ betekende vroeger
i e m a n d d i e b e re k e n i n g e n
uitvoerde, nu verwijst het naar
machine. Schrijvers, auteurs en
dichters vallen in eenzelfde
beroepsgroep, evenals
docenten, leraren en leraressen.
Gebouwen en adressen
veranderen regelmatig van
naam. De Singel in Amsterdam,
heeft bv kortstondig
Koningsgracht geheten in de
17e eeuw. Gebouwen worden
soms genoemd bij hun naam,
s o m s b i j h u n a d re s . O m
informatie te vinden zul je ook
op de verschillende referenties
moeten kunnen zoeken.
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Entity/Concept
Typing
Entity/Concept
Linking
Semantic Analysis
De taalanalyse tool
die in CLARIAH WP3
ontwikkeld wordt zal
bestaan uit generieke
en domeinspecifieke
modules
die
verantwoordelijk zijn
voor verschillende
aspecten
van
tekstinterpretatie.
Entity/Concept
Detection
Topic
Detection
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
Domain
Vocabularies
01
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT
BEDANKT VOOR UW
AANDACHT
www.clariah.nl