Transcript Kivonatolás és Kérdés megválaszolás
Kivonatolás, kérdés megválaszolás, dialógus rendszerek
2010. november. 16.
Kivonatolás
• •
Automatic text summarization Kivonat: rövid, de pontos reprezentánsa a dokumentum tartalmának
• •
rövid: kevesebb, mint az eredeti fele tartalom: legfontosabb tartalomnak át kell jönnie „Olvastam a Háború és Békét… Oroszországról szól…” Woody Alen
A kivonatolás alkalmazásai
• • • • • •
újságcikkek TV műsor/mozi előzetes tudományos publikációk önéletrajzok sport közvetítések egyetemi jegyzetek
Miért kivonatoljunk
• • • •
információrobbanás, Internet szöveges adatok, számítógép gyorsabb ha a cél általános szövegek összefoglalása, nem konkrét információtípus (IE eredménye nem mindig értelmezhető hétköznapi embereknek) mobil, PDA
Kivonat típusok
• • • • • •
megközelítés: kinyerés vs. absztrakt általános, query alapú, felhasználó alapú szakértői vagy bevezető jellegű single vs. multi document input típusa (pl. részben strukturált) nyelvközi kivonatolás
Problémák a kivonatolásban
• • • •
A szöveg tartalmát kell megragadni Hogyan határozzuk meg a kivonat hosszát (rövid dokumentumok nehezebb összefoglalni)?
Automatikus rendszerek kiértékelése Jelenlegi rendszerek közel sem olyan jók, mint az ember
Mondat kinyerés
• • • •
Alapegységek a mondatok (vagy?) Cél: legfontosabb mondatok kiválogatása a szövegből Legelső kezdeményezések (’58)
– – –
fontossági sorrend felállítása a mondatok közt (szignifikáns szavak előfordulásainak száma) bináris osztályozás: állító/magyarázó mondat domain-specifikus rendszerek kiértékelés: pontosság, fedés
Hasznos jellemzők
• •
kulcsszavak/tulajdonnevek szövegbeli pozíció
–
bevezetés/konklúzió
–
bekezdésen belüli pozíció
• •
mondat hossza mondatok közti szemantikus távolság
• •
A mondatkinyerés hátrányai
A kohézió hiánya (kohézió analízis) Következetesség hiánya Supermarket A announced a big profit for the third quarter of the year. The directory studies the creation of new jobs. Meanwhile, B’s supermarket sales drop by 10% last month. The firm is studying closing down some of its stores.
(DOCUMENT) Supermarket A announced a big profit for the third quarter of the year. The firm is studying closing down some of its stores.
(EXTRACT)
Mondat realizálás
•
Tömörítés/egyszerűsítés
When it arrives sometime new year in new TV sets, the V-chip will give parents a new and potentially revolutionary device to block out programs they don’t want their children to see.
• Felügyelt szekvenciajelölő megközelítés – tanító adatbázis: kézi összefoglalók – párhuzamosítás
Absztrakt kivonatolás
• • •
„új” mondatok generálása a „megértett” tartalom alapján Anafóra feloldás/szintaktikai elemzés/WSD query alapú kivonatolás: IE eredményből generálás
• • • • •
Absztrakt kivonat értékelése
kohézió, következetesség eltalálja a témát? fontos információ nem marad ki?
Helyettesítheti a kivonat a dokumentumot? (osztályozhatóság, kérdések megválaszolása) Automatikus kiértékelés: ROUGE, emberi kivonatokhoz hasonlítás (hasonló a BLUE-höz, de fedés-alapú)
A multi dokumentum kivonatolásról…
• • • •
Motiváció: „tegnapi sporthírek” A dokumentumok stílusa különböző (még ha témájában meg is egyezik) Redundáns információ/Kiegészítő info Ellentmondó információ négyen haltak meg 3 embert öltek meg
A multi dokumentum kivonatolásról…
•
Lépései:
–
Mondatok kinyerése (megegyező mondatok)
–
Sorrend felállítása
• • •
kronológia kohézió klaszterzés + „átlagos” sorrend
–
Realizáció
•
Tisztítás, összevonás, co-refereciák
Realizáció
Presidential advisers do not blame
O’Neill
, but they’ve long recognized that a shakeup of the economic team would help indicate
Bush
was doing everything he could to improve matters.
U.S. President George W. Bush
pushed out
Treasury Secretary Paul O’Neill
and top economic adviser Lawrence Lindsey on Friday, launching the first shake - up of his administration to tackle the ailing economy before the 2004 election campaign.
• • •
Főcím generálás
A fő gondolat megtalálása (ált. rövidebb mint egy mondat) Különbözik a folyó szövegtől
–
egyszerű nyelvtan
–
figyelemfelkeltő stílus ML (legvalószínűbb főcím)
–
szó választás (jellemző, átfogó)
–
generálás
Címkézés
• • • • •
tagging, kulcsszó kinyerés címkehalmaz = kivonat ugyanazok a problémák, mint mondatoknál
– – –
kiválasztás kohézió absztrakt címkék egyszerűbb feladat használhatóság?
Címkézés alkalmazásai
• • • •
blogokhoz ajánlás újsághírek címkézése tudományos cikkeknél kulcsszó kinyerés más NLP alkalmazásokhoz bemenet
–
dokumentum osztályozás/klaszterezés
–
információ visszakeresés
Címke ajánlás
• •
1.
2.
Kézzel címkézett halmaz rendelkezésre áll (pl. blog) címkézetlen dokumentumokhoz leghasonlóbbak megtalálása címkék átvétele (kapcsolódás mértéke, kohézió) hátrány: fix címke halmaz
Kulcsszó kinyerés
• •
1.
2.
Egyetlen dokumentumra fókuszál
•
címkejelöltek azonosítása főnévi szerkezetek
•
absztrakt címkék végső címkézés szűrése
• • •
jelöltek szöveg- és korpuszbeli előfordulása gyakorisága együtt-előfordulása hátrány: dokumentumközi koherencia
Próbáljuk ki!
•
Kivonatolás http://cimkezes.origo.hu/cimkefelho/
•
Q&A http://ask.com
•
Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu
Kérdés megválaszolás
Kérdés megválaszolás
• • • • • •
Question answering (Q&A) Input: egy természetes nyelvi kérdés Output: választ tartalmazó dokumentumok halmaza (ugyanaz, mint IR) Vagy releváns bekezdés… (kivonat?) Vagy a válasz… Következő generációs kereső rendszerek?
– –
Ki használ speciális karaktereket?
Ki fog kérdést begépelni?
Kérdések típusai
• • • • •
Tények (nevek, dátumok, helyek stb.) Listák Definíciók Eldöntendő Hogyan? Miért?
Architektúra
• • • •
kulcsszó alapú rendszer (kérdés szavai) Azokat a mondatokat vizsgálja ahol megjelennek ezek a szavak A mondatok rangsorolás (pozíció, sorrend, relevancia) A kérdés átformálása működik ha elég nagy az adathalmaz: Hol született Petőfi?
„Petőfi * született”
Egy Q&A rendszer felépítése
( Moldovan – TREC 2004)
1.
2.
3.
4.
Kérdés feldolgozás Keresőszavak előállítása Dokumentum szűrés és rangsorolás Válasz feldolgozása
Kérdés feldolgozás
• • •
Kérdés típus azonosítás
–
ML: bag-of-words, tulajdonnevek stb.
Válasz típusának meghatározása (kérdéstípuson belül) A kérés fókuszának behatárolása Melyik a
leghosszabb folyó
Európában?
általában szabály alapú rendszerrel
Kérdések típusai
Keresőkifejezések előállítása
• •
Heurisztikák:
–
nem gyakori szavak
–
tulajdonnevek
–
jelzős főnévi szerkezetek
–
igék
–
a kérdés fókusza Szinonimák
Dokumentumok szűrése
• • •
A kulcsszavaknak egymáshoz közel kell elhelyezkedniük (pl. egymást követő bekezdésekben) Túl gyakori/túl ritka kulcsszavak Rangsorolás:
–
dokumentum forrása (Wiki, hivatalos)
–
kérdés szavainak száma
–
nem illesztett kulcsszavak
Válasz mondat kiválasztása
• • • •
Válasz lokalizálása a dokumentumban (bekezdés/mondat) Nyelvi elemzés (elsősorban szintaktikai) Ellenőrzés, hogy a válasz típusának megfelel e a találat (pl. WordNet hyponímia) Legjobb válaszok listája(?)
Q&A kiértékelése
• • • •
MRR (mean recoprical rank) adott:
– – –
tesztkérdések dokumentumhalmaz emberi válaszok a dokhalmaz alapján Minden rendszer N db rangsorolt választ ad minden kérdésre metrika: jó válasz rangsorának reciproka
Próbáljuk ki!
•
Kivonatolás http://cimkezes.origo.hu/cimkefelho/
•
Q&A http://ask.com
•
Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu
Dialógus rendszerek
Dialógus rendszerek
•
beszélgető ágensek
• • •
Ember gép interakció Tutoring Adatbázis keresések
• •
Információkinyerés dialógusokból Tárgyalás követés
Alkalmazások
• • • •
Döntéstámogató rendszerek Navigációs rendszerek Ügyfélszolgálatok (irányítás) Vizsgáztatás
Példák
[19:31:22]
Példák
17:03 < no_screen> 3 honapos macska vkinek?
17:03 < no_screen> free 17:03 < no_screen> :) 17:04 < Steven_> :DDDDDDDD 17:04 < no_screen> ne rohogj :) 17:04 < no_screen> :) 17:05 < reflexx> no_screen: gari? allapot?
17:05 < no_screen> :) allapot alig hasznalt 17:05 < no_screen> gari azt valalok 1 evet 17:05 < no_screen> :) 17:05 < reflexx> csipas verzio?
17:05 < no_screen> csak ha teljesen tonkremegy akkor cserelem 17:05 < reflexx> :)) 17:05 < no_screen> :)) 17:06 < reflexx> szin?
17:06 < no_screen> szurke csikos 17:06 < reflexx> marka?
17:06 < no_screen> homemade
Problémák a dialógusoknál
• •
Számítógépes nyelvészet
– –
Kérdés vagy információközlés megértése (szemantikai reprezentáció) NL generálás Mesterséges Intelligencia
–
ha nem értem a kérdést visszakérdezzek (pontosítás)?
– – –
mikor váltsak át kérdezőbe/információ közlőbe?
ha nincs válasz az nem et jelent? meddig várjak?
„Visszacsatolásos tanulás”: a dialógus ágens céljait milyen kérdések/közlések sorozatával érheti el a leghatékonyabban
Jelenleg működő rendszerek
• • • •
Lehetséges kérdések halmaza rögzített ügyfélszolgálatok, tutoring szűk domainen működik!
bejövő kérdéshez leghasonlóbb mintakérdés kiválasztása (egyébként „nem értem mire gondolsz”) és az előre megadott válasz (szöveges vagy navigáció) megadása
Jelenleg működő beszélgető ágensek
• • • •
néhány beépített (gyakori) kérdésre válasz próbálják a kérdező szerepét átvenni (ált. eldöntendő kérdések) a válaszok egyszerű elemzésével (bag of words) tudnak „reagálni” céljuk általában: beszélgetési/kérdés/válasz sablonok gyűjtése későbbi (gépi) tanuláshoz
Turing teszt Kínai szoba
Próbáljuk ki!
•
Kivonatolás http://cimkezes.origo.hu/cimkefelho/
•
Q&A http://ask.com
•
Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu