Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel Úvod Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky Vektorový model.
Download ReportTranscript Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel Úvod Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky Vektorový model.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský
Jan Martinovič
Václav Snášel
Úvod Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky
Vektorový model dokumentů 1/3 Reprezentace dokumentu
d i
(
w i
, 1 ,
w i
, 2 , ,
w i
,
m
) 0 , 1
m
Reprezentace dotazu
Q
(
q
1 ,
q
2 , ,
q m
) 0 , 1
m
Vektorový model dokumentů 2/3 Matice popisující soubor dokumentů
D
w
1 , 1
w
2 , 1
w n
, 1
w
1 , 2
w
1 , 2
w n
, 2
w
1 ,
m w
2 ,
m w n
,
m
0 , 1
n
m
Vektorový model dokumentů 3/3 Koeficient podobnosti vzdálenost vektoru dokumentu od vektoru dotazu Kosinová míra
Sim
Q
,
d i
k m
1
q k w i
,
k k m
1 (
q k
) 2
k m
1 (
w i
,
k
) 2
Shluková analýza 1/4 Hypotéza o shlucích úzce vztažené dokumenty směřují k tomu, že jsou relevantní vůči týmž požadavkům
Shluková analýza 2/4 Hierarchické shlukování Aglomerativní – na startu je každý objekt brán jako jeden shluk, postupně se objekty spojují (shlukují) dohromady.
Divizní – na startu tvoří všechny objekty jeden shluk. Shluky se postupně rozpadají.
Shluková analýza 3/4 1.
2.
3.
4.
5.
Algoritmus aglomerativního shlukování Vytvoření matice vzdálenosti objektů.
Definování každého objektu jako jeden shluk.
Sluč dvojicí shluků s největší vzdálenosti.
Přepočtení matice vzdálenosti objektů.
Dokud existuje více než jeden shluk, pokračuj bodem 3.
Shluková analýza 4/4 Metody přepočtu matice podobnosti Metoda nejbližšího souseda Metoda nejvzdálenějšího souseda Wardova metoda Metodo průměrová Metoda mediánová
Rozšíření dotazu 1/4 1.
2.
3.
Zpětná vazba Uživatel zadá vstupní dotaz, který vrátí inicializační množinu záznamu.
Vybere se množina záznamů relevantních pro dotaz.
S využitím nově vzniklé množiny záznamů, systém rozšíří původní dotaz o nové termy nebo přepočítá váhy termů.
Rozšíření dotazu 2/4 1.
2.
3.
UP-DOWN-1 Postupujeme od kořene stromu.
Spočteme koeficient podobnosti aktuálního shluku a dotaz.
Vypočteme koeficienty podobnosti obou shluků, z nichž se daný shluk skládá. 4.
5.
Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu.
V opačném případě se přesuneme do shluku, který má vyšší koeficient podobnosti a pokračujeme bodem 2.
Rozšíření dotazu 3/4 1.
2.
UP-DOWN-2 Postupujeme od kořene stromu shluků.
Vypočteme koeficient podobnosti aktuálního shluku a dotazu.
3.
4.
Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu.
Pokračujeme bodem 2 pro všechny shluky s nenulovou hodnotou koeficientu podobnosti.
Rozšíření dotazu 4/4
160% 140% 120% 100% 80% 60% 40% 20% 0% 100% 48,20% 60,60% 143,60% 112,10% Vektorový UP-DOWN-1 REL5 UP-DOWN-1 REL10 UP-DOWN-2 REL5 UP-DOWN-2 REL10 Porovnání metod UP-DOWN-1 a UP-DOWN-2
Testováno na kolekci obsahující 1500 anglických RFC dokumentů.
Sledování vývoje tématu 1/2 Cílem je k zadanému dotazu vyhledat seznam dokumentů tématicky souvisejícími s dotazem (pomocí hierarchie shluků).
Typy dotazu Zadaný pomocí termů Dokument
Sledování vývoje tématu 2/2
Algoritmus SORT-EACH 1/2.
1.
2.
3.
4.
Provedeme vektorový dotaz a získanou kolekci dokumentů označíme C V .
Označíme výslednou kolekci C S.
Určíme, kolik rozšiřujících dokumentů má obsahovat vývoj tématu k zadanému dokumentu (l evel ).
První a druhý dokument z C V přidáme do C S.
Algoritmus SORT-EACH 2/2.
5.
a) Pro ostatní dokumenty D V z C V provedeme: K dokumentu D V level nalezneme vývoj obsahující + 1 dokumentů a uložíme jej do C T.
b) c) Pro každý dokument D T provedeme: v C T.
mimo dokument D V Pokud je dokument D T D T do C S v C S pak zařaď dokument D V a pokračuj bodem 5.
Pokud nebyl dosud dokument D V vlož D V na konec kolekce C S .
zařazen pak za
Hodnocení efektivity v DIS Přesnost
P
A
B B
Úplnost
R
A
B A
F-míra
F
1 2
P
2
PR R
Poznámka: A – počet všech relevantních dokumentů B – počet všech vybraných dokumentů
Vylepšení odpovědi na vektorový dotaz – test 1
55 50 45 40 35 30 25 5 10 15 20 25 30 35 Záznamy Vektorový S-LEV2
Zlepšení k 10%.
40 45 S-LEV5 50 55 60
Vylepšení odpovědi na vektorový dotaz – test 2
55 50 45 40 35 30 25 5 10 15 20 25 30 35 Záznamy 40 45 50 Vektorový E-CHI2 E-CHI2-LEV2
Zlepšení u E-CHI2 až 11% a u E-CHI2-LEV2 až 18%.
55 60