Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel Úvod       Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky Vektorový model.

Download Report

Transcript Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel Úvod       Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky Vektorový model.

Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský

Jan Martinovič

Václav Snášel

Úvod       Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky

Vektorový model dokumentů 1/3  Reprezentace dokumentu

d i

 (

w i

, 1 ,

w i

, 2 ,  ,

w i

,

m

)  0 , 1

m

 Reprezentace dotazu

Q

 (

q

1 ,

q

2 ,  ,

q m

)  0 , 1

m

Vektorový model dokumentů 2/3  Matice popisující soubor dokumentů

D

     

w

 1 , 1

w

2 , 1

w n

, 1

w

1 , 2

w

1 , 2 

w n

, 2    

w

 1 ,

m w

2 ,

m w n

,

m

      0 , 1

n

m

Vektorový model dokumentů 3/3   Koeficient podobnosti vzdálenost vektoru dokumentu od vektoru dotazu Kosinová míra

Sim

Q

,

d i

 

k m

  1

q k w i

,

k k m

  1 (

q k

) 2

k m

  1 (

w i

,

k

) 2

Shluková analýza 1/4  Hypotéza o shlucích úzce vztažené dokumenty směřují k tomu, že jsou relevantní vůči týmž požadavkům

Shluková analýza 2/4  Hierarchické shlukování  Aglomerativní – na startu je každý objekt brán jako jeden shluk, postupně se objekty spojují (shlukují) dohromady.

 Divizní – na startu tvoří všechny objekty jeden shluk. Shluky se postupně rozpadají.

Shluková analýza 3/4  1.

2.

3.

4.

5.

Algoritmus aglomerativního shlukování Vytvoření matice vzdálenosti objektů.

Definování každého objektu jako jeden shluk.

Sluč dvojicí shluků s největší vzdálenosti.

Přepočtení matice vzdálenosti objektů.

Dokud existuje více než jeden shluk, pokračuj bodem 3.

Shluková analýza 4/4  Metody přepočtu matice podobnosti      Metoda nejbližšího souseda Metoda nejvzdálenějšího souseda Wardova metoda Metodo průměrová Metoda mediánová

Rozšíření dotazu 1/4  1.

2.

3.

Zpětná vazba Uživatel zadá vstupní dotaz, který vrátí inicializační množinu záznamu.

Vybere se množina záznamů relevantních pro dotaz.

S využitím nově vzniklé množiny záznamů, systém rozšíří původní dotaz o nové termy nebo přepočítá váhy termů.

Rozšíření dotazu 2/4  1.

2.

3.

UP-DOWN-1 Postupujeme od kořene stromu.

Spočteme koeficient podobnosti aktuálního shluku a dotaz.

Vypočteme koeficienty podobnosti obou shluků, z nichž se daný shluk skládá. 4.

5.

Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu.

V opačném případě se přesuneme do shluku, který má vyšší koeficient podobnosti a pokračujeme bodem 2.

Rozšíření dotazu 3/4  1.

2.

UP-DOWN-2 Postupujeme od kořene stromu shluků.

Vypočteme koeficient podobnosti aktuálního shluku a dotazu.

3.

4.

Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu.

Pokračujeme bodem 2 pro všechny shluky s nenulovou hodnotou koeficientu podobnosti.

Rozšíření dotazu 4/4

160% 140% 120% 100% 80% 60% 40% 20% 0% 100% 48,20% 60,60% 143,60% 112,10% Vektorový UP-DOWN-1 REL5 UP-DOWN-1 REL10 UP-DOWN-2 REL5 UP-DOWN-2 REL10 Porovnání metod UP-DOWN-1 a UP-DOWN-2

Testováno na kolekci obsahující 1500 anglických RFC dokumentů.

Sledování vývoje tématu 1/2  Cílem je k zadanému dotazu vyhledat seznam dokumentů tématicky souvisejícími s dotazem (pomocí hierarchie shluků).

 Typy dotazu  Zadaný pomocí termů  Dokument

Sledování vývoje tématu 2/2

Algoritmus SORT-EACH 1/2.

1.

2.

3.

4.

Provedeme vektorový dotaz a získanou kolekci dokumentů označíme C V .

Označíme výslednou kolekci C S.

Určíme, kolik rozšiřujících dokumentů má obsahovat vývoj tématu k zadanému dokumentu (l evel ).

První a druhý dokument z C V přidáme do C S.

Algoritmus SORT-EACH 2/2.

5.

a) Pro ostatní dokumenty D V z C V provedeme: K dokumentu D V level nalezneme vývoj obsahující + 1 dokumentů a uložíme jej do C T.

b) c) Pro každý dokument D T provedeme: v C T.

mimo dokument D V  Pokud je dokument D T D T do C S v C S pak zařaď dokument D V a pokračuj bodem 5.

Pokud nebyl dosud dokument D V vlož D V na konec kolekce C S .

zařazen pak za

Hodnocení efektivity v DIS  Přesnost

P

A

B B

 Úplnost

R

A

B A

 F-míra

F

   1   2 

P

2  

PR R

Poznámka: A – počet všech relevantních dokumentů B – počet všech vybraných dokumentů

Vylepšení odpovědi na vektorový dotaz – test 1

55 50 45 40 35 30 25 5 10 15 20 25 30 35 Záznamy Vektorový S-LEV2

Zlepšení k 10%.

40 45 S-LEV5 50 55 60

Vylepšení odpovědi na vektorový dotaz – test 2

55 50 45 40 35 30 25 5 10 15 20 25 30 35 Záznamy 40 45 50 Vektorový E-CHI2 E-CHI2-LEV2

Zlepšení u E-CHI2 až 11% a u E-CHI2-LEV2 až 18%.

55 60