Automatické indexování

Download Report

Transcript Automatické indexování

Slide 1

Zpracování informací a znalostí
Automatické indexování

Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství


Slide 2

Automatická charakteristika obsahu dokumentů
Literatura:


Rauch, J.: Metody zpracování informací II, kapitola 5



SALTON, G. - McGILL, M.: Introduction to Modern Information
Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s.



KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and
Retrieval Systems. Theory and Implementation. Kluwer Academic
Publishers 2000, 318 s.

2


Slide 3

Automatická charakteristika obsahu dokumentů


důvody automatické charakteristiky obsahu


vyloučení subjektivity



rostoucí počet dokumentů



jednoduchá indexovací metoda



poznámky - problém specializovaného fondu



modifikace jednoduché indexovací metody



další poznámky
3


Slide 4

Jednoduchá indexovací metoda
Princip:
Jestliže se slovo vyskytuje v dokumentu s dostatečnou
frekvencí, pak se dokument týká pojmu odpovídajícímu
tomuto slovu

Vstup:
N dokumentů D1,…, DN
Výstup:
Klíčová slova pro každý dokument

4


Slide 5

Jednoduchá indexovací metoda - postup
1) Vynechej stop slova.

2) Spočti frekvence zbývajících slov S1, …, SK.
Fi,j – frekvence slova Sj v dokumentu Di

3) Zvol prahovou hodnotu P.
Sj je klíčové slovo pro Di právě když Fi,j > P
5


Slide 6

Jednoduchá indexovací metoda - příklad
Dokumenty:
D1

Novák: Vyhledávání informací pomocí počítačů.

D2

Kadlec: Historie počítačů.
...

D10 000 Kovář: Informace o firmách
prahová hodnota P = 6

D1
D2

D10 000

S1
počítač

S2
informace

S3
vyhledávání

S4
historie

S5
systém

S6
firma




12
11

5

15
4

13

9
1

8

1
13

1

5
5

3

0
1

15





6


Slide 7

Jednoduchá indexovací metoda - poznámky


Častý výskyt slova znamená, že dokument se týká tématu
odpovídajícího tomuto slovu.



Jestliže se dokument týká tématu odpovídajícího nějakému
slovu, pak se toto slovo v dokumentu vyskytuje s velkou
frekvencí.



Slova s vysokou frekvencí nemusí rozlišit dokumenty na
relevantní a irelevantní. („Počítač" ve fondu informatické
literatury).
7


Slide 8

Modifikace jednoduché indexovací metody
Cíl: Klíčová slova



charakterizující obsah
oddělující dokumenty

Princip:


vyjádříme stupeň kterým slovo Sj charakterizuje obsah dokumentu Di :
Fi,j - frekvence slova Sj v dokumentu Di



vyjádříme stupeň kterým slovo Sj odděluje dokumenty: log (N/DFj )

DFj – počet dokumentů obsahujících Sj


použijeme váhu Wi,j = Fi,j * log (N/DFj ) místo frekvence Fi,j

8


Slide 9

Modifikovaná jednoduchá indexovací metoda – postup
1) Vynechej stop slova.
2) Spočti váhy Wi,j frekvence zbývajících slov S1, …, SK.

Wi,j – frekvence slova Sj v dokumentu Di
3) Zvol prahovou hodnotu P.

Sj je klíčové slovo pro Di právě když Wi,j > P

9


Slide 10

Váhy slov – příklad
N = 10 000,
DFj = počet dokumentů se slovem Sj
Fi,j = frekvence slova Sj pro dokument Di ,
Wi,j = Fi,j * log(N/ DFj), práh P = 6
Slovo Sj

DFj

%

N/DFj

log(N/DFj )

Fi,j

Wi,j

Databáze

10

0.1

1 000

3

Uživatel

30

0.3

333.3

2.52

Tiskárna

100

1.0

100

2

Metoda

500

5.0

20

1.3

Počítač

2000

20

5

0.7

Informace

9000

90

1.1

0.15

1
2
5
1
3
5
1
3
5
1
5
1
9
1
42

3
6
15
2.5
7.6
12.6
2
6
10
1.3
6.5
0.7
6.3
0,1
6,1

10


Slide 11

Automatická charakteristika obsahu - další poznámky


Vzít v úvahu délku dokumentu – uvažovat celkový počet slov



Výrazy vyskytující se v mnoha dokumentech nahradit výrazy s užším
významem: informace  obchodní informace



Výrazy vyskytující se v málo dokumentech nahradit výrazy s širším
významem: algebra  matematika



Nechat u výrazu jeho váhu, umožnit vyjádřit váhu výrazu v dotazu a vzít
obě váhy v úvahu při posuzování relevance dokumentu k dotazu



… viz literaturu
11