Transcript Automatické indexování
Slide 1
Zpracování informací a znalostí
Automatické indexování
Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství
Slide 2
Automatická charakteristika obsahu dokumentů
Literatura:
Rauch, J.: Metody zpracování informací II, kapitola 5
SALTON, G. - McGILL, M.: Introduction to Modern Information
Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s.
KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and
Retrieval Systems. Theory and Implementation. Kluwer Academic
Publishers 2000, 318 s.
2
Slide 3
Automatická charakteristika obsahu dokumentů
důvody automatické charakteristiky obsahu
vyloučení subjektivity
rostoucí počet dokumentů
jednoduchá indexovací metoda
poznámky - problém specializovaného fondu
modifikace jednoduché indexovací metody
další poznámky
3
Slide 4
Jednoduchá indexovací metoda
Princip:
Jestliže se slovo vyskytuje v dokumentu s dostatečnou
frekvencí, pak se dokument týká pojmu odpovídajícímu
tomuto slovu
Vstup:
N dokumentů D1,…, DN
Výstup:
Klíčová slova pro každý dokument
4
Slide 5
Jednoduchá indexovací metoda - postup
1) Vynechej stop slova.
2) Spočti frekvence zbývajících slov S1, …, SK.
Fi,j – frekvence slova Sj v dokumentu Di
3) Zvol prahovou hodnotu P.
Sj je klíčové slovo pro Di právě když Fi,j > P
5
Slide 6
Jednoduchá indexovací metoda - příklad
Dokumenty:
D1
Novák: Vyhledávání informací pomocí počítačů.
D2
Kadlec: Historie počítačů.
...
D10 000 Kovář: Informace o firmách
prahová hodnota P = 6
D1
D2
…
D10 000
S1
počítač
S2
informace
S3
vyhledávání
S4
historie
S5
systém
S6
firma
…
…
12
11
…
5
15
4
…
13
9
1
…
8
1
13
…
1
5
5
…
3
0
1
…
15
…
…
…
…
6
Slide 7
Jednoduchá indexovací metoda - poznámky
Častý výskyt slova znamená, že dokument se týká tématu
odpovídajícího tomuto slovu.
Jestliže se dokument týká tématu odpovídajícího nějakému
slovu, pak se toto slovo v dokumentu vyskytuje s velkou
frekvencí.
Slova s vysokou frekvencí nemusí rozlišit dokumenty na
relevantní a irelevantní. („Počítač" ve fondu informatické
literatury).
7
Slide 8
Modifikace jednoduché indexovací metody
Cíl: Klíčová slova
charakterizující obsah
oddělující dokumenty
Princip:
vyjádříme stupeň kterým slovo Sj charakterizuje obsah dokumentu Di :
Fi,j - frekvence slova Sj v dokumentu Di
vyjádříme stupeň kterým slovo Sj odděluje dokumenty: log (N/DFj )
DFj – počet dokumentů obsahujících Sj
použijeme váhu Wi,j = Fi,j * log (N/DFj ) místo frekvence Fi,j
8
Slide 9
Modifikovaná jednoduchá indexovací metoda – postup
1) Vynechej stop slova.
2) Spočti váhy Wi,j frekvence zbývajících slov S1, …, SK.
Wi,j – frekvence slova Sj v dokumentu Di
3) Zvol prahovou hodnotu P.
Sj je klíčové slovo pro Di právě když Wi,j > P
9
Slide 10
Váhy slov – příklad
N = 10 000,
DFj = počet dokumentů se slovem Sj
Fi,j = frekvence slova Sj pro dokument Di ,
Wi,j = Fi,j * log(N/ DFj), práh P = 6
Slovo Sj
DFj
%
N/DFj
log(N/DFj )
Fi,j
Wi,j
Databáze
10
0.1
1 000
3
Uživatel
30
0.3
333.3
2.52
Tiskárna
100
1.0
100
2
Metoda
500
5.0
20
1.3
Počítač
2000
20
5
0.7
Informace
9000
90
1.1
0.15
1
2
5
1
3
5
1
3
5
1
5
1
9
1
42
3
6
15
2.5
7.6
12.6
2
6
10
1.3
6.5
0.7
6.3
0,1
6,1
10
Slide 11
Automatická charakteristika obsahu - další poznámky
Vzít v úvahu délku dokumentu – uvažovat celkový počet slov
Výrazy vyskytující se v mnoha dokumentech nahradit výrazy s užším
významem: informace obchodní informace
Výrazy vyskytující se v málo dokumentech nahradit výrazy s širším
významem: algebra matematika
Nechat u výrazu jeho váhu, umožnit vyjádřit váhu výrazu v dotazu a vzít
obě váhy v úvahu při posuzování relevance dokumentu k dotazu
… viz literaturu
11
Zpracování informací a znalostí
Automatické indexování
Doc. RNDr. Jan Rauch, CSc.
Katedra informačního a znalostního inženýrství
Slide 2
Automatická charakteristika obsahu dokumentů
Literatura:
Rauch, J.: Metody zpracování informací II, kapitola 5
SALTON, G. - McGILL, M.: Introduction to Modern Information
Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s.
KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and
Retrieval Systems. Theory and Implementation. Kluwer Academic
Publishers 2000, 318 s.
2
Slide 3
Automatická charakteristika obsahu dokumentů
důvody automatické charakteristiky obsahu
vyloučení subjektivity
rostoucí počet dokumentů
jednoduchá indexovací metoda
poznámky - problém specializovaného fondu
modifikace jednoduché indexovací metody
další poznámky
3
Slide 4
Jednoduchá indexovací metoda
Princip:
Jestliže se slovo vyskytuje v dokumentu s dostatečnou
frekvencí, pak se dokument týká pojmu odpovídajícímu
tomuto slovu
Vstup:
N dokumentů D1,…, DN
Výstup:
Klíčová slova pro každý dokument
4
Slide 5
Jednoduchá indexovací metoda - postup
1) Vynechej stop slova.
2) Spočti frekvence zbývajících slov S1, …, SK.
Fi,j – frekvence slova Sj v dokumentu Di
3) Zvol prahovou hodnotu P.
Sj je klíčové slovo pro Di právě když Fi,j > P
5
Slide 6
Jednoduchá indexovací metoda - příklad
Dokumenty:
D1
Novák: Vyhledávání informací pomocí počítačů.
D2
Kadlec: Historie počítačů.
...
D10 000 Kovář: Informace o firmách
prahová hodnota P = 6
D1
D2
…
D10 000
S1
počítač
S2
informace
S3
vyhledávání
S4
historie
S5
systém
S6
firma
…
…
12
11
…
5
15
4
…
13
9
1
…
8
1
13
…
1
5
5
…
3
0
1
…
15
…
…
…
…
6
Slide 7
Jednoduchá indexovací metoda - poznámky
Častý výskyt slova znamená, že dokument se týká tématu
odpovídajícího tomuto slovu.
Jestliže se dokument týká tématu odpovídajícího nějakému
slovu, pak se toto slovo v dokumentu vyskytuje s velkou
frekvencí.
Slova s vysokou frekvencí nemusí rozlišit dokumenty na
relevantní a irelevantní. („Počítač" ve fondu informatické
literatury).
7
Slide 8
Modifikace jednoduché indexovací metody
Cíl: Klíčová slova
charakterizující obsah
oddělující dokumenty
Princip:
vyjádříme stupeň kterým slovo Sj charakterizuje obsah dokumentu Di :
Fi,j - frekvence slova Sj v dokumentu Di
vyjádříme stupeň kterým slovo Sj odděluje dokumenty: log (N/DFj )
DFj – počet dokumentů obsahujících Sj
použijeme váhu Wi,j = Fi,j * log (N/DFj ) místo frekvence Fi,j
8
Slide 9
Modifikovaná jednoduchá indexovací metoda – postup
1) Vynechej stop slova.
2) Spočti váhy Wi,j frekvence zbývajících slov S1, …, SK.
Wi,j – frekvence slova Sj v dokumentu Di
3) Zvol prahovou hodnotu P.
Sj je klíčové slovo pro Di právě když Wi,j > P
9
Slide 10
Váhy slov – příklad
N = 10 000,
DFj = počet dokumentů se slovem Sj
Fi,j = frekvence slova Sj pro dokument Di ,
Wi,j = Fi,j * log(N/ DFj), práh P = 6
Slovo Sj
DFj
%
N/DFj
log(N/DFj )
Fi,j
Wi,j
Databáze
10
0.1
1 000
3
Uživatel
30
0.3
333.3
2.52
Tiskárna
100
1.0
100
2
Metoda
500
5.0
20
1.3
Počítač
2000
20
5
0.7
Informace
9000
90
1.1
0.15
1
2
5
1
3
5
1
3
5
1
5
1
9
1
42
3
6
15
2.5
7.6
12.6
2
6
10
1.3
6.5
0.7
6.3
0,1
6,1
10
Slide 11
Automatická charakteristika obsahu - další poznámky
Vzít v úvahu délku dokumentu – uvažovat celkový počet slov
Výrazy vyskytující se v mnoha dokumentech nahradit výrazy s užším
významem: informace obchodní informace
Výrazy vyskytující se v málo dokumentech nahradit výrazy s širším
významem: algebra matematika
Nechat u výrazu jeho váhu, umožnit vyjádřit váhu výrazu v dotazu a vzít
obě váhy v úvahu při posuzování relevance dokumentu k dotazu
… viz literaturu
11