0 - Katedra Informatyki > Home

Download Report

Transcript 0 - Katedra Informatyki > Home

W. Bartkiewicz
Wprowadzenie do budowy usług
informacyjnych
Wykład 5. Klasyfikacja dokumentów tekstowych
Filtrowanie, rekomendacja i kategoryzacja
Klasyfikacja dokumentów
• Klasyfikacja dokumentów polega na przypisaniu każdemu dokumentowi
dj z danego zbioru dokumentów, jednej ze skończonego zbioru
ustalonych z góry kategorii (klas).
– Tak więc dla danego dokumentu dj reprezentowanego przez wektor cech (x1,
..., xn) chcemy znaleźć odwzorowanie przypisujące mu jedną ze zbioru
kategorii C = {c1, ..., cm}.
– Odwzorowanie f: Rn  (x1, ..., xn)  cm C nazywamy klasyfikatorem, albo
odwzorowaniem klasyfikacyjnym.
• Do stworzenia odwzorowania klasyfikacyjnego niezbędne są dodatkowe
informacje. Zazwyczaj przyjmują one jedną z dwu podstawowych form:
– Profil (prototyp klasy, centroid), zawierający typowe, charakterystyczne
cechy odróżniające daną kategorię od innych.
– Zbiór przykładów dokumentów należących do poszczególnych kategorii.
(Może posłużyć on bezpośrednio do budowy odwzorowania
klasyfikacyjnego, lub pośrednio do wygenerowania profilu).
Klasyfikacja dokumentów
“planning
language
proof
intelligence”
Dokument:
(AI)
(Programming)
(HCI)
Kategorie:
ML
Profile:
learning
intelligence
algorithm
reinforcement
network...
Planning
Semantics
planning
temporal
reasoning
plan
language...
programming
semantics
language
proof...
Garb.Coll.
Multimedia
garbage
...
collection
memory
optimization
region...
GUI
...
Klasyfikacja dokumentów
Rewolwerowiec
Teleskop
Kategoria
0,95 0
0
0
0
0
0 0,48 0
0 0,48 1,91
2,39 0
0
0 2,39 0
1,91 0
0
0 0,48 4,29
0
0 0,48
0
0 1,43
0
0
0
1,43 0
0
Podróż
Planeta
Obserwacja
0
4,77
2,39
0
0
0
0
0
1,43
0
0
0,48
Nadprzestrzeń
Kowboj
Kosmos
Grawitacja
0 0,88 0
0
0 0,18 0
0
0,38 0 4,82 0
2,88 0
0 0,53
0 0,7 0 0,35
3,42 1,06 0 0,7
0,76 0
0 1,23
0 1,41 0 0,18
0
0 4,21 0
3,42 0,88 0 0,35
0 0,35 3,01 0,18
0 1,23 0 0,7
Indianie
Czarna dziura
0
0
0
4,77
0,95
0
0,48
0
0
2,86
0
0
Gwiazda
Blaster
1,81
0
0
0
0,6
0
0
0
0
0
0
1,2
0,3
0,9
0
0
0
0,6
0
0,6
1,51
0
2,11
0
0
2,86
1,43
0
0
0
0
0
0,95
0
2,39
0
0
0
0
0,3
0
1,2
0,6
0
0
0,6
0,3
0,6
A
C
C
B
A
B
A
B
C
B
C
A
A - SF
B – Astronomia
C - Western
Klasyfikacja dokumentów
Filtrowanie i rekomendacja
• Filtrowanie informacji jest procesem zbliżonym do wyszukiwania.
– W przypadku wyszukiwania mamy stały zasób informacyjny i wielu
użytkowników, wyrażających swoje różne potrzeby informacyjne.
– W przypadku filtrowania mamy do czynienia z jednym użytkownikiem i
stałą potrzebą informacyjną, natomiast zmiennym zasobem informacji,
często w postaci pewnego strumienia dokumentów.
• Stały charakter potrzeby informacyjnej umożliwia zastosowanie w
przypadku filtrowania metod personalizacji, pozwalającej na
dostosowanie procesu analizy dokumentu do potrzeb konkretnego
użytkownika.
– Generalnie filtrowanie może być traktowane jako spersonalizowane
wyszukiwanie informacji.
• Typowe obszary zastosowań:
– Wyszukiwanie tematyczne w internecie, w którym system wyszukiwawczy
analizuje zawartość dokumentów webowych pod kątem ich dostosowania
lub nie do pewnego zadanego tematu.
Klasyfikacja dokumentów
Filtrowanie i rekomendacja
• Typowe obszary zastosowań:
– Filtrowanie spamu, polegające na zaklasyfikowaniu dokumentu wiadomości
e-mail jako spamu lub jako wiadomości użytecznej dla użytkownika.
– Spersonalizowane czasopisma (filtrowanie wiadomości) w których system
ma za zadanie zaklasyfikować daną wiadomość jako interesującą
(relewantną) dla użytkownika lub nie.
– Rekomendacja stron webowych, w której system ma za zadanie
przeanalizować strony znajdujące się w bazie dokumentów (np. katalogu
towarów) tak, aby na bazie stron przejrzanych wcześniej przez użytkownika
zaproponować nowe strony, które mogą go również zainteresować.
– Priorytetowanie dokumentów e-mail, zaliczenie dokumentu do kategorii
ważności.
• W przypadku filtrowania mamy zazwyczaj do czynienia z klasyfikacją
dokumentu do jednej z dwu kategorii: odpowiadający tematowi –
nieodpowiedni, użyteczny – spam, relewantny – nierelewantny, itp.
Klasyfikacja dokumentów
Katalogowanie
• Kolejnym z typowych zastosowań klasyfikacji dokumentów są katalogi
tematyczne.
– Klasyczna metoda porządkowania informacji pod kątem tematycznym.
• Tradycyjnie proces katalogowania wykonywany jest przez ludzi.
– Dobre wyniki jeśli wykonują to eksperci.
– Model mentalny struktury katalogu eksperta nie zawsze musi być zgodny z
modelem użytkownika.
– Problemy spójności przy większej grupie ekspertów.
– Podejście trudne i drogie w skalowaniu.
• Obecnie coraz częściej skalowalność staje się problemem.
– Katalogi elektroniczne mogą przechowywać informacje nawet o
dziesiątkach albo setkach tysięcy ofert produktów.
– Konieczność oceny dokumentu przez człowieka i zakwalifikowania go do
określonej kategorii staje się często wąskim gardłem, opóźniającym
dostarczenie aktualnej informacji o zawartości katalogu.
Klasyfikacja dokumentów
Katalogowanie
• Zastosowanie systemów automatycznej
rozwiązaniem problemu skalowalności.
klasyfikacji
może
być
– Klasyfikacja automatyczna pozwala również na zachowanie pewnego
obiektywizmu w przydziale produktów do kategorii.
• Typowe aplikacje
– Katalogi biblioteczne, webowe (np. Yahoo), katalogi produktów itp.
– Klasyfikacja tematyczna dokumentów mailowych, wiadomości, itp.
– Wizualizacja i przeglądanie struktury tematycznej bazy dokumentów.
• W procesie katalogowania dokument zaliczany jest zazwyczaj do jednej
z kilku – kilkudziesięciu kategorii tematycznych.
Klasyfikacja dokumentów
Indeksowanie i modyfikacja zapytań
• Kolejny typ zastosowań związany jest z ujednoznacznianiem słownictwa
wykorzystywanego jednej strony do opisu dokumentu, z drugiej zaś do
specyfikacji zapytania.
– System klasyfikujący dokonuje klasyfikacji dokumentu na podstawie jego
opisu w warstwie leksykalnej (np. słów zawartych w dokumencie) do zbioru
jednoznacznych termów słownika kontrolowanego (pojęć).
– Równolegle do tej samej przestrzeni jednoznacznych termów klasyfikowane
są wykonywane w systemie wyszukiwawczym zapytania.
– Wyszukiwanie odbywa się poprzez wyznaczenie podobieństwa zapytania do
dokumentów w przestrzeni pojęć.
• Wymiar przestrzeni kategorii C, do których klasyfikowane są dokument i
zapytanie, zazwyczaj jest w przypadku tego zadania bardzo duży, rzędu
kilkuset – kilku tysięcy kategorii.
Klasyfikacja dokumentów
Klasyfikacja oparta na historii
wartość 11
wartość 12
...
wartość 1n
A
wartość 21
wartość 22
...
wartość 2n
B
...
...
...
...
wartość t1
wartość t2
...
wartość tn
Analiza
danych
historycznych
Klasyfikacja
(np. A)
Nowy dokument
wartość 1
A
wartość 1
...
wartość n
Analiza danych
historycznych
powtarzana jest
dla każdego
nowo
klasyfikowanego
dokumentu
Klasyfikacja dokumentów
Klasyfikacja oparta na modelu
wartość 11
wartość 12
...
wartość 1n
A
wartość 21
wartość 22
...
wartość 2n
B
...
...
...
...
wartość t1
wartość t2
...
wartość tn
A
Uczenie
Model
Dane
wejściowe
modelu
Nowy dokument
wartość 1
wartość 1
Klasyfikacja
(np. A)
...
wartość n
Dane historyczne
analizowane są
w trakcie
uczenia modelu.
Podczas
klasyfikacji
przeliczany jest
tylko model
Klasyfikacja dokumentów
Metoda najbliższego sąsiada
• Klasyfikatory metodą najbliższych sąsiadów są typowymi przykładami
klasyfikacji opartej na historii.
– Nie ma fazy uczenia modelu. Klasyfikacja opiera się na wykorzystaniu
zbioru treningowego przykładów D.
• Dla danego dokumentu d:
– Obliczamy podobieństwo d do każdego z przykładów ze zbioru
treningowego D.
– Przypisujemy d kategorię do której należał najbardziej podobny przykład ze
zbioru D.
• Wykorzystanie w procesie klasyfikacji wyłącznie
egzemplarza przykładowego może powodować błędy:
najbliższego
– Powodowane przez pojedyncze nietypowe przykłady.
– Powodowane przez szum, tj. błędy w przypisaniu kategorii niektórym
egzemplarzom przykładowym.
Klasyfikacja dokumentów
Metoda najbliższego sąsiada
Government
Science
Arts
Klasyfikacja dokumentów
Metoda k najbliższych sąsiadów (kNN)
• Dla danego dokumentu d:
– Obliczamy podobieństwo d do każdego z przykładów ze zbioru
treningowego D.
– Wyszukujemy następnie k najbardziej podobnych przykładów treningowych
(stąd nazwa k najbliższych sąsiadów) i analizujemy kategorie do których one
należą.
– Nowemu dokumentowi d przypisujemy kategorię reprezentowaną przez
większość z tych k wybranych przykładów.
– Alternatywnie możemy przedstawić wynik klasyfikacji jako rozkład
prawdopodobieństwa P(c|d) = i/k gdzie i jest liczbą spośród k przykładów
należących co klasy c.
• Wartość k dobierana jest dla konkretnego przypadku. Najczęściej, aby
uniknąć remisów wybiera się 3 lub 5.
Klasyfikacja dokumentów
Metoda k najbliższych sąsiadów (kNN)
Government
Science
Arts
Klasyfikacja dokumentów
Metoda k najbliższych sąsiadów (kNN)
• Miary podobieństwa (lub odległości):
– Dla ciągłych wielowymiarowych przestrzeni najprostszym wyborem jest
euklidesowa miara odległości.
– Dla wielowymiarowych przestrzeni binarnych najprostszym wyborem jest
miara odległości Hamminga (liczba wartości cech, które się pokrywają).
– W przypadku tekstów najczęściej stosowana jest miara podobieństwa
cosinusów i wagi tf*idf.
• kNN i indeksy odwrotne.
– Określenie k najbliższych sąsiadów polega na tum samym co znalezienie k
dokumentów najbliższych do zapytania.
– Najprościej więc wykorzystać do tego standardowe metody przetwarzania
zapytania w indeksie odwrotnym dla modelu wektorowego.
Czarna dziura
Grawitacja
Gwiazda
Indianie
Nadprzestrzeń
Obserwacja
Planeta
Podróż
Rewolwerowiec
Teleskop
Kategoria
1
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
1
0
1
0
0
1
0
0
0
0
1
1
0
1
1
0
0
1
0
0
1
1
0
0
1
1
0
1
0
1
1
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
1
1
1
1
1
0
1
1
1
0
1
1
0
0
0
0
0
1
0
0
1
1
0
0
0
1
0
1
0
0
0
0
1
0
0
1
1
0
1
0
1
0
0
0
0
0
0
0
1
0
0
0
1
1
1
0
0
1
1
0
0
0
1
0
1
1
0
1
0
0
1
1
0
0
0
0
0
1
0
1
0
0
0
0
1
0
1
1
0
0
1
1
1
A
C
C
B
A
B
A
B
C
B
C
A
0
1
1
1
0
1
0
1
0
0
1
0
0
Kowboj
Kosmos
Blaster
Klasyfikacja dokumentów
Metoda k najbliższych sąsiadów (kNN)
A - SF
B – Astronomia
C - Western
3
2
1
3
4
4
4
3
1
4
3
3
0,61
0,41
0,18
0,50
0,73
0,67
0,73
0,55
0,18
0,67
0.50
0,50
x y
x
y
A - SF
Klasyfikacja dokumentów
Metoda k najbliższych sąsiadów (kNN)
Ilustracja metody 3NN dla tekstu
Nowy dokument
Ponieważ 2 z 3 należą do
kategorii „niebieski” –
więc „niebieski”
Klasyfikacja dokumentów
Profile – Metoda Rocchio
• Wykorzystywana w sprzężeniu relewancji metoda Rocchio jest również
standardową metodą generowania profilu kategorii na podstawie danych.
– Opisy przykładowych dokumentów dla każdej kategorii (dane treningowe)
reprezentowane są w formie standardowych wektorów tf*idf.
– Profil (prototyp) każdej kategorii tworzony jest jako centroid (wektor
średnich) z wektorów wszystkich egzemplarzy przykładowych należących
do danej kategorii.
– Jeśli w systemie używana jest dalej miara podobieństwa cosinusoidalnego
(lub inna znormalizowana miara podobieństwa), to profil może być po
prostu sumą wektorów egzemplarzy z danej kategorii. Cosinus jest
niewrażliwy na długości wektorów.
• Klasyfikacja nowego dokumentu odbywa się na podstawie jego
podobieństwa do profili kategorii.
– Dokumentowi przypisywana jest kategoria, której profil jest najbardziej
podobny do reprezentującego go wektora.
Klasyfikacja dokumentów
Profile – Metoda Rocchio
Profile kategorii
Nowy dokument
Ponieważ najbliższy
profil należy do
kategorii „niebieski” –
więc „niebieski”
Klasyfikacja dokumentów
Profile – Metoda Rocchio
Metody oparte na profilach mają problem
z kategoriami polimorficznymi (dyzjunkcyjnymi)
Klasyfikacja dokumentów
Profile – Metoda Rocchio
Metoda kNN radzi sobie z klasami dyzjunkcyjnymi
dużo lepiej
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
• Naiwny klasyfikator Bayesowski jest przykładem klasyfikacji opartej na
modelu.
• W klasyfikatorach Bayesowskich tworzymy model, który dla danego
wzorca x, opisującego dany dokument stara się oszacować
prawdopodobieństwo Pr(C/x), przynależności tego wzorca do określonej
klasy C.
• Bezpośrednie oszacowanie Pr(C/x) jest trudne, ponieważ x jest wektorem
o wielu wymiarach. Aby oszacować rozkład prawdopodobieństwa w
wielowymiarowej przestrzeni, niezbędne są olbrzymie ilości danych,
„pokrywające” całą rozważaną przestrzeń.
Pr(C  x)
Pr(C / x) 
,
Pr(x)
Pr(C / x) 
Pr(C  x)
Pr(x / C ) 
Pr(C )
Pr(x / C )  Pr(C )
Pr(x)
Twierdzenie Bayesa
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
Pr(C / x) 
 Pr(x
j
/ C )  Pr(C )
j
Pr(x)
• W naiwnym klasyfikatorze Bayesowskim zakładamy, że poszczególne
cechy opisujące produkt są niezależne. Dla zdarzeń niezależnych
prawdopodobieństwo iloczynu zdarzeń równe jest iloczynowi ich
prawdopodobieństw.
• Jest to założenie upraszczające. W praktyce np. różne słowa kluczowe w
opisie dokumentu w dużej części będą od siebie zależne. Dlatego wyniki
działania klasyfikatora naiwnego muszą być zawsze zweryfikowane
empirycznie.
• Tym niemniej w praktycznych zastosowaniach model ten osiąga całkiem
zadowalające wyniki. Jego prostota obliczeniowa i szybkość działania
powoduje, że jest to jedno z najczęściej wykorzystywanych podejść do
klasyfikacji dokumentów.
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
Pr(C / x) 
 Pr(x
j
/ C )  Pr(C )
j
Pr(x)
• Prawdopodobieństwa występujące w tym modelu mogą być łatwo
wyznaczone na podstawie arkusza danych, zawierającego informacje o
słowach kluczowych w przykładowych wzorcach dokumentów:
– Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj występuje w
opisie dokumentu Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C).
– Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj nie
występuje w opisie dokumentu Pr(xj=0/C) = 1 – Pr(xj=1/C).
– Prawdopodobieństwo Pr(C) = liczba_dok(C) / liczba dokumentów.
– Ponieważ chcemy porównywać prawdopodobieństwa Pr(C/x) dla kolejnych
klas C, więc Pr(x) jako takie samo dla wszystkich klas możemy pominąć.
Możemy je również policzyć ze wzoru na prawdopodobieństwo całkowite:
Pr(x)   Pr(C) Pr(x / C)  Pr(C) Pr(x j / C)
C
C
j
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
Czarna dziura
Grawitacja
Gwiazda
Indianie
Nadprzestrzeń
Obserwacja
Planeta
Podróż
Rewolwerowiec
Teleskop
Kategoria
0
0
0
1
1
0
1
0
0
1
0
0
0
0
1
1
0
1
1
0
0
1
0
0
1
1
0
0
1
1
0
1
0
1
1
1
0
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
1
1
1
1
0
1
1
1
0
1
1
0
0
0
0
0
1
0
0
1
1
0
0
1
1
0
1
0
0
0
0
0
0
0
1
1
0
1
0
1
0
0
0
0
0
0
0
1
0
0
0
1
1
1
0
0
1
1
0
0
0
1
0
1
1
0
1
0
0
1
1
0
0
0
0
0
1
0
0
0
0
0
0
1
0
1
1
0
0
1
1
1
A
C
C
B
A
B
A
B
C
B
C
A
3
0
0
2
2
0
1
3
1
3
3
2
0
0
3
3
3
1
1
0
3
3
1
0
0
3
1
0
3
1
1
2
3
0
0
3
2
3
1
4
4
4
Kowboj
Kosmos
Blaster
1
0
0
0
1
0
0
0
0
0
0
1
A - SF
B – Astronomia
C - Western
A
B
C
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
Teleskop
Kategoria
0
1
1
0
0
0
0
0
1
0
0
1
Rewolwerowiec
0
0
0
0
1
1
1
1
0
1
1
1
Podróż
Indianie
0
0
1
0
0
0
0
0
1
0
1
0
Planeta
Gwiazda
1
1
0
0
1
1
0
1
0
1
1
1
Obserwacja
Grawitacja
0
0
1
1
0
1
1
0
0
1
0
0
Nadprzestrzeń
Czarna dziura
0
0
0
1
1
0
1
0
0
1
0
0
Kowboj
Kosmos
Blaster
1
0
0
0
1
0
0
0
0
0
0
1
1
0
0
1
1
0
1
0
0
0
0
0
0
0
1
1
0
1
0
1
0
0
0
0
0
0
0
1
0
0
0
1
1
1
0
0
1
1
0
0
0
1
0
1
1
0
1
0
0
1
1
0
0
0
0
0
1
0
0
0
0
0
0
1
0
1
1
0
0
1
1
1
A
C
C
B
A
B
A
B
C
B
C
A
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0
0 0,25 0 0,5 0,33
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33
0
0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33
A - SF
B – Astronomia
C - Western
A
B
C
Klasyfikacja dokumentów
Naiwny klasyfikator Bayesowski
Teleskop
Rewolwerowiec
Podróż
Planeta
Obserwacja
Nadprzestrzeń
Kowboj
Kosmos
Indianie
Gwiazda
Grawitacja
Czarna dziura
Blaster
Pr(C / x) 
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0
0 0,25 0 0,5 0,33
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33
0
0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33
0
1
1
1
0
1
0
1
0
0
1
0
A
B
C
 Pr(x
j
/ C )  Pr(C )
j
Pr(x)
A - SF
B – Astronomia
C - Western
0
Pr(A/x)=((1-0,75)*0,5*0,25*0,75*(1-0)*0,75*(1-0,25)*0,75*(1-0)*(1-0)*0,25*
(1-0)*(1-0,5))*0,33 / Pr(x) = 0,00041 / Pr(x)
Pr(B/x)=((1-0)*0,5*0,75*0,75*(1-0)*0,75*(1-0)*0,25*(1-0,75)*(1-0,75)*0,5*(1-0)*
(1-0,75))*0,33 / Pr(x) = 0,00014 / Pr(x)
Pr(C/x)=0*0,33 / Pr(x) = 0 / Pr(x)
Pr(x) = 0,00041+0,00014+0 = 0,00055
Pr(A/x)=0,75
Pr(B/x)=0,25
Pr(C/x)=0
Klasyfikacja dokumentów
Naiwny Bayes – praktyczne korekty
• Wygładzenie prawdopodobieństw
– Normalnie prawdopodobieństwa liczone są jako częstości
Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C).
– Jednakże takie oszacowanie może być silnie obciążone dla małych prób, a
zwłaszcza w przypadku termów o niskiej częstości dokumentu df.
– Jeśli rzadki term t nie występuje akurat w zbiorze dokumentów
treningowych, to Pr(t=1/C) = 0. Jeśli wystąpi on następnie w opisie
dokumentu , to Pr(C/x) = 0 dla każdej klasy niezależnie od innych termów
(bo mnożenie przez 0 daje 0).
– Dlatego aby uwzględnić kwestię występowania rzadkich termów, zazwyczaj
stosuje się tzw. wygładzanie Laplace’a oszacowań prawdopodobieństw:
Pr(xj=1/C) = (liczba_dok(xj=1, C) +1) / (liczba_dok(C)+k).
gdzie k jest liczbą kategorii wartości cechy xj (dla binarnych k=2).
• Mnożenie prawdopodobieństw, które są małymi liczbami (między 0 i 1)
może skutkować błędami zmiennopozycyjnymi.
– Podstawą klasyfikacji może być również log(Pr(C/x)), co pozwala zastąpić
tę operację sumowaniem logarytmów prawdopodobieństw log(Pr(xj=1/C)).
Klasyfikacja dokumentów
Inne typy modeli klasyfikacyjnych
• Klasyfikatory logiczne (drzewa (reguły) decyzyjne)
–
–
–
–
Wewnętrzne węzły odpowiadają poszczególnym termom.
Gałęzie odpowiadają różnym wartościom wag termów (zazwyczaj binarne).
Liście odpowiadają kategoriom.
Uzyskiwane zazwyczaj na drodze uczenia indukcyjnego drzew (np.
algorytm C4.5).
• Sieci neuronowe.
–
–
–
–
Liniowe sieci perceptronowe.
Warstwowe perceptrony (MLP).
Sieci o bazie radialnej (RBF).
Support Vector Machines (SVM).
Klasyfikacja dokumentów
Klasyfikatory liniowe i nieliniowe
• Klasyfikatory liniowe
–
–
–
–
Naiwny Bayes,
Rocchio,
Liniowe perceptrony,
Liniowe SVM
• Klasyfikatory nieliniowe
– kNN,
– Drzewa decyzyjne,
– Nieliniowe sieci neuronowe
(MLP, RBF, nieliniowe SVM).
• Klasyfikatory liniowe tekstów radzą sobie zaskakująco dobrze.
– Olbrzymi rozmiar przestrzeni wejściowej, dużo większy niż liczba danych
treningowych – oznacza to, że zawsze istnieją hiperpłaszczyzny
rozdzielające dowolne podzbiory danych dla kategorii.
– Nie znaczy to jednak oczywiście, że hiperpłaszczyzna jest najlepszym
rozwiązaniem.
Klasyfikacja dokumentów
Klasyfikatory liniowe
Znajdź a,b,c, takie że
ax + by  c dla czerwonych
punktów
ax + by  c dla zielonych
punktów.
Klasyfikacja dokumentów
Klasyfikatory liniowe
Generalnie wiele możliwych
rozwiązań dla a,b,c.
Klasyfikacja dokumentów
Support Vector Machines (SVM)
• SVM maksymalizują margines wokół
hiperpłaszczyzny rozdzielającej.
Wektory wspierające
– Dlatego
należą
do
grupy
tzw.
klasyfikatorów dużego marginesu (large
margin classifiers).
• Funkcja decyzyjna jest definiowana przez
podzbiór zbioru treningowego, tzw.
wektory wspierające.
– Wektorami wspierającymi są przykłady
najbliższe hiperpłaszczyzny rozdzielającej
• Określa się je z wykorzystaniem metod
programowania kwadratowego.
• SVM są uważane obecnie za najlepszą
metodę klasyfikacji tekstów.
– Stosuje się również nieliniowe wersje
SVM, wykorzystujące różnego typu
funkcje jądra.
Maksymalizacja
marginesu
Klasyfikacja dokumentów
Porównanie, Reuters (Dumais et al. 1998)
earn
acq
money-fx
grain
crude
trade
interest
ship
wheat
corn
Avg Top 10
Avg All Cat
LinearSVM
Trees
NBayes
Rocchio
98,2%
97,8%
95,9%
92,9%
92,8%
89,7%
87,8%
64,7%
74,0%
66,2%
56,6%
46,7%
92,4%
85,0%
78,8%
67,5%
88,3%
85,0%
79,5%
70,1%
73,5%
72,5%
63,9%
65,1%
76,3%
67,1%
64,9%
63,4%
78,0%
74,2%
85,4%
49,2%
89,7%
92,5%
69,7%
68,9%
91,1%
91,8%
65,3%
48,2%
64,6%
61,7%
81,5%
75,2% na
88,4%
91,4%
86,4%
Klasyfikacja dokumentów
Porównanie, Reuters (Joachims 1998)