Automatisches Clustering und automatische Klassifikaton

Download Report

Transcript Automatisches Clustering und automatische Klassifikaton

Automatisches Clustering und automatische
Klassifikation
Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg
Spree SoSe 2011
http://www.ecm.irislink.com/Documents/Ima
ge/images/Illustrations/classeur.jpg
 Ausgangssituation
ausgangssituation
Folgende 4 Dokumente sollen geclustert werden:
D1 Fische in Olivenöl anbraten und mit Wasser ablöschen
D2 Fische braten und mit Wasser ablöschen
D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des
Aquariums geben
D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter
geben
Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Clustering
indexvektor
Festlegung der Indexterme, die Dokument beschreiben
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1
1
1
0
0
1
D2: 1
1
0
0
0
1
D3: 1
0
0
1
1
1
D4: 1
0
0
1
1
1
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Paarweise Multiplikation der Vektoren (verkürzt)
indexvektor
Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller
Dokumente miteinander ergibt zwei Cluster
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1
1
1
0
0
1
D2: 1
1
0
0
0
1
D3: 1
0
0
1
1
1
D4: 1
0
0
1
1
1
Spree SoSe 2011
Cluster 1 (benenne ich
Intellektuell Kochen)
Cluster 2
(benenne ich
intellektuell
Aquarium)
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Clusterzentroid berechenen
indexvektor
Für die Cluster 1 und 2 lässt sich jetzt der
Clusterzentroid (Mittelwert) berechnen
D1: 1
1
1
0
0
1
D2: 1
1
0
0
0
1
1
D3: 1
1
0
0
0
0
1
0
1
1
1
D4: 1
0
0
1
1
1
1
0
0
1
1
1
Spree SoSe 2011
Zentroidvektor
Cluster 1: Kochen
Zentroidvektor
Cluster 2
Aquarium
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Neues Dokument mit den Zentroidvektoren vergleichen
indexvektor
Welchem Cluster wird das neue Dokument
D5 zugeordnet?
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
1
1
1
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
Zentroidvektor Kochen
1
0
0
1
1
1
0
0
0
0
Spree SoSe 2011
1
1
= 3:6 =0,5
Zuordnung
Vektoren
Paarweise
Mulitplikation mit
den
Zentroidvektoren
der vorhandenen
Cluster
Zentroidvektor
Aquarium
= 2:6 = 0,33
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Neues Dokument wird Cluster Kochen zugeordnet
indexvektor
Welchem Cluster wird das neue Dokument
D5 zugeordnet?
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
1
1
1
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
Spree SoSe 2011
Zuordnung
Vektoren
= 3:6 = 0,5
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Automatische Zuordnung zu einer Klassifikation
Automatische klassifikation
1.
Merkmale eine Klassifikation werden festgelegt
•
•
Merkmale können einer Klasse zugeordnete
Wörter sein
In einer Klassifikation für Pressartikel IPTC
wird die Klasse Freizeit durch die Terme
Reisen, Spiel, Hobby, Wohnen definiert
1.
Das Vorkommen bestimmter Terme im Dokument wird
mit dem Vorkommen dieser Terme in der MerkmalsBeschreibung der Klassen verglichen.
1.
Dies kann über die Bildung von Skalarprodukten
zwischen den Dokumentvektoren (bestimmt über die
Deskriptoren) und den Vektoren der Klassen (bestimmt
über die Klassenbeschreibungen) geschehen.
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Automatische Zuordnung zu einer Klassifikation
beispiel
Wie kann ein Programm automatisch erkennen, ob es sich bei
diesen beiden Mails um Spam handelt?
Mail a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu
wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra
nach.
Mail b
Hi,
Today we announce the selling of our new Viagra pills that allow you
to enjoy Sex again. Order now
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Automatische Zuordnung zu einer Klassifikation
ausgangssituation
Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage
Klasse/
SPAM
Attribut
Kein Spam
Viagra
Sehr geehrte
Sex
Hochachtungsvoll
selling
wissenschaftlich
buy
Hausarbeit
pills
Referat
Merkmale der
Klassen
Dok a
Dok b
Sehr geehrte Frau Spree,
Hi,
Hiermit reiche ich Ihnen meine
Hausarbeit über das Referat zu
wissenschaftlichen Erkenntnissen
zur Wirkungsweise von Viagra nach.
Today we announce the selling of
our new Viagra pills that allow you
to enjoy Sex again.
13.04.2015
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
 Automatische Zuordnung zu einer Klassifikation
ausgangssituation
Darstellung der Klassen und der Dokumente
als Vektoren und Ermittlung der
Ähnlichkeit durch Bildung des Skalarproduktes
SPAM
a
b
Kein SPAM
a
b
Viagra
1
1
Sehr geehrte
1
0
sex
0
1
Hochachtungsvoll
0
0
selling
0
1
wissenschaftliche
1
0
buy
0
0
Hausarbeit
1
0
pills
0
1
Referat
1
0
Skalarprodukt:
Klasse/Dok
1/5
4/5
Dok a
Sehr geehrte Frau Spree,
4/5 0
Dok b
Hi,Today we announce the selling
of our new Viagra pills that allow
you to enjoy Sex again.
Hiermit reiche ich Ihnen meine Hausarbeit
über das Referat zu wissenschaftlichen
13.04.2015 zur Wirkungsweise von
Erkenntnissen
Viagra
nach.
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004
Spree SoSe
2011
 Automatische Zuordnung zu einer Klassifikation
ausgangssituation als Vektoren und Ermittlung der
Darstellung der Klassen und der Dokumente
Ähnlichkeit durch Bildung des Skalarproduktes
SPAM
a
b
Kein SPAM
a
b
Viagra
1
1
Sehr geehrte
1
0
sex
0
1
Hochachtungsvoll
0
0
selling
0
1
wissenschaftliche
1
0
buy
0
0
Hausarbeit
1
0
pills
0
1
Referat
1
0
Skalarprodukt:
Klasse/Dok
1/5
4/5
4/5
0
Mail a ist :
Mail b:
= 20% Spam
= 0% kein Spam
= 80% kein Spam
= 80% Spam
 Einordnung kein Spam
Einordnung Spam
Spree SoSe 2011
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004