A-Kurs Skript

Download Report

Transcript A-Kurs Skript

Content Management
Systeme
Content Management Systeme
1
Rückblick
Content Management Systeme
2
Inhalt Vorlesung
• CMS Einleitung / Definition / Motivation
• Web-Content Management Systeme
(WCMS)
• Information Retrieval
• Dokumentenmanagementsysteme (DMS)
• Resource Description Framework (RDF)
• Topic Maps
• Dokumentenbeschreibungssprachen (XML
etc.)
Content Management Systeme
3
Inhalt heute
•
•
•
•
•
•
•
•
•
Rückblick
WCMS Systemarchitektur
Datenstrukturen für WCMS
(W)CM-Systeme
OpenCms
(W)CM-Organisation
Portale
EIP
Information Retrieval
Content Management Systeme
4
Rückblick
•
•
•
•
CMS Einleitung / Definition / Motivation
Abgrenzung zu Datenmanagement
Unternehmenssituation
Integrationsproblematik
– Cross Media Publishing (Single Source)
– Unterschiedliche Dokumentformate
– Unterschiedliche Dokumenttypen
– Informationsräume
Content Management Systeme
5
Rückblick
• WCMS
– Definition
– Trennung von Struktur / Content / Layout /
Funktion
– Einsatzkriterien
– Funktionen
• Content-Lebenszyklus
• Vergleich von Hypermedia- und
Papierdokumenten (Persistenz / sequentiell)
• Mengensatz / Akzidenzsatz
Content Management Systeme
6
(W)CMS
Getrennte Aspekte
Struktur
Hierarchie
Klassifikation
„Daten“
Templates
Inhalt
Layout
Content Management Systeme
7
Content Lebenzyklus
Contentreduzierung
• Archivierung
• Löschung
Contentnutzung
• Interpretieren
• Anwenden
• Bewerten
• Kommentieren
• Visualisieren
Contentgenerierung
• Identifizieren
• Sammeln
• Erzeugen
• Erfassen
• Erstellen
Content
Management
Contentdistribution
• Suchen
• Wissensfluss
• Logistik
Contentorganisation
• Strukturieren
• Indexieren
• Filtern
• Speichern
• Verwalten
Contentaufbereitung
• Verdichten / Integration
• Verfeinerung
• Erweiterung
• Kontext Erzeugung
• Redaktion
Content Management Systeme
8
WCMS - Systemarchitektur
Content Management Systeme
9
WCMS Systemarchitektur
Web-Server
Medienneutralität
CMSBerechtigungsverwaltung
Engine
MehrfachverwertungAnforderungen
Site-Management
Mehrsprachigkeit
DBTerminierung
Schema
Objekttypen
Struktur
Templates
Content
Funktionen
Import
DateiSystem
Export
DB
DMS
Legacy-Systeme
Content Management Systeme
10
WCMS Nutzung
Endnutzer
Browser
Web-Server
Handy
CMSEngine
Import
etc.
Print
DBSchema
DateiSystem
Export
DB
Legacy-Systeme
Content Management Systeme
11
WCMS Pflege
Editor / Administrator
Browser
Editor
Web-Server
Client
CMSEngine
Import
ODBC
DBSchema
DateiSystem
Export
DB
Legacy-Systeme
Content Management Systeme
12
WCMS Pflege
Über Browser
• Mittels Webformularen
• Richtext-Editoren (eventuell mit
Einschränkungen)
• Workflow
Content Management Systeme
13
WCMS Replikation
Web-Server
EntwicklungsCMSsystem
Produktivsystem
Web-Server
CMSEngine
Engine
Import
Import
DBSchema
DB
DateiSystem
Replikation
DBSchema
DateiSystem
Export
DB
Legacy-Systeme
Content Management Systeme
14
Datenmodell für DB
Benutzer
Editor
n
von4
n von3
m
n von2 m
Schlagwort
Content
m
Web-Site
n
von
m
Web-Seite
n
n
von5 1
m
link
1
von
n
von1
n
1
Version
Templates
t
Text
Grafiken
Video
Content Management Systeme
Audio
15
(W)CM Organisation
Gesamtkoordination
Verantwortlicher
Internet /
Holding
Verantwortlicher
Intranet /
Holding
Verantwortlicher
Extranet /
Holding
Verantwortlicher
Verantwortlicher
Internet /
Töchter
Verantwortlicher
Intranet /
Töchter
Koordination
Verantwortlicher
Extranet /
Töchter
Teamroom Verantwortlicher
Teamrom /
Verantwortlicher
DMS
Holding
Töchter
Content Management Systeme
16
(W)CM Organisation
Beispiel Internet Tochter
Leitung
Fachbereiche
Personal
Marketing
Vertrieb 1
Vertrieb 2
Verantwortlicher / Editoren
Informatik
Verantwortlicher / Editoren
Entwicklung
Verantwortlicher / Editoren
Koordination
Verantwortlicher / Editoren
Unternehmenskommunikation
etc.
Teamleitung
Verantwortlicher / Editoren
Betrieb
Ausbildung
WCMS
Content Management Systeme
17
CMS Systeme
•
•
•
•
•
•
•
Vignette Content Management Server
Obtree (Obtree Technologies)
Bladerunner (Broadvision)
VIPContentManager (Gaus Interprise AG)
Teamsite (Interwoven)
Pirobase (Pironet NDH AG)
Hyperwave Information Server (Hyperwave
AG)
• Hyper.Net (Coextant-Systems) (Lotus Notes)
Content Management Systeme
18
OpenCms
• Open Source CMS
• http://www.opencms.com
• Voll browserbasiert (Netscape 6.2 (ohne
WYSIWYG) / MS IE 5.5 mit WYSIWYG)
• benötigt
– einen Servlet Container (z.B.: Tomcat 4.x)
– Datenbank (MySQL, Oracle)
• komplett in Java realisiert
• Templates werden als XML Files gespeichert
Content Management Systeme
19
OpenCms
Features
• Templates (strikte Trennung von Content und
Layout)
• Dynamisches und statisches Publishing
• Galerie für Grafiken und Files
• Benutzermanagement / Zugriffsrechte
• Projektbasiertes Publizieren
• Workflow- und Task-Management
• Mehrsprachigkeit
Content Management Systeme
20
OpenCms
Features
• WYSIWYG-Editor für MS-Internet Explorer
• Personalisierbarkeit (mit Registrierung / Extranet,
Newsletter Mails)
• Integrationsunterstützung mit Umsystemen
• Versionierung (alte Versionen werden aufbewahrt,
Änderungen sind nachvollziehbar)
• Synchronisationsmechanismus für ausgelagerte
Seiten im File-System.
• Verfügbares Hilfesystem
Content Management Systeme
21
OpenCms
Features
•
•
•
•
•
•
•
•
SSL-Support (https)
Import / Export von Content (ZIP-File)
Application Server Integration (J2EE/EJB)
PDF / WAP Support (mittels spezieller Templates
bzw. Java-Libraries)
Suchmaschine
Load Balancing
Wahl zwischen Frame-Layout und nicht FrameLayout
Metainformationen (u.a.: Indexierung für
Suchmaschinen)
Content Management Systeme
22
Portale
Content Management Systeme
23
Portale
Funktionen
• Single Point of Access
Zugriff auf alle Daten, Informationen und
Applikationen über einen Client und einen
Einstiegsbildschirm.
• Single Sign on
Nur einmalige Anmeldung am Portal für alle
beteiligten Anwendungssysteme
• Personalisierungsmöglichkeit der
Einstiegsseite und der Navigationsstruktur
Content Management Systeme
24
Portale
Funktionen
• Bedienung unterschiedlicher Ausgabegeräte
• Katalog (Navigation / Hyperlinks)
• Suchmaschine
• Kontextualisierung der Suchergebnisse
• Zugriff auf interne und externe Systeme
• Aktuelle Nachrichten
• Push-Funktion
Content Management Systeme
25
Portale
Horizontale Portale
• sind für alle Nutzer gleich
• Suchmaschinen für spezielle Themen
Vertikale Portale
• Sind für durch jeden Nutzer personalisierbar
• Erfordern Anmeldung / Identifikation des
Nutzers
Content Management Systeme
26
Personalisierung
• Technisch (unterschiedliche
Ausgabegeräte auch Browser)
• wirtschaftliche Zielgruppen (Technik:
Benutzermodell)
– unterschiedliche Inhalte
– unterschiedliches Layout
– unterschiedliche Struktur
– unterschiedliche Werbung
• Personalisierbarkeit (von jedem selbst)
Content Management Systeme
27
Portale
Ziele
• Arbeitsqualität verbessern durch Verbesserung der
Qualität der Benutzerarbeitsplätze (mehr
Transparenz, mehr Interoperabilität))
• Informationsversorgung verbessern
• Informatikkosten einsparen (mittel- bis langfristig)
– Systembetrieb effizienter gestalten
– Lizenzkosten einsparen
– Niedrigere Ausbildungskosten
• Partnerfähigkeit / Flexibilität erhöhen
Content Management Systeme
28
Portale
Relevante Aspekte
• Mehrere Sprachversionen
• Zugriff von überall (Ortsunabhängigkeit)
• Zugriff nur für Berechtigte
• Sicherheitsfunktionen
Content Management Systeme
29
EIP
Enterprise Information Portals (EIP)
bieten Zugriff über eine Startseite eines CLIENT
auf alle
• Dokumente
• Prozesse
• Applikationen
• Daten
eines Unternehmens und auf
• externe Informationen und Anwendungen
Content Management Systeme
30
EIP
Enterprise Information Portals (EIP)
bieten einheitlichen Zugriff auf alle Systeme:
•
•
•
•
•
•
•
•
ERP-Systeme
Workflow-Systeme
Transaktionssysteme
Datenbanksysteme
DMS
Groupware
DataWarehouse
Business Intelligence
Content Management Systeme
31
EIP
Enterprise Information Portals (EIP)
= Intranet
bieten:
• Single Sign on (log on)
• Personalisierung / Filterung relevanter Informationen
• Einbindung unterschiedlicher (aller)
Anwendungssysteme in eine Oberfläche
• Felxibilität hinsichtlich der Ausgabegeräte
• Push-Funktion
Content Management Systeme
32
Information Retrieval
Content Management Systeme
33
Themen
• Einleitung / Definition
• IR Bewertungskriterien von IR-Systemen
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
34
Einleitung
Content Management Systeme
35
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
36
Information Retrieval
Definition
• IR ist ein wissenschaftliches Fachgebiet
• Information Retrieval (IR) beschäftigt
sich mit Repräsentation , Speicherung
und dem Zugriff von bzw. auf
Dokumente(n) bzw. deren Surrogate
• to retrieve:
wieder bekommen, wieder herstellen
Content Management Systeme
37
Information Retrieval
IR beschäftigt sich auch mit:
• Konzeption, Bewertung von IRSystemen
• Betrachtet reale IR-Systeme
• Entwickelt neue IR-Systeme
• Informationsmarkt (wirtschaftliche
Verwertung / Anwendung von IRSystemen)
Content Management Systeme
38
Information Retrieval
• Inhaltserschliessung
– Vergabe von Metainformationen /
Verschlagwortung / Indexierung)
– Aufbau von Thesauri
– Klassifikation, Clusterung
sind Voraussetzung für das Wiederfinden
• Suchtechniken (Anfragesprachen)
–
–
–
–
Retrievalsprachen
Reihenfolge der Ergebnisse
Relevance-Feedback-Verfahren
Browsing entlang Hyperlinks
Content Management Systeme
39
Information Retrieval
Inhaltserschliessung
und
Suchtechniken
müssen
aufeinander abgestimmt sein!!!
Content Management Systeme
40
IR- Suche
• eine Suchanfrage wird mit einer Menge
von Dokumenten durch einen
Abgleichmechanismus (Matching)
abgeglichen, der die relevanten
Dokumente selektiert.
• Um die Suche zu beschleunigen, wird
ein Index angelegt, mittels dem auf die
Dokumente referenziert wird.
Content Management Systeme
41
IR-Systeme
Bekannte Beispiele
• Internet-Portale / Suchmaschinen
• Bibliothekssysteme (z.B. Web Pac)
– http://www.ba-loerrach.de/bal_bibli.html
– http://www.ub.uni-konstanz.de/
• Online-Datenbanken
(häufig Referenzretrieval
(z.B. wissenschaftliche Artikel))
Content Management Systeme
42
Information Retrieval
Benutzer
Informationsbedürfnis
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
IR-Modell
•Anfragesprache
Geordnete
Ergebnisliste
von
Dokumenten
IR-System
•Index
•Dokument
repräsentation
Dokumentenbehälter
Content Management Systeme
43
Information Retrieval
Benutzer
Informationsbedürfnis
Formulierung in natürlicher Sprache
Formulierung in formaler Sprache
Geordnete
Ergebnisliste
von
Dokumenten
Browsing /
Navigation
entlang von
Hyperlinks
Katalog
IR-System
Dokumentenbehälter
Content Management Systeme
44
Informationsbedüfnis
Typen
• Ich möchte eine Antwort auf folgende Frage
... ( Faktenretrieval (SQL))
• Ich suche Informationen zum Thema ...
( Dokumentretrieval)
• Ich interessiere mich für folgendes Gebiet ...
( Dokumentretrieval)
• Ich möchte folgendes Problem besser
verstehen ...
( Dokumentretrieval / Hypermedia /
Browsing / Navigation)
Content Management Systeme
45
IR-Systeme
System-Funktionen
Suche:
Suchanfrage z.B. einzelne Suchbegriffe
Ergebnis:
geordnete Liste von Dokumenten bzw.
Verweise auf Dokumente
Content Management Systeme
46
IR-Systeme
Mögliche Ordnungskriterien für die
Anzeige:
• Relevanz für Suchanfrage
• Aktualität des Dokumentes
• wirtschaftliche Vereinbarungen mit
Geschäftspartnern
• Ähnlichkeit mit Profil des Anfragenden
• Umfang des Dokumentes
Content Management Systeme
47
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
48
IR Bewertungskriterien
Content Management Systeme
49
IR Bewertungskriterien
• Recall
• Precision
• Aufwand zur Formulierung einer
Anfrage
• Antwortzeit des Retrieval-Systems
• Präsentation der Ergebnisse
• Abdeckung der Datenbank
Content Management Systeme
50
IR Bewertungskriterien
• hoher RECALL
• möglichst alle relevanten Informationen
werden gefunden
• hohe PRECISION
• möglichst wenig nicht relevante
Informationen werden gefunden
Content Management Systeme
51
IR Bewertungskriterien
Recall
Recall = GRD / RDD
GRD = Anzahl der gefundenen relevanten
Dokumente
RDD = Anzahl der relevanten Dokumente der
Datenbank
Content Management Systeme
52
IR Bewertungskriterien
Precision
Precision = GRD / GD
GRD = Anzahl der gefundenen relevanten
Dokumente
GD = Anzahl der gefundenen Dokumente
Content Management Systeme
53
IR Bewertungskriterien
Fallout Ratio
Fallout Ratio = GID / IDD
GID = Anzahl der gefundenen irrelevanten
Dokumente
IDD = Anzahl der irrelevanten Dokumente in
der Datenbank
Content Management Systeme
54
IR Bewertungskriterien
Beispiel
sonstige Dokumente= 100
gefundene Dokumente
Relevante Dokumente
GD= 10
GRD = 4
RDD=12
Recall = 4/12 = 1/3
Precision = 4/10 = 2/5
Fallout-Ratio = 6/106 = 3/53
GID=6
IDD=106
gefundene relevante Dokumente
Content Management Systeme
55
IR Bewertungskriterien
• Die drei Bewertungskriterien müssen
zusammen betrachtet (optimiert)
werden!
Ein IR-System ist umso besser
• je grösser Recall und Precision sind
• je kleiner die Fall-Out-Ratio ist
für alle Anfragen
Content Management Systeme
56
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
57
IR Allgemeines Modell
• IR Modell = (D, S, V, R)
wobei
• D Menge aller betrachteten Dokumente
(gegeben durch spezielle Beschreibungen)
• S ist die Menge aller möglichen Suchfragen
gegeben durch spezielle Beschreibungen in
einer Dokumentationssprache (Schlagworte)
• V ist eine geordnete Menge (Zahlen)
• R: D x S  V ist eine Retrievalfunktion
Content Management Systeme
58
IR Allgemeines Modell
• Jedes d  D wird häufig durch eine Menge
von Schlagworten beschrieben
• Jedes s  S wird häufig durch eine Menge
von Schlagworten definiert (die eventuell
noch zusätzlich speziell kombiniert werden).
• V ist meist eine der folgenden 3 Mengen:
• {0,1}, [0,1], [0,]
• R: D x S  V ermöglicht nur dann eine an
der Relevanz orientierte Ausgabereihenfolge,
der Suchergebnisse, wenn V geordnete
Menge ist.
Content Management Systeme
59
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
60
Boolesches
Retrieval
Content Management Systeme
61
Boolesches Retrieval
Logische Operatoren (verknüpfen Suchbegriffe)
es werden jeweils an Dokumenten gefunden bei:
OR
• alle Dokumente die einen der Suchbegriffe
enthalten
AND
• alle Dokumente die beide Suchbegriffe enthalten
NOT
• alle Dokumente, die den Suchbegriff nicht
enthalten
Content Management Systeme
62
Boolesches Retrieval
• T sei eine Menge von Termen
(Deskriptoren / Schlagworten)
• Ein Dokument d  D wird beschrieben
durch eine Menge von Termen:
• d = {t1, ... , tn}  T
Content Management Systeme
63
Boolesches Retrieval
S wird folgendermassen definiert:
• aT
dann
aS
• a, b  S
dann
(a AND b)  S
• a, b  S
dann
(a OR b)  S
• aS
dann
(NOT a  S)
V = {0, 1}
Content Management Systeme
64
Boolesches Retrieval
Retrievalfunktion R:
• Für d  D und s  T, s1, s2  S gilt:
– R(d,s) = 1, wenn s  d
– R(d,s) = 0, wenn s  d
• R(d,s1  s2) = min( R(d, s1), R(d, s2))
• R(d,s1  s2) = max( R(d, s1), R(d, s2))
• R(d, s) = 1 – R(d,s)
Content Management Systeme
65
Boolesches Retrieval
Retrievalfunktion R
dabei bedeutet:
• R(d,s) = 1
Dokument d wird gefunden
• R(d,s) = 0
Dokument d wird nicht gefunden
Content Management Systeme
66
Boolesches Retrieval
Beispiel
•
•
•
•
•
•
•
•
•
T = {a,b,c,d,e}
d‘ = {a,b,e}
s = ((a  b)  (( c)  d))
R(d‘,s) = R(d‘, ((a  b)  (( c)  d)))
= max(R(d‘, (a  b)), R(d‘, (( c)  d)))
= max(min(R(d‘,a),R(d‘,b)), min(R(d‘,( c)), R(d‘,d)))
=max(min(1,1), min(1-R(d‘,c), 0)
=max(1, 0)
=1
Content Management Systeme
67
Erweiterungsmöglichkeiten
des Booleschen Retrievals
Content Management Systeme
68
Suchanfragen
Möglichkeiten
•
•
•
•
•
Felder in Dokumenten berücksichtigen
Feldselektion (CT = Zement, Zement/TI)
Vergleichsoperatoren
(=, <, >, <=, >=)
Maskierung/ Trunkierung (Information$)
Abstandsoperatoren (ADJ, WITH, SAME,
W3)
(direkt , im gleichen Satz, im gleichen
Paragraph, höchstens 3 Wörter auseinander)
Content Management Systeme
69
Feldselektion
Beispiele
• FIND Information/TI
• FIND CT=Information
• F Economics (TI; AB)
• FIND Economics (TI) AND Information/AB
Content Management Systeme
70
Boolesche Anfragen
Beispiele
• FIND Information
• FIND Electronic Mail AND FAX
• F CT=Biology
• FIND (Internet OR CompuServe) AND
Commerce
Content Management Systeme
71
Maskierung/Trunkierung
Beispiele
• FIND Econom$
• FIND $$System$
• F Inf$$$$tion
Content Management Systeme
72
Abstandsoperatoren
Beispiele
• F Inter$ SAME Commerce
(im gleichen Paragraphen)
• F Internet WITH Information
(im gleichen Satz)
• F Internet ADJ Service
(direkt hintereinander)
Content Management Systeme
73
Abstandsoperatoren
Abstands-Operatoren
ADJ (ADJacency-Operator)
Suchbegriffe müssen in der angegebenen
Reihenfolge direkt aufeinanderfolgen
WITH
Suchbegriffe müssen in einem Satz auftreten
SAME
Suchbegriffe müssen in einem Absatz enthalten sein
Content Management Systeme
74
Abstandsoperatoren
Abstands-Operatoren
NEXT
Zwischen den Suchbegriffen dürfen maximal 5
Wörter stehen, wobei die Reihenfolge relevant ist
NEAR
Zwischen den Suchbegriffen dürfen maximal 5
Wörter stehen, wobei die Reihenfolge nicht relevant
ist
(W3)
Zwischen den Suchbegriffen darf ein Abstand von
höchstens 3 Wörtern bestehen
Content Management Systeme
75
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
76
Vektor-Modell
Content Management Systeme
77
Vektor-Modell
• Mit dem Vektor-Modell kann man das
Retrieval mit gewichteten oder nicht
gewichteten Termzuordnungen zu
Dokumenten und zu Suchanfragen
beschreiben.
• Ferner lassen sich damit die Dokumente
bezüglich jeder Suchanfrage in eine
Reihenfolge hinsichtlich ihrer Relevanz für die
Suchanfrage bringen.
Content Management Systeme
78
Vektor-Modell
Jedes Dokument wird durch einen Dokumentvektor
beschrieben.
• m = Anzahl der Terme / Schlagwörter
• T = {t1, ..., tm} die Menge der Terme
• D = {D1, ... Dn} die Menge der Dokumente
• 0 < aij = Gewicht von Schlagwort tj in Dokument Di
Im Booleschen Retrieval gilt:
• aij = 0 oder aij = 1
• Di = (ai1 , ..., ajm ) ist Dokumentvektor
Content Management Systeme
79
Suchanfrage
Suchanfragen s
sind ähnlich aufgebaut wie Dokumentvektoren
• S = {(t1, ... , tm) | ti = 0 oder ti = 1, i = 1,...,m}
• sei s  S
• M • s = (l1, ... , ln) (Matrix M • Vektor s)
• li =  aij • ti (j=1...m)
• (M = (aij) ist heisst Dokument-Term-Matrix)
Content Management Systeme
80
IR mit Ähnlichkeitsmaßen
• S wird wie die Dokumentenmenge definiert
d.h.: S = D.
• V = [0,]
• R (Retrievalfunktion) wird mit Hilfe von
Ähnlichkeitsmaßen definiert.
Content Management Systeme
81
IR mit Ähnlichkeitsmaßen
R wird mit Hilfe von Ähnlichkeitsmaßen
definiert:
sei d = (a1, ... , am) eine Dokumentbeschreibung
s = (s1, ... , sm) eine Suchfragenbeschreibung
Ähnlichkeitsmaße
• Innere Produktmaß =  ak • sk
• Tanimotomaß
• Cosinusmaß
Content Management Systeme
(k = 1,... m)
82
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
83
Dokument-Term-Matrix
Content Management Systeme
84
Dokument-Term-Matrix
ermöglicht:
• einheitliche Behandlung vieler
Retrievalmodelle (Matching von
Anfragen und Dokumenten)
• Anwendung von automatischen Clusterund Klassifikationsverfahren
– auf die Menge der Dokumente
– auf die Menge der Terme (Schlagworte)
Content Management Systeme
85
Klassifikation / Clustering
Abgrenzung / Definition
Klassifikation
• Sinnvolle Einordnung von Objekten in
vorgegebene Klassen
Clustering
• Aufbau von Klassen aus einer
Grundgesamtheit von Objekten, zwischen
denen eine Ähnlichkeitsbeziehung besteht
Content Management Systeme
86
Dokument-Term-Matrix
Mit 0/1 Werten
• Dokumente: D = {D1, ..., Dn}
• Terme:
T = {t1, ...,tm}
• Martix (aij) i = 1, ..., n, j = 1, ..., m
• aij = 1  Term j ist Schlagwort für Di
• aij = 0  Term j ist nicht Schlagwort für Di
• Dokumentvektor Di = (ai1, ...,aim)
• Termvektor tj = (a1j, ...,anj)
Content Management Systeme
87
Dokument-Term-Matrix
Mit Ähnlichkeitsmassen
• Dokumente: D = {D1, ..., Dn}
• Terme:
T = {t1, ...,tm}
• Martix (aij) i = 1, ..., n, j = 1, ..., m
• aij  [0,)  Term tj ist Schlagwort für Di mit
Gewichtung aij
• Dokumentvektor Di = (ai1, ...,aim)
• Termvektor tj = (a1j, ...,anj)
Content Management Systeme
88
Dokument-Term-Matrix
Dokumente
Terme
1
j
m
1 010000100000000011110101
111010000000010000100010
M=
aij
i
n
Mit 0/1-Werten
Content Management Systeme
89
Dokument-Term-Matrix
Dokumente
Terme
1
j
m
1 060000800000000073210305
4 16 0 6 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 9 0
M=
i
aij
n
Mit Ähnlichkeitsmaßen
Content Management Systeme
90
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
91
IR Methoden
Inhaltserschliessung
• manuelle Inhaltserschliessung
• automatische Inhaltserschliessung
–
–
–
–
–
–
–
reines Volltextretrieval
(Automatisches) Indexing
(Automatisches) Abstracting
(Automatisches) Klassifikation
(Automatisches) Clustering
mit manuell erzeugtem kontrolliertem Vokabular
mit automatisch erzeugtem kontrolliertem
Vokabular
– mit Abstandsoperatoren / Trunkierung
– mit Gewichten oder nur {0,1} als Werte
Content Management Systeme
92
IR Methoden
Suchtechniken
•
•
•
•
•
•
•
•
Browsing
Boolesche Suche
mit Trunkierung
mit Feldeinschränkung
mit Vergleichsoperatoren
mit Abstandsopertoren
Suche mit gewichteten Suchtermen
Relevance-Feedback-Verfahren
Content Management Systeme
93
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
94
IR mit relationalen
Datenbanken
Content Management Systeme
95
IR mit relationalen DBen
Volltext Retrieval
W_ID
Wort
Wörter
Doc_ID
n
in
Content Management Systeme
m
Dokument
Dokumente
96
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste
W_ID
Wort
Wörter
Doc_ID
n
in
m
Dokument
Dokumente
Stoppwörter
Content Management Systeme
97
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste
und Häufigkeit
W_ID
Wort
Wörter
Stoppwörter
Doc_ID
n
in
m
Dokument
Dokumente
Häufigkeit
Content Management Systeme
98
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste,
Häufigkeit und Stelle Stelle
W_ID
Stelle
Wort
Doc_ID
n
Wörter
m
Dokumente
in
n
Stoppwörter
Document
m
Häufigkeit
Content Management Systeme
99
IR mit relationalen DBen
Retrieval mit kontolliertem Vokabular (Thesaurus),
Synonymen,
Stelle
Häufigkeit und Stelle
W_ID
Stelle
Wort
Doc_ID
n
Schlagwörter
1
gehört
zu
Document
m
Dokumente
charak
terisiert
n
m
Häufigkeit
n
Synonyme
Content Management Systeme
100
IR mit relationalen DBen
Retrieval mit Thesaurus, Häufigkeit,
Stelle Synonymen
und Abstandsoperatoren
Stellen
W_ID
Doc_ID
Dokumente
m
Stelle
Wort
n
Schlagwörter
1
gehört
zu
n
Synonyme
Document
Kapitel
charakteri
siert
Absatz
1
Häufigkeit
gehört
zu2
n
n
m
Content Management Systeme
Satz
101
IR mit relationalen DBen
Retrieval mit Thesaurus, Gewicht,
Stelle Synonymen
und Abstandsoperatoren
Stellen
W_ID
Doc_ID
Dokumente
m
Stelle
Wort
n
Schlagwörter
1
gehört
zu
n
Synonyme
Document
Kapitel
charakteri
siert
Absatz
1
Gewicht
gehört
zu2
n
n
m
Content Management Systeme
Satz
102
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
103
Indexierung
Content Management Systeme
104
Manuelle
Indexierung
Content Management Systeme
105
Manuelle Indexierung
erfolgt durch Menschen (Bibliothekare etc.)
• Zuordnung von Schlagworten (Deskriptoren /
Termen) zu einem Dokument, um ein
Dokument thematisch zu beschreiben, damit
es später darüber gefunden werden kann.
• Erfolgt häufig auf der Basis eines
kontrollierten Vokabulars (Thesaurus)
• häufig erfolgt zusätzlich eine Klassifikation
auf der Basis eines vorgegebenen
Klassifikationsschemas
Content Management Systeme
106
Schlagworte
• Ein Schlagwort ist ein Wort, das den
Dokumentinhalt thematisch charakterisiert
• Schlagwörter sollten meist Substantive im
Nominativ und im Singular sein
• Sie dienen dazu Dokumente zu selektieren
• Schlagworte, die alle Dokumente
charakterisieren sind deshalb nutzlos
• Die Relevanz von Schlagworten zur
Beschreibung von Dokumenten kann
unterschiedlich gross sein
Content Management Systeme
107
Thesaurus
• einfaches semantisches Netz
• Relationen
– Oberbegriff
(BT Broader Term)
– Unterbegriff (NT Narrower term)
– Synonyme / Homonyme (durch Kontextangabe)
– RT Related Terms
• häufig ohne Hyperlinks für manuelle Nutzung, nicht
für automatische Nutzung realisiert
Beispiele:
• http://de.dir.yahoo.com/Nachschlagewerke/thesauri/
Content Management Systeme
108
Signifikanzfaktoren
zur Selektion relevanter Deskriptoren:
• Manuelle Bestimmung einer
Stoppwortliste: (der, die, das, ein, etc.)
• Nur Substantive (Nominativ, Singular)
• Automatisches Verfahren bezüglich
Häufigkeit von Deskriptoren in
Dokumentkollektionen.
Content Management Systeme
109
Signifikanzfaktoren
•
•
•
•
FREQi,k
Häufigkeit von Term tk in Dokument Di
TOTFREQk
Häufigkeit von Term tk in allen Dokumenten Di
(i= 1... n)
(Summe der FREQi,k über alle i)
• Verwende alle Terme tk mit
Untergrenze < TOTFREQk < Obergrenze
als Deskriptoren
Content Management Systeme
110
Automatische
Indexierung
Content Management Systeme
111
Automatische Indexierung
Ziel
• Automatische Ermittlung der besten
Schlagworte für jedes Dokument einer
betrachteten Dokumentkollektion
• Automatische Ermittlung von Gewichten
(WEIGHTs) , mit denen die
vorkommenden Schlagworte den
einzelnen Dokumenten zugeordnet
werden
Content Management Systeme
112
Automatische Indexierung
• Ermittlung aller vorkommender Wörter
einer Dokumentkollektion
(Titel und Abstract zusammen liefern schon
gute Ergebnisse (Volltextanalyse ist nicht
unbedingt notwendig))
• Eliminierung der Stoppwörter (ca. 250)
• Identifikation guter Deskriptoren
– Stammformenreduktion
– Bestimmung von Synonymen (manuell /
Thesaurus)
Content Management Systeme
113
Automatische Indexierung
• Berechnung der Dokument-Term-Matrix
z.B. gemäss (Weighti,k )
• Zuweisung von Deskriptoren zu den
Dokumenten erfolgt ab einem definierten
Termgewicht (binär oder statistisch)
• Bei binärem Modell wird der Term
zugewiesen, wenn er mindestens einmal im
Dokument vorkommt
Content Management Systeme
114
Automatische Indexierung
Zunächst:
Bestimmung der (besten) Deskriptoren
(Terme) für eine Dokumentkollektion als
ganzer
Annahme:
Die besten Terme in einer Dokumentkollektion sind jene Terme, die in der
Dokumentkollektion insgesamt nicht zu
oft und nicht zu selten vorkommen.
Content Management Systeme
115
Automatische Indexierung
• DOCFREQk (Dokumentenhäufigkeit)
• Anzahl der Dokumente, in denen tk
vorkommt.
• Ein sinnvolles Mass für die inverse
Dokumentenhäufigkeit ist:
• INV-DOCFREQk = Log2 (n / DOCFREQk) + 1
• Dabei ist „n“ die Anzahl der betrachteten
Dokumente
Content Management Systeme
116
Automatische Indexierung
sinnvolle Gewichtsfunktionen für die
Indexierung eines Dokumentes Di mit
dem Term tk ist:
• Weighti,k = FREQi,k • INV-DOCFREQk
Content Management Systeme
117
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
118
Automatisches Clustering
Content Management Systeme
119
Ähnlichkeiten zwischen Vektoren
• Ähnlichkeit zwischen Dokumenten und
Deskriptoren können mittels der TermDokument-Matrix ermittelt werden.
•
•
•
•
SIMILAR(Di, Dj) = Di • Dj (innere Vektorprodukt)
i,j = 1, ..., n
SIMILAR(ti, tj) = ti • tj (innere Vektorprodukt)
i,j = 1, ..., m
Content Management Systeme
120
Ähnlichkeiten zwischen Vektoren
• Dies führt zu
• Term-Term-Ähnlichkeitsmatrizen
• SIMILAR(ti,tj) i,j = 1, ..., m
• und
• Dokument-Dokument-Ähnlichkeitsmatrizen
• SIMILAR(Di,Dj) i,j = 1, ..., n
Content Management Systeme
121
Clustering
• Klassen von ähnlichen Termen
• Klassen von ähnlichen Dokumenten
basieren auf den zugehörigen
Ähnlichkeitsmatrizen
Kriterium
• Dokumente bzw. Terme werden in
Abhängigkeit von den bestehenden
Ähnlichkeiten zu Klassen zusammen gefasst.
Content Management Systeme
122
Clustering
• Es gibt mehrere Verfahren
• Viele Verfahren starten mit Ausgangsklassen,
die unterschiedlich bestimmt werden können
z.B.
• Termmengen in einem Dokument oder einer
Dokumentmenge
• Termmengen in Dokumenten, die auf eine
Suchfrage hin gefunden wurden
Content Management Systeme
123
Clustering
1. Für jede so bestimmte Klasse wird ein
Term-Centroid (bzw. Dokument-Centroid)
als „Durchschnittsvektor“ der Klassen
bestimmt
2. Für eine Klassen K mit m Termvektoren
t1, ..., tm Centroid(K) = 1/m Summe tk
3. Dann werden alle Ähnlichkeiten zwischen
allen Centroiden und allen Termen
berechnet, die keine Centroide sind
Content Management Systeme
124
Clustering
4. Jeder Term wird der Klasse
zugeordnet, zu dessen Centroid er die
höchste Ähnlichkeit hat.
5. Falls ein Term die Klasse wechselt,
wird der Prozess erneut durchlaufen
Content Management Systeme
125
Clustering
• Auf den Klassen lässt sich eine Hierarchie definieren,
indem man Centroide zu Klassen zusammenfasst.
• Hierarchische Klassen auf Termen können so zum
automatischen Aufbau von hierarchischen Katalogen
verwendet werden.
• Die Cluster können auch als Basis einer grafischen
Retrievalsprache verwendet werden, indem die
Cluster mit den enthalten Termen und den
Ähnlichkeitsmaßen zwischen den Termen grafisch
dargestellt und durch Klickoperationen Navigationsbzw. Anfragen ausgelöst werden können.
Content Management Systeme
126
Relevance Feedback
• Beim Relevance Feedback Verfahren
werden vom Benutzer als sehr relevant
gekennzeichnete Ergebnisdokumente
einer Recherche, zur Verbesserung der
Suche als neuerliche Suchfragen (als
Termvektor), verwendet.
Content Management Systeme
127
Themen
• Einleitung / Definition
• IR Bewertungskriterien
• IR-Modelle / Konzepte / Methoden
–
–
–
–
–
–
–
–
Allgemeines Modell
Boolesches Retrieval
Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen)
Dokument-Term-Matrix
Methoden
IR mit relationalen Datenbanken
Indexierung
Clustering
• Informationsmarkt
Content Management Systeme
128
Informationsmarkt
Content Management Systeme
129
Informationsmarkt
Online-Datenbanken
• Datenbasisproduzenten
(produzieren Datenbasen)
• Datenbankanbieter/Hosts
(betreiben Online-Datenbanken mit
verschiedenen Datenbasen)
• Jeder Datenbankanbieter hat
möglicherweise eigene
Retrievalsprache
Content Management Systeme
130
CCL
• Common Command Language (CCL)
for Online Interactive Information
Retrieval
• Ist eine Standardisierung im Bereich
Retrievalsprache für OnlineDatenbanken (NISO).
• http://www.niso.org/standards/standard_
detail.cfm?std_id=563
Content Management Systeme
131
Informationsmarkt
Online-Datenbanken - Datenbanktypen
• Textdatenbanken
– Referenzdatenbanken
• bibliographische Datenbanken
• (Autor, Titel, Zeitschrift, Heft, Seiten)
• sonstige Referenzdatenbanken
• (Patente, Projekte, Firmen, Experten)
– Volltextdatenbanken
Content Management Systeme
132
Informationsmarkt
Online-Datenbanken - Datenbanktypen
• Faktendatenbanken
– numerische Datenbanken (AußenhandelsStatistiken, Börsendaten)
– Formeldatenbanken(Physik, Chemie,
Technik)
• integrierte Datenbanken
• Multimedia-Datenbanken
Content Management Systeme
133
Information Retrieval
Wichtige Datenbankanbieter
•
•
•
•
•
•
•
•
•
DIALOG
DATASTAR
STN International
LEXIS-NEXIS
GENIOS
GBI
FIZ Technik
DIMDI
Questel Orbit
(450 DBen, allround)
(350 DBen, allround)
(200 DBen, Technik, Naturw.)
(Volltexte: Presse, Wirtschaft, Recht)
(500 DBen,Wirtschaft,Firmen,Branchen)
(160 DBen, Betriebswirtschaftliche Infos
(110 DBen, Technikm Naturw., Patente)
(100 DBen, Medizin, Agrar,Psychologie)
(120 DBen, Patente, Technik, Naturw.)
Content Management Systeme
134
Information Retrieval
WWW-Adressen Datenbankanbieter
•
•
•
•
•
•
•
•
•
DIALOG
DATASTAR
STN International
LEXIS-NEXIS
GENIOS
GBI
FIZ Technik
DIMDI
Questel Orbit
http://www.dialog.com
http://www.datastarweb.com
http://www.fiz-karlsruhe.de
http://www.lexis-nexis.com
http://www.genios.de
http://www.gbi.de
http://www.fiz-technik.de
http://www.dimdi.de
http://www.questel-orbit.de
Content Management Systeme
135
Science Citation Index
• http://www.isinet.com/isi/products/citatio
n/sci/index.html#cr
• ermöglicht die Suche nach allen
wissenschaftlichen Dokumenten, in
denen ein spezielles wissenschaftliches
Dokument zitiert wird (d.h. im
Literaturverzeichnis auftaucht).
Content Management Systeme
136
Datenbankverzeichnisse
Gale Directory of Databases
• http://library.dialog.com/bluesheets/html/bl023
0.html
• provides detailed information on publicly
available databases and database products
accessible through an online vendor, Internet,
or batch processor, or available for direct
lease, license, or purchase as a CD-ROM,
diskette, magnetic tape, or handheld product.
Content Management Systeme
137
IR Vorgehen
•
•
•
•
•
•
•
•
Formulierung des Informationsproblems
Auswahl der Datenbank
Studieren der Datenbankstruktur
Studieren der Retrievalsprache
Formulierung spezifischer Suchanfrage
Suchanfrage stellen
Suchergebnis bewerten
Dokumente entsprechend abrufen bzw.
Suchanfrage umformulieren
Content Management Systeme
138