Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ.

Download Report

Transcript Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ.

Metode de organizare a
informaţiei pe WEB
Referat de doctorat nr.1
as. univ. ing. Daniel MORARIU
coordonator: prof. univ. dr. ing. Lucian VINŢAN
Sibiu, 2005
Cuprinsul prezentării

Mineritul datelor




Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web






Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Data mining ca o etapă (fază) în procesul de extragere de cunoştinţe
Mineritul bazelor de date

Preprocesarea datelor

Ştergerea zgomotului din date




Integrarea şi transformarea datelor




Înlocuirea valorilor lipsă
Filtrarea
Clusterarea
Eliminarea redundanţelor în date
Generalizarea datelor
Normalizarea datelor
Selecţia şi reducerea datelor



Agregarea
Compresia
Discretizarea şi generarea conceptului ierarhic
Mineritul bazelor de date – etape preliminare

Selecţia datelor relevante



Tipul de cunoştinţe care vor fi minerite
Cunoştinţele de fundal
Măsurarea gradului de interes

Încrederea (local)
# _tuples_containing_both_A_and_B
confidence(A  B) 
# _ tuples_containing_A

Susţinerea (global)
support(A B) 

# _tuples_containing_both_A_and_B
total_#_of_tuples
Prezentarea şi vizualizarea regulilor găsite
Mineritul bazelor de date - metode

Extragerea regulilor de asociere



Algoritmul Apriori
Algoritmul FP-tree
Clasificarea şi predicţia datelor

Construirea modelului





Arbori de decizie
Reţele neuronale
Testarea modelului
Utilizarea modelului
Clusterizarea datelor


Metode de partiţionare
Metode ierarhice
Algoritmul Apriori
Scan D for count
each candidate
Generate C2
Generate C3
Items
{I1}
{I2}
{I3}
{I4}
{I5}
C2
Items
{I1,I2}
{I1,I3}
{I1,I4}
{I1,I5}
{I2,I3}
{I2,I4}
{I2,I5}
{I3,I4}
{I3,I5}
{I4,I5}
C1
Sup.count
6
7
6
2
2
Scan D for
count each
candidate
Compare the count
for each items with
the threshold
L1
Items Sup.count
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I5}
2
C2
Items Sup.count
{I1,I2}
4
{I1,I3}
4
{I1,I4}
1
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
{I2,I5}
2
{I3,I4}
0
{I3,I5}
1
{I4,I5}
0
C3
C3
Items
Sup.count
Items
Scan D for
2
{I1,I2,I3} each candidate {I1,I2,I3}
{I1,I2,I5}
2
{I1,I2,I5}
Compare the
count for
each items
with the
threshold
Compare the
count for each
items with the
threshold
L2
Items Sup.count
{I1,I2}
4
{I1,I3}
4
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
{I2,I5}
2
L3
Items
Sup.count
{I1,I2,I3}
2
{I1,I2,I5}
2
Algoritmul FP-Tree
Null{}
Item Support Node link
I2
7
I1
6
I3
6
I4
2
I5
2
I5:1
I2:7
I1:4
I3:2
I3:2
I5:1
I4:1
I1:2
I4:1
I3:2
Mineritul bazelor de date - metode

Extragerea regulilor de asociere



Algoritmul Apriori
Algoritmul FP-tree
Clasificarea şi predicţia datelor

Construirea modelului





Arbori de decizie
Reţele neuronale
Testarea modelului
Utilizarea modelului
Clusterizarea datelor


Metode de partiţionare
Metode ierarhice
Evaluarea metodelor de data mining

Criterii





Acurateţea
Viteza de procesare
Robusteţea
Scalabilitatea
Interpretabilitatea
Cuprinsul prezentării

Mineritul datelor




Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web






Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Mineritul fişierelor text - etape preliminare



Mineritul bazelor de date – date structurate
Mineritul fişierelor text – date ne/semi-structurate
Măsuri folosite

Precizie regăsite – proporţia de documente
relevante găsite din documentele găsite

Relevant  Retrieved
precision 
Retrieved

Precizie relevante - proporţia de documente
relevante găsite din total de documente relevante

Relevant  Retrieved
recall 
Relevant
Mineritul fişierelor text - metode

Similarităţi bazate pe cuvinte cheie


Probleme: sinonime, polisemie
Crearea vectorului ataşat documentului




Extragerea rădăcinii cuvântului
Eliminarea cuvintelor de legătură
Determinarea similarităţii
v1 , v2
sim(v1 , v2 ) 
v1  v2
Asocieri bazate pe cuvinte cheie


Găsire de reguli de asociere
Asociere între termeni şi cuvinte cheie
Cuprinsul prezentării

Mineritul datelor




Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web






Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Mineritul pe Web

Mineritul conţinutului


Mineritul structurii



Mineritul textului şi al tagurilor (metainformaţii)
Mineritul link-urilor web
Paginile web autoritare şi hub-urile
Mineritul utilizării

Mineritul fişierelor log
Mineritul structurii web – metrici utilizate

PageRank
p
PageRank(u )
PageRank(v)   (1  p) 
N
u v OutDegree(u )

HITS – Hyperlink induced topic search
ap 
hq
(q such that qp)
hp 
a
q
(q such that qp)
Cuprinsul prezentării

Mineritul datelor




Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web






Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Sisteme de descoperire şi reprezentare a informaţiilor

Necesitate




Imensitatea informaţiilor de pe Web
Incapacitatea utilizatorului de a formula
interogări corecte
Organizarea nesatisfăcătoare a
rezultatelor
Accesibilitatea greoaie a interfeţelor
Sisteme de descoperire şi reprezentare a informaţiilor(2)

Criterii de evaluare





Aranjarea componentelor
Numărul de elemente
Gradul de expresivitate
Funcţionalitate
Gruparea rezultatelor
 Naturaleţe
 Cantitate
 Atracţie
 Comoditate
 Intuitivitate
Categorii Web (Web Directories)





Reprezentare ierarhică creată static
Organizare după domenii de interes
(topicuri)
Uşor de înţeles pentru utilizator
Structură fixă
Actualizare


Manuală
Semi-automată
Reprezentarea ierarhică a rezultatelor

Reprezentarea ierarhică creată dinamic



Algoritm monothetic – foloseşte o singură trăsătură
Algoritm polythetic – foloseşte trăsături multiple
Evaluarea ierarhiei (taxonomiei)





Acoperirea documentelor (acurateţea taxonomiei)
Integritatea şi disjunctivitatea claselor
Etichetarea sugestivă a nodurilor
Timpul mediu de localizare a informaţiei
Organizare de la general la specific
Reprezentare grafică a rezultatelor


Tendinţă de trecere la reprezentarea 3D
Avantaje




Lărgirea dimensiunii de reprezentare
Naturaleţea utilizării
Intuitivitatea
Cerinţe



Mod natural, intuitiv de reprezentare
Posibilitatea de navigare
Posibilitatea de interacţiune cu conţinutul
Monitorizarea unei pagini specificate

Agentul DICA – “Do-I-Care”







Periodic analizează pagina
Identifică modificările
Evaluează relevanţa modificărilor
Notifică utilizatorul
Utilizează feedback-ul
Permite schimb de informaţii între agenţi
Agentul “GrantLearner”
Monitorizarea unei pagini specificate (2)

Agentul “Syskill & Webert”


Crearea profilului utilizator
Crearea interogării




Cuvinte care apar în documentele interesante
Cuvinte care diferenţiază documentele
interesante de cele neinteresante
Analizarea paginilor
Efectuarea de recomandări
Monitorizarea comportamentului utilizatorului

Creare profilului utilizator

Detectarea documentelor relevante




Analiza textului fişierului HTML
Numărare de hyperlinkuri utilizate
Activitatea utilizatorului pe acea pagină
(scrolling şi mouse)
Găsirea de noi documente posibil
relevante
Rafinarea căutării

Îngustarea domeniului de căutare

Sinonime




Manual
Automat
Domenii posibile
Tipuri de pagini

Detecţia de noi cuvinte posibile

Ex: Agentul “WebMate”


Învăţarea incrementală a intereselor
Ajută utilizatorul în rafinarea căutării
Profilul utilizatorului


Profil static – neactualizat la timp
Profil dinamic – reactualizat continuu
în mod automat

Crearea profilului – ţine cont de:




Profilul iniţial
Acţiunile utilizatorului
Interpretarea semantică a interogării
Actualizarea profilului – în raport cu:


Interesul curent al utilizatorului
Decăderea interesului în timp
Profilul utilizatorului (2)


Creare de grupuri de utilizatori pe baza
documentelor utilizate
Metode



Filtru bazat pe context – clasifică documente
noi (nevizitate) pe baza asemănării
Filtru colaborativ – clasifică pe baza
specificaţiilor făcute de ceilalţi utilizatori
Învăţarea colaborativă de ansamblu – hibrid


CBF – crearea profilului utilizator
CF – gruparea preferinţele utilizatorilor
Direcţii actuale de cercetare

Reorganizarea Web-ului


Web-ul semantic - trecerea de la orientarea pe
documente la orientarea pe date relevante
Reorganizarea vizualizării Web-ului din
punctul de vedere al utilizatorului



Găsirea informaţiilor relevante
Reprezentarea rezultatelor
Ghidarea utilizatorului în găsirea informaţiilor
Intenţii de viitor




Extragerea trăsăturilor caracteristice
folosind frecvenţa cuvintelor
Selecţia trăsăturilor caracteristice
Clasificare utilizând tehnici bazate pe
vectori suport (SVM)
Clusterare utilizând tehnici bazate pe
vectori suport (c-SVM)