Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ.
Download
Report
Transcript Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ.
Metode de organizare a
informaţiei pe WEB
Referat de doctorat nr.1
as. univ. ing. Daniel MORARIU
coordonator: prof. univ. dr. ing. Lucian VINŢAN
Sibiu, 2005
Cuprinsul prezentării
Mineritul datelor
Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web
Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Data mining ca o etapă (fază) în procesul de extragere de cunoştinţe
Mineritul bazelor de date
Preprocesarea datelor
Ştergerea zgomotului din date
Integrarea şi transformarea datelor
Înlocuirea valorilor lipsă
Filtrarea
Clusterarea
Eliminarea redundanţelor în date
Generalizarea datelor
Normalizarea datelor
Selecţia şi reducerea datelor
Agregarea
Compresia
Discretizarea şi generarea conceptului ierarhic
Mineritul bazelor de date – etape preliminare
Selecţia datelor relevante
Tipul de cunoştinţe care vor fi minerite
Cunoştinţele de fundal
Măsurarea gradului de interes
Încrederea (local)
# _tuples_containing_both_A_and_B
confidence(A B)
# _ tuples_containing_A
Susţinerea (global)
support(A B)
# _tuples_containing_both_A_and_B
total_#_of_tuples
Prezentarea şi vizualizarea regulilor găsite
Mineritul bazelor de date - metode
Extragerea regulilor de asociere
Algoritmul Apriori
Algoritmul FP-tree
Clasificarea şi predicţia datelor
Construirea modelului
Arbori de decizie
Reţele neuronale
Testarea modelului
Utilizarea modelului
Clusterizarea datelor
Metode de partiţionare
Metode ierarhice
Algoritmul Apriori
Scan D for count
each candidate
Generate C2
Generate C3
Items
{I1}
{I2}
{I3}
{I4}
{I5}
C2
Items
{I1,I2}
{I1,I3}
{I1,I4}
{I1,I5}
{I2,I3}
{I2,I4}
{I2,I5}
{I3,I4}
{I3,I5}
{I4,I5}
C1
Sup.count
6
7
6
2
2
Scan D for
count each
candidate
Compare the count
for each items with
the threshold
L1
Items Sup.count
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I5}
2
C2
Items Sup.count
{I1,I2}
4
{I1,I3}
4
{I1,I4}
1
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
{I2,I5}
2
{I3,I4}
0
{I3,I5}
1
{I4,I5}
0
C3
C3
Items
Sup.count
Items
Scan D for
2
{I1,I2,I3} each candidate {I1,I2,I3}
{I1,I2,I5}
2
{I1,I2,I5}
Compare the
count for
each items
with the
threshold
Compare the
count for each
items with the
threshold
L2
Items Sup.count
{I1,I2}
4
{I1,I3}
4
{I1,I5}
2
{I2,I3}
4
{I2,I4}
2
{I2,I5}
2
L3
Items
Sup.count
{I1,I2,I3}
2
{I1,I2,I5}
2
Algoritmul FP-Tree
Null{}
Item Support Node link
I2
7
I1
6
I3
6
I4
2
I5
2
I5:1
I2:7
I1:4
I3:2
I3:2
I5:1
I4:1
I1:2
I4:1
I3:2
Mineritul bazelor de date - metode
Extragerea regulilor de asociere
Algoritmul Apriori
Algoritmul FP-tree
Clasificarea şi predicţia datelor
Construirea modelului
Arbori de decizie
Reţele neuronale
Testarea modelului
Utilizarea modelului
Clusterizarea datelor
Metode de partiţionare
Metode ierarhice
Evaluarea metodelor de data mining
Criterii
Acurateţea
Viteza de procesare
Robusteţea
Scalabilitatea
Interpretabilitatea
Cuprinsul prezentării
Mineritul datelor
Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web
Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Mineritul fişierelor text - etape preliminare
Mineritul bazelor de date – date structurate
Mineritul fişierelor text – date ne/semi-structurate
Măsuri folosite
Precizie regăsite – proporţia de documente
relevante găsite din documentele găsite
Relevant Retrieved
precision
Retrieved
Precizie relevante - proporţia de documente
relevante găsite din total de documente relevante
Relevant Retrieved
recall
Relevant
Mineritul fişierelor text - metode
Similarităţi bazate pe cuvinte cheie
Probleme: sinonime, polisemie
Crearea vectorului ataşat documentului
Extragerea rădăcinii cuvântului
Eliminarea cuvintelor de legătură
Determinarea similarităţii
v1 , v2
sim(v1 , v2 )
v1 v2
Asocieri bazate pe cuvinte cheie
Găsire de reguli de asociere
Asociere între termeni şi cuvinte cheie
Cuprinsul prezentării
Mineritul datelor
Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web
Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Mineritul pe Web
Mineritul conţinutului
Mineritul structurii
Mineritul textului şi al tagurilor (metainformaţii)
Mineritul link-urilor web
Paginile web autoritare şi hub-urile
Mineritul utilizării
Mineritul fişierelor log
Mineritul structurii web – metrici utilizate
PageRank
p
PageRank(u )
PageRank(v) (1 p)
N
u v OutDegree(u )
HITS – Hyperlink induced topic search
ap
hq
(q such that qp)
hp
a
q
(q such that qp)
Cuprinsul prezentării
Mineritul datelor
Mineritul bazelor de date
Mineritul fişierelor text
Mineritul pe Web
Sisteme de descoperire şi reprezentare a
informaţiilor relevante de pe Web
Categorii Web (Web Directories)
Reprezentarea rezultatelor căutării
Monitorizarea unor pagini specificate
Monitorizarea comportamentului utilizatorului
Rafinarea căutării
Profilul utilizator
Sisteme de descoperire şi reprezentare a informaţiilor
Necesitate
Imensitatea informaţiilor de pe Web
Incapacitatea utilizatorului de a formula
interogări corecte
Organizarea nesatisfăcătoare a
rezultatelor
Accesibilitatea greoaie a interfeţelor
Sisteme de descoperire şi reprezentare a informaţiilor(2)
Criterii de evaluare
Aranjarea componentelor
Numărul de elemente
Gradul de expresivitate
Funcţionalitate
Gruparea rezultatelor
Naturaleţe
Cantitate
Atracţie
Comoditate
Intuitivitate
Categorii Web (Web Directories)
Reprezentare ierarhică creată static
Organizare după domenii de interes
(topicuri)
Uşor de înţeles pentru utilizator
Structură fixă
Actualizare
Manuală
Semi-automată
Reprezentarea ierarhică a rezultatelor
Reprezentarea ierarhică creată dinamic
Algoritm monothetic – foloseşte o singură trăsătură
Algoritm polythetic – foloseşte trăsături multiple
Evaluarea ierarhiei (taxonomiei)
Acoperirea documentelor (acurateţea taxonomiei)
Integritatea şi disjunctivitatea claselor
Etichetarea sugestivă a nodurilor
Timpul mediu de localizare a informaţiei
Organizare de la general la specific
Reprezentare grafică a rezultatelor
Tendinţă de trecere la reprezentarea 3D
Avantaje
Lărgirea dimensiunii de reprezentare
Naturaleţea utilizării
Intuitivitatea
Cerinţe
Mod natural, intuitiv de reprezentare
Posibilitatea de navigare
Posibilitatea de interacţiune cu conţinutul
Monitorizarea unei pagini specificate
Agentul DICA – “Do-I-Care”
Periodic analizează pagina
Identifică modificările
Evaluează relevanţa modificărilor
Notifică utilizatorul
Utilizează feedback-ul
Permite schimb de informaţii între agenţi
Agentul “GrantLearner”
Monitorizarea unei pagini specificate (2)
Agentul “Syskill & Webert”
Crearea profilului utilizator
Crearea interogării
Cuvinte care apar în documentele interesante
Cuvinte care diferenţiază documentele
interesante de cele neinteresante
Analizarea paginilor
Efectuarea de recomandări
Monitorizarea comportamentului utilizatorului
Creare profilului utilizator
Detectarea documentelor relevante
Analiza textului fişierului HTML
Numărare de hyperlinkuri utilizate
Activitatea utilizatorului pe acea pagină
(scrolling şi mouse)
Găsirea de noi documente posibil
relevante
Rafinarea căutării
Îngustarea domeniului de căutare
Sinonime
Manual
Automat
Domenii posibile
Tipuri de pagini
Detecţia de noi cuvinte posibile
Ex: Agentul “WebMate”
Învăţarea incrementală a intereselor
Ajută utilizatorul în rafinarea căutării
Profilul utilizatorului
Profil static – neactualizat la timp
Profil dinamic – reactualizat continuu
în mod automat
Crearea profilului – ţine cont de:
Profilul iniţial
Acţiunile utilizatorului
Interpretarea semantică a interogării
Actualizarea profilului – în raport cu:
Interesul curent al utilizatorului
Decăderea interesului în timp
Profilul utilizatorului (2)
Creare de grupuri de utilizatori pe baza
documentelor utilizate
Metode
Filtru bazat pe context – clasifică documente
noi (nevizitate) pe baza asemănării
Filtru colaborativ – clasifică pe baza
specificaţiilor făcute de ceilalţi utilizatori
Învăţarea colaborativă de ansamblu – hibrid
CBF – crearea profilului utilizator
CF – gruparea preferinţele utilizatorilor
Direcţii actuale de cercetare
Reorganizarea Web-ului
Web-ul semantic - trecerea de la orientarea pe
documente la orientarea pe date relevante
Reorganizarea vizualizării Web-ului din
punctul de vedere al utilizatorului
Găsirea informaţiilor relevante
Reprezentarea rezultatelor
Ghidarea utilizatorului în găsirea informaţiilor
Intenţii de viitor
Extragerea trăsăturilor caracteristice
folosind frecvenţa cuvintelor
Selecţia trăsăturilor caracteristice
Clasificare utilizând tehnici bazate pe
vectori suport (SVM)
Clusterare utilizând tehnici bazate pe
vectori suport (c-SVM)