Minería Web de Uso - Extraccion de Conocimiento KDD realizado

Download Report

Transcript Minería Web de Uso - Extraccion de Conocimiento KDD realizado

Tesis Doctoral
Minería Web de Uso y Perfiles de Usuario:
Aplicaciones con Lógica Difusa
Víctor Heughes Escobar Jeria
Granada, 2007
Directoras:
Dra. María José Martín Bautista
Dra. María Amparo Vila Miranda
Departamento de Ciencias de la Computación e Inteligencia Artificial.
Universidad de Granada.
Motivación

La Minería Web se define como “el proceso global de descubrir
información o conocimiento potencialmente útil y previamente
desconocido a partir de los datos de la web” [Etzioni, 1996].
Forma intermedia
Técnicas de minería de datos
adecuadas para el análisis
de la información que se
encuentra en la web
2
Motivación
Minería Web
Minería Web de
Contenido
Documentos Web
Minería Web de
Estructura
Minería Web de
Uso
Enlaces entre e intra
Documentos
Archivos Log
3
Motivación
¿Cómo es el comportamiento de navegación del usuario en
la web?
¿Cómo podemos identificar a los usuarios que navegan por
la web si no se registran?
¿Cómo podemos ofrecer una información más adecuada al
usuario durante su navegación?...
Minería de Datos
Lógica Difusa
4
Objetivos

La aplicación de la lógica difusa en la minería web de
uso.
 La obtención de patrones de navegación, a través de la técnica
de reglas de asociación difusas.
 Realizar un análisis demográfico, utilizando la técnica del
clustering difuso para la agrupación y caracterización de sesiones
de usuarios.
 Construcción de perfiles de usuario, a través de un modelo
general de obtención y representación de los mismos en XML.
5
Contenidos

Minería Web de Uso. (Capítulo 3)
- Modelo de datos.

Análisis de patrones de navegación. (Capítulo 4)
- Obtención de reglas de asociación difusas para el análisis de patrones de
navegación: caso real (E.T.S.I.I.T.).

Análisis demográfico. (Capítulo 5)
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).

Perfiles de usuario y lógica difusa. (Capítulo 6)
- Modelo de obtención y representación en XML de los perfiles de usuario.
- Aplicación para un caso real (E.T.S.I.I.T.).

Conclusiones y trabajos futuros. (Capítulo 7)
6
Contenidos

Minería Web de Uso. (Capítulo 3)
- Modelo de datos.

Análisis de patrones de navegación.
- Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.

Análisis demográfico.
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.
- Modelo de obtención y representación en XML de los
perfiles de usuario.
- Aplicación para un caso real.

Conclusiones y trabajos futuros.
7
Etapas
(Capítulo(Capítulo
3)
Minería
Minería
Web
Web
de Uso
de Uso
– Etapas
3)
Descubrimiento de
Patrones de Uso
Colección de
Datos de Uso
Interpretación de
los resultados
Preprocesamiento de
Datos de Uso
Técnicas de Minería:
- Servidor Web
- Servidor Proxy
- Máquina del
Usuario
- Heterogeneidad y Carencia
de Estructura
- Forma Intermedia
- Clustering
- Reglas de Asociación
- Interpretar patrones
- Construir perfiles
8
Minería
Web
dede
Uso
Tipos
ficheros
log (Capítulo
3)
Minería
Minería
Web
Web
de
UsoUso
– de
Etapas
(Capítulo
Tipos
de ficheros
log3)(Capítulo
3)
Tipos de ficheros
Registros de
Error
Registros de
Referencia
Common Log
File Format
(CLFF)
Registros de
Accesos
Extended Common
Log File Format
(ECLFF)
Registros de
Agentes
Performance Log
File Format (PLFF)
9
Minería Web de Uso
Ejemplo de Fichero ECLFF
 Archivo Extended Common Log File Format (ECLFF)
Identificación
Fecha/Hora
de usuario
Autentificación
Host o de usuario
IP
Estado
Petición
Bytes
Pág. Referenciada
Agente
10
Minería Web de Uso
Modelo de datos (Capítulo 3)
 Una página web pi P , P  { p1 , p2 ,..., pn }es un documento HTML
identificable a través de la red con una URL.
 Una sesión de usuario sj S, S  {s1 , s 2 ,..., s m }se define como
una secuencia de accesos temporales a un sitio particular de la Web
por un usuario. Viene determinada por un conjunto de clicks
R  {r1 ,..., rq } en el sitio web, denominado clickstream.
 La relación entre una página pi P y la sesión sj S en la que se
visita viene dada por la matriz UP, donde cada valor representa el
tiempo de la permanencia del usuario en la página pi en la sesión sj
UP  [ w( si , p j )], 1  i  m, 1  j  n
11
Minería Web de Uso
Modelo de datos (cont.)
 Caracterizaremos el clickstream para la identificación
de sesiones de usuarios (Método timeout [Chen et al.,
1996]):
 Sea rk el kth click del clickstream R de una dirección IP en tk segundos.
 Sea rk+1 el (k+1)th click del clickstream de la misma dirección IP en tk+1
segundos después del click rk.
 T es el tiempo de espera calculada como la diferencia entre ambos click
en un sitio web es T =(tk+1 - tk)
 Si T< β, siendo β el tiempo de espera máximo, entonces el click rk y rk+1
son considerados partes de la sesión Si. En otro caso, si T> β, entonces el
click rk es estimada como final de la sesión Si, mientras el click rk+1 es el
clickstream de la sesión Si+1.
12
Minería Web de Uso
Modelo de datos (cont.)
 Identificación de sesiones de usuario:
13
Contenidos

Minería Web de Uso (Capítulo 3)
- Modelo de datos.

Análisis de patrones de navegación. (Capítulo 4)
- Obtención de reglas de asociación difusas para el análisis de patrones de
navegación: caso real (E.T.S.I.I.T).

Análisis demográfico.
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.
- Modelo de obtención y representación en XML de los
perfiles de usuario.
- Aplicación para un caso real.

Conclusiones y trabajos futuros.
14
Patrones de navegación
Objetivo
Obtener patrones de navegación del usuario y así tener una mejor
descripción de su comportamiento en la web y de esa manera saber
realmente lo que sucede en el sitio web.
Problema
- Problema de navegación temporal: intervalo horario – página
visitada.
- Problema de navegación intrapágina: pagina visitada - página
referenciada.
Metodología usada
Reglas de asociación difusas.
15
Patrones de navegación
Reglas de asociación difusas (Capítulo 4)
 Definición: [Delgado et al., 2003] Dado I un conjunto de ítems,
~τ  I
~(i)
~


definiremos una transacción difusa , donde
. Sea
el
~
~
grado de pertenencia de i a  y notaremos a  ( I 0 ) el grado de
inclusión de un ítemset en una transacción difusa definida como
~( I 0 )  min~(i )
iI 0
 Medidas de interés: hemos utilizado diferentes medidas para la
obtención de las reglas de asociación difusas, tanto medidas objetivas
como subjetivas [Liu et al., 2000].
Algoritmo: AprioriTID
16
Patrones de navegación
Modelo asociado a la navegación temporal
- Fecha-Página visitada
 Problema 1: problema de navegación temporal.
 Ítems: fecha/hora y páginas visitadas
Transacciones: tablas transaccionales difusa para la obtención de
las reglas, para los ítems fecha/hora y páginas visitadas.
Hora.
Peso
Etiqueta
IP/Pag.
Madrugada
Mañana
Medio día
Tarde
Noche
Pag1
Pag2
Pag3
08:30
1.0
Mañana
IP1
0
1.0
0
0
0
0.4
0
0.8
12:45
0.5
Medio Día
IP2
0
0
0.5
0
0
0
0
0.4
15:25
0.4
Tarde
IP3
0
0
0
0.4
0
0.7
0.3
0
20:20
0.3
Noche
IP4
0
0
0
0
0.3
0.2
0
0
17
Patrones de navegación
Ejemplo de regla de asociación difusa –
Fecha-Página visitada
Fecha/Hora → Página Visitada.
Mañana → http://www.shop2.cz/ls/index.php?\&id=98\&filtr=102
-
Soporte =60%; confianza =1.0; FC =1.0
Interpretación: del conjunto analizado el 60% presentaba esta
regla, la cual nos indica que los usuarios se conectan por la mañana
a esa página.
18
Modelo asociado a la navegación entre
páginas - Página visitada – Página
referenciada (Capítulo 4)
Patrones de navegación
 Problema 2: problema de navegación entre páginas.
 Ítems: páginas visitadas y páginas referenciadas.
Transacciones: tablas transaccionales difusa para la obtención de
las reglas, para los ítems páginas visitadas y páginas referenciadas:
peso
Frecuencia
IP/Pag.
Pag
Pag2
Pag3
Pag4
IP/Pag.
1
Pag
Pag2
Pag3
Pag4
1
IP1
0
4
0
7
IP1
0
0.4
0
0.7
IP2
7
0
8
0
IP2
0.7
0
0.8
0
IP3
6
0
2
0
IP3
0.6
0
0.2
0
IP4
0
3
0
10
IP4
0
0.3
0
1
Obtención de los pesos
19
Ejemplo de regla de asociación difusa –
Patrones de navegación Página visitada – Página referenciada
página visitada → página referenciada
/dt/?c=11670 → http://www.shop2.cz
- Soporte =40%; confianza =1.0; FC =1.0
Interpretación: esto indica que los usuarios vistan a la página
/dt/?c=11670 y luego se van a la página http://www.shop2.cz, esta
regla se encuentra en un 40% dentro del conjunto analizado.
20
Patrones de navegación
Medidas de calidad (Capítulo 4)
Medidas de calidad subjetivas: reglas conforme (confm), reglas
con consecuentes inesperados (unexpConseq), reglas con
antecedentes inesperados (unexpCond) y ambos lados de la reglas
inesperados (bsUnexp) [Liu et al., 2000].

Obtención de las creencias del usuario
Para esto hemos realizado una encuesta (referente a la navegación
entre páginas).


Creencia del Usuario:
1. Foro → asignaturas
2. Tablón de anuncios → actividades
3. Eventos → página principal
4. Programación → página principal
21
Patrones de navegación

Medidas de calidad (cont.)
Conjuntos de datos:
Conjuntos
de datos
Entrada de
datos
originales
Entrada de datos
preprocesadas
Preprocesamiento
Conjunto 1
100900
100810
Eliminación entradas idénticas
Conjunto 2
100810
46950
Eliminación entradas sin el campo de
referencia
Conjunto 3
46950
16518
Eliminación de imágenes
Conjunto 4
16518
12910
Eliminación javascript
Conjunto 5
98202
15676
Preprocesamiento completo
22
Patrones de navegación
Reglas obtenidas
del conjunto 5:

Foro
Resultados (Capítulo 4)
N° Regla
Reglas Obtenidas
Regla 1
GET/apps/tablon/ → http://etsiit.ugr.es
Regla 2
GET/apps/foro/index.php → http://etsiit.ugr.es
Regla 3
GET/apps/foro/index.php?idforo=asignaturas →
http://etsiit.ugr.es/apps/foro/index.php
Regla 4
GET/apps/foro/index.php?action=foro&idforo=escuela →
http://etsiit.ugr.es/apps/foro/index.php
Regla 5
GET/apps/foro/index.php?idforo=general →
http://etsiit.ugr.es/apps/foro/index.php
N° Regla
Sup
Con
FC
Lif
P-S
Cf
UCq
UCd
bs
Regla 1
0.052
0.47
0.39
6.98
0.04
0.0
1.0
0.0
0.0
Regla 2
0.076
0.50
0.32
2.98
0.05
0.0
1.0
0.0
0.0
Regla 3
0.02
0.85
0.83
6.35
0.02
0.0
0.0
0.0
1.0
Regla 4
0.01
0.83
0.80
6.17
0.01
0.0
0.0
0.0
1.0
Regla 5
0.03
0.65
0.65
4.88
0.02
0.0
0.0
0.0
1.0
Discusión de los resultados: el usuario navega habitualmente por
23
las diferentes secciones del foro.

Contenidos

Minería Web de Uso
- Modelo de datos.

Análisis de patrones de navegación.
- Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.

Análisis demográfico. (Capítulo 5)
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).

Perfiles de usuario y lógica difusa.
- Modelo de obtención y representación en XML de los
perfiles de usuario.
- Aplicación para un caso real.

Conclusiones y trabajos futuros.
24
Análisis demográfico

Objetivo.
Caracterizar distintos tipos de usuarios a través de:
- análisis de los grupos de páginas por los que navegan en
función de su dirección.
- análisis de los grupos de sesiones en función de las
páginas visitadas.

Metodología.
Clustering de
Páginas Web
Clustering Difuso de
Sesiones de
usuario
25
Ideas básicas acerca de los métodos de
clustering
Análisis demográfico
Definición
clásica
Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición
P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los
elementos de un mismo grupo sea lo mayor posible y la de entre
miembros de dos grupos sea mínima.


Clustering difuso:
Cuando la partición es difusa:
c
 A x   1
i
i 1
k

0
m
 A x   1
i
k
i 1
k  {1,2,..., n} i  {1,2,..., c}
26
Análisis demográfico
Medidas utilizadas (Capítulo 5)
 Levenshtein.
p
q0

p0
q

L(( x1 ,..., x p ), ( y1 ,..., y ))  min{ L(( x1 ,..., x p 1 ), ( y1 ,..., y q )  1,

1
p
1
q 1
en otro caso
 L(( x ,..., x ), ( y ,..., y )  1,
 L(( x1 ,..., x p 1 ), ( y1 ,..., y q 1 )}  z ( x p , y q )}

 Coseno.
N
S1,kl 
N
 S
k
i
 S lj
i 1 j 1
N

i 1
N
Sik

S lj
j 1
27
Análisis demográfico
Medidas utilizadas (cont.)
 Coseno extendido.
N
S 2,kl 
N
 S
k l
i S j Sn(i,
j)
i 1 j 1
N

i 1
N
S ik
S
l
j
j 1

pi  p j
Sn(i, j )  min 
 max 1, max p  p  1
i
j








28
Análisis demográfico

Ideas básicas acerca de los métodos de
clustering
Definición clásica
Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P=
{A1, A2,…,Ac} tal que una cierta medida de semejanza entre los
elementos de un mismo grupo sea lo mayor posible y la de entre
miembros de dos grupos sea mínima.


Clustering difuso:
Cuando la partición es difusa:
c
 A x   1
i
i 1
k

0
m
 A x   1
i
k
i 1
k  {1,2,..., n} i  {1,2,..., c}
29
Análisis demográfico
Obtención de la partición inicial de datos
(Capítulo 5)

Técnica utilizada: Clustering jerárquico (SPSS).

Criterios utilizados: (Basados en su relación con la lógica
difusa) [Delgado et al., 1996]
 Mínima distancia entre los elementos de un grupo,
máxima distancia entre grupos.
 Distancia al Crisp más cercano.
30
Análisis demográfico
Páginas Web
Datos Iniciales
Sesiones de
Usuario
Clustering
Jerárquico
C-medias
Clustering
C-medias difuso
Validación de
Resultados
31
Análisis demográfico

Validación del clustering
Coeficiente de partición.
c
CP 

N
 u
2
ik
i 1 k 1
N
Coeficiente de Entropía.
1 c
CE   
N  i 1

uik  log a uik 
k 1

N

32
Análisis demográfico
Páginas Web
Datos Iniciales
Sesiones de
Usuario
Clustering
Jerárquico
C-medias
Clustering
C-medias difuso
Validación de
Resultados
33
Análisis demográfico
Clustering de páginas similares (Capítulo 5)
 Objetivo.
Obtener grupos de páginas web más similares para saber cuales son
las más representativas de la navegación del usuario.
 Modelo de datos asociado.
Un Conjunto de páginas definida como:
P  { p1, p 2,..., pm}
Las páginas web puede ser vista conceptualmente como una matriz
página-página mxm :
P  [sim( pi, pj )], 1  i  m, 1  j  m
34
Resultados del clustering de páginas
similares
Análisis demográfico

Conjuntos de datos:
Conjuntos
de datos
Entrada de
datos
originales
Entrada de
datos
preprocesadas
Preprocesamiento
Conjunto 1
100900
100810
Eliminación entradas idénticas
Conjunto 2
16518
12910
Preprocesamiento completo
Conjunto 3
98202
15676
Preprocesamiento completo

Medida: Levenshtein

Técnica: clustering con el algoritmo c-medias
Número de particiones iniciales: 12 (obtenidos con el análisis de
clustering jerárquico previamente).

35
Análisis demográfico
Resultados del clustering de páginas
similares
Cluster
Tablón
Foro
Alumnos
Sin
caracterizar
[Centroide]
Cluster 0
[GET/apps/foro/index.php]
Cluster 1
[GET/apps/tablon]
Cluster 2
[GET/usuarios/jmlvega/idragon/formate.css]
Cluster 3
[GET/apps/foro/index.php?action=foro&idforo=general]
Cluster 4
[GET/alumnos/diegorp/canalplus.html]
Cluster 5
[GET/apps/foro/index.php?action=foro&idforo=asignaturas]
Cluster 6
[GET/js/protWindows/themes/default.css]
Cluster 7
[GET/apps/foro/index.php?action=foro\&idforo=escuela]
Cluster 8
[GET/alumnos/mlii]
Cluster 9
[GET/HTTP/1.1]
Cluster 10
[GET/apps/foro/index.php?action=hebra\&idhebra=1939]
Cluster 11
[GET/apps/foro/index.php?action=foro&idforo=compra]
Entropía
0.00
C. De Partición
1.00
36
Análisis demográfico
Páginas Web
Datos Iniciales
Sesiones de
Usuario
Clustering
Jerárquico
C-medias
Clustering
C-medias difuso
Validación de
Resultados
37
Análisis demográfico
Clustering de difuso de sesiones de usuarios
(Capítulo 5)
 Objetivo.
Obtener grupos de sesiones de usuarios que navegan por la web con
características similares.
 Modelo de datos asociado.
 Conjunto de sesiones S definida como: S  {s1, s 2,..., sm}
 Conjunto de páginas P, definida como : P  { p1, p 2,..., pn}
 Matriz sesión-página mxn : UP  [ w( si , p j )], 1  i  m, 1  j  n
A partir de esta matriz de peso sesión-página obtendremos una
matriz de semejanza entre las sesiones definida
SS  [sim(si , s j )], i  j  m
y para obtener esta semejanza aplicaremos la medida del coseno y
coseno extendido.
38
Análisis demográfico
Conjuntos
Resultados del clustering de sesiones de
usuario
de datos:
Conjuntos
de datos
Entrada de datos
originales
Entrada de datos
preprocesadas
N° Sesiones
Conjunto 1
100900
12910
2024
Conjunto 2
98202
15676
2780

Medidas: coseno y coseno extendido.

Técnica: clustering difuso con el algoritmo c-medias difuso.
Número de particiones iniciales: 12 (obtenidos mediante el
análisis jerárquico previamente)

39
Análisis demográfico
Resultados del clustering de sesiones de
usuario (cont.)
Coseno extendido
Coseno
Discusión de los resultados: la medida del coseno extendido fue
la que mejor representación entregaba de las sesiones con respecto a
los centroidos.

40
Contenidos

Minería Web de Uso
- Modelo de datos.

Análisis de patrones de navegación.
- Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.

Análisis demográfico.
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa. (Capítulo 6)
- Modelo de obtención y representación en XML de los perfiles de usuario.
- Aplicación para un caso real (E.T.S.I.I.T).

Conclusiones y trabajos futuros.
41
Perfiles de usuario

Objetivo.
 Construcción de perfiles de usuario, a través de la navegación
de que realiza el usuario en la web, y así poder identificar
diferentes grupos sociales y/o demográficos.
 Plantear un modelo de obtención y representación de los
perfiles de usuarios en XML.
42
Modelo para la obtención del perfil de
usuario (Capítulo 6)
Análisis demográfico
Identificación de
entradas
Fuente de información
(Ficheros log)
Método para la
identificación de
sesiones
Preprocesamiento
de la información
4
2
1
5
Identificación de
sesiones de
usuarios
7
6
8
3
Grupos de sesiones
Técnica de Minería
para realizar
agrupamiento de
sesiones
Perfiles de usuario
Representación de
los perfiles en
XML
43
Análisis demográfico

Definición de perfil de usuario
Definición de perfil de usuario: colección de datos acerca de
las preferencias o intereses de navegación de los usuarios .

Definición formal de perfil de usuario: [Martín-Bautista et al.,
2002].
ei  Vi , Li , Ki , zi  ei  E, 1  i  s
Ficheros Log
Resultado de una
agregación de perfiles
asociados a cada sesión
Relativo a los aspectos sociales:
rango de edad, nivel educativo,
idioma…

Vi: Variables demográficas

Li: Variables de identificación

Ki: Variables de clickstream
z’i: Perfil
sesión

simple
de
la
Se asocian pesos a las páginas
44
Análisis demográfico
Modelo de representación en XML del perfil
de usuario


Li: Variables de identificación
Ki: Variables de clickstream

Vi: Variables demográficas

z’i: Perfil simple de la
sesión
45
Análisis demográfico
Ejemplo de perfil de usuario

Li: Variables de identificación
Ki:
Variables de
clickstream
Vi: Variables
demográficas


z’i: Perfil simple de la
sesión
46
Análisis demográfico
Obtención del perfil de usuario a partir del
clustering difuso
Sea C = {c1,c2,...,cn} los clusters de sesiones de usuarios más
representativas de la navegación realizada por los usuarios en el
sitio web de la escuela, siendo n el número de la partición inicial.
Sea Q= {q1,q2,...,qn} el conjunto de los
perfiles de los usuarios obtenidos.
Entonces:
C = {c1,c2,...,cn} → Q= {q1,q2,...,qn}
47
<?xml version="1.0" encoding="UTF-8"?>
<Perfil11>
<Identificacion_Usuario>
<Tipo Tipo="alumno" />
</Identificacion_Usuario>
<Paginas>
<Pagina Pagina_Visitada="0">*GET/apps/foro/index.phpHTTP/1.1*</Pagina>
<Pagina
Pagina_Visitada="1">*GET/apps/foro/index.php?action=foro&amp;idforo=asignaturasHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="2">*GET/apps/foro/index.php?action=foro&amp;idforo=generalHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="4">*GET/apps/tablon/HTTP/1.1*</Pagina>
<Pagina
Pagina_Visitada="5">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1819&amp;page=0HTTP/1.1*</Pagina
>
<Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&amp;idhebra=696HTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="7">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1349HTTP/1.0*</Pagina>
<Pagina Pagina_Visitada="8">*GET/page.php?pageid=googlemapsHTTP/1.1*</Pagina>
</Paginas>
<Var_Demograficas>
<Edad>Joven</Edad>
<Paciencia>Paciente</Paciencia>
<Idioma>Español</Idioma>
</Var_Demograficas>
<Perfil_Simple>
<Terminos Termino="0">Ingeniería</Terminos>
<Terminos Termino="1">Informática</Terminos>
<Terminos Termino="2">Telecomunicación</Terminos>
<Terminos Termino="3">Foros</Terminos>
<Terminos Termino="4">Asignatura</Terminos>
<Terminos Termino="5">General</Terminos>
<Terminos Termino="6">Anecdotario</Terminos>
<Terminos Termino="7">Googlemaps</Terminos>
</Perfil_Simple>
48
</Perfil11>
 Perfil de alumno obtenido del
caso real (Perfil 11, Anexo C)
<?xml version="1.0" encoding="UTF-8"?>
<Perfil10>
<Identificacion_Usuario>
<Tipo Tipo="profesor" />
</Identificacion_Usuario>
<Paginas>
<Pagina Pagina_Visitada="0">*GET/usuarios/jmlvega/idragon//formate.cssHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="1">*GET/apps/convocatorias/styles/convocatorias.cssHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="2">*GET/profesores/jmaroza/anecdotario/chmanual.htmHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="4">*GET/planes/index.php?id=3&amp;id2=127HTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="5">*GET/page.php?pageid=horarioHTTP/1.1*</Pagina>
<Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1617HTTP/1.1*</Pagina>
</Paginas>
<Var_Demograficas>
<Edad>Adulto</Edad>
<Paciencia>Muy Paciente</Paciencia>
<Idioma>Español</Idioma>
</Var_Demograficas>
<Perfil_Simple>
<Terminos Termino="0">Ingeniería</Terminos>
<Terminos Termino="1">Informática</Terminos>
<Terminos Termino="2">Telecomunicación</Terminos>
<Terminos Termino="3">Index</Terminos>
<Terminos Termino="4">skin/reloaded</Terminos>
<Terminos Termino="5">convocatorias</Terminos>
<Terminos Termino="6">ubuntu</Terminos>
<Terminos Termino="7">planes</Terminos>
<Terminos Termino="8">estudio</Terminos>
<Terminos Termino="9">Horario</Terminos>
</Perfil_Simple>
</Perfil10>
 Perfil de profesor obtenido del
caso real (Perfil 10, Anexo C)
49
Análisis demográfico
Clasificación de los perfiles a partir de las
páginas web
 Metodología
 Árbol de decisión. Algoritmo J4.8 (C4.5), (WEKA).


Algunos resultados
Perfil 10 está clasificado por la página GET/apps/convocatorias.
Perfil 12 está clasificado por la página GET/apps/descargas.
 Perfil 3 está clasificado por la página GET/alumnos/shin/shin.htm.
 Perfil 7 está clasificado por la página GET/alumnos/mlii.
 Perfil 4 está clasificado por la página GET/apps/foro/index.php.
 Perfil 6 está clasificado por las páginas: GET/apps/foro/index.php,
GET/apps/tablon,GET/alumnos/diegorp/canalplus.html,
GET/alumnos/diegorp/canal.css.
Profesor

Alumno
50
Contenidos

Minería Web de Uso
- Modelo de datos.

Análisis de patrones de navegación.
- Obtención de reglas de asociación difusas para el análisis de
patrones de navegación: caso real.

Análisis demográfico.
- Clustering de páginas similares: caso real.
- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.
- Modelo de obtención y representación en XML de los
perfiles de usuario.
- Aplicación para un caso real.

Conclusiones y trabajos futuros. (Capítulo 7)
51
Conclusiones y Trabajos Futuros
Conclusiones
Obtención de patrones de navegación:
 Hemos planteado un modelo de obtención de reglas de asociación
difusas .
 Hemos llevado a cabo un proceso de interpretación semántica
aplicando tanto medidas de interés objetivas como medidas de interés
subjetivas.
 Hemos experimentado sobre un sitio web real.
52
Conclusiones
 Análisis demográfico:
 Utilizando diversas técnicas del clustering hemos podido establecer
una metodología para realizar diferentes agrupaciones de los
elementos que participan en un sitio web.
 Hemos utilizado el clustering jerárquico para la obtención de la
partición inicial de los datos y hemos utilizado el coeficiente de
partición y la entropía como medidas de validación para las técnicas
anteriores.
 Por último, hemos experimentado sobre un caso real que nos
permitió identificar diferentes grupos demográficos de usuarios.
53
Conclusiones

Construcción de perfiles de usuario:
Hemos planteado una nueva representación de los perfiles de
usuarios en XML

Hemos definido un modelo de obtención de los perfiles de usuarios,
basándonos en el análisis demográfico realizado en el clustering
difuso de las sesiones de usuarios.

Hemos realizado una clasificación de los perfiles de usuarios a
través de las páginas web más representativas.

54
Trabajos futuros
Extender los resultados obtenidos a otros sitios web hasta
desarrollar una herramienta integrada que incluya tanto los procesos
de análisis descritos como la actualización dinámica y online de los
perfiles de usuario.

Ampliar el estudio de otras agrupaciones, asociaciones y relaciones
entre los elementos que participan en el sitio web.

En un futuro, extenderemos el uso de los perfiles de usuario para
desarrollar un sistema de recomendación que complete el proceso de
personalización aquí iniciado.

55
Gracias…
“Cada día sabemos más y
entendemos menos…”
Albert Einstein
56