PCA para clasificación de películas con matrices

Download Report

Transcript PCA para clasificación de películas con matrices

PCA para clasificación de películas
con matrices sparse. Ejemplo con
base de datos netflix
Pedro Concejero
Grupo de usuarios R Madrid
31 octubre 2012
Referencias
• Journal of Statistical Software: número
especial sobre Psicometría y R
– http://www.jstatsoft.org/v20/i01
• Ejemplo de PCA con FactoMineR:
– http://factominer.free.fr/classicalmethods/principal-components-analysis.html
Referencias
• El concurso Netflix:
– http://www.netflixprize.com//community/viewto
pic.php?id=1537
• La necesidad de utilizar matrices “sparse”
(poco densas) para poder trabajar con netflix y
SVD / PCA
– http://www.r-bloggers.com/the-netflix-prize-bigdata-svd-and-r-2/
Referencias
• Muy buenos ejemplos y explicación (técnica)
de SVD:
– http://en.wikibooks.org/wiki/Data_Mining_Algorit
hms_In_R/Dimensionality_Reduction/Singular_Val
ue_Decomposition
• Descripción detallada de algoritmos de
recomendación (incluyendo SVD / PCA)
– http://en.wikibooks.org/wiki/Data_Mining_Algorit
hms_In_R/Dimensionality_Reduction/Singular_Val
ue_Decomposition
Referencias
• Ejemplo específico de factorización para
clasificación de películas:
– http://research.yahoo4.akadns.net/files/ieeecomp
uter.pdf
Ejemplo “Movielens”
Películas más populares
• Distribución de autovalores y varianza acumulada
(eje Y) en el espacio de componentes
30
1
0.9
25
0.8
0.7
20
0.6
15
0.5
eigenvalue
cumulative variance explained in factor space
0.4
10
0.3
0.2
5
0.1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Ejemplo “Movielens”
Películas más populares (174)
Ejemplo “Movielens”
Películas con mayor varianza (164)
• Distribución de autovalores y varianza acumulada
(eje Y) en el espacio de componentes
35
1.2
30
1
25
0.8
20
0.6
eigenvalue
15
cumulative variance explained in factor space
0.4
10
0.2
5
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ejemplo “Movielens”
Películas con mayor varianza (164)
• Primeros 2
factores/componentes
Ejemplo “Movielens”
Películas con mayor varianza (164)
Conclusiones
• Trabajo todavía sin finalizar (con el dataset
netflix), pero prometedor
• El uso de librerías para matrices “sparse” es
esencial (maravillosa librería Matrix)
• Múltiples posibilidades de librerías PCA, con
muchas alternativas para probar:
– Número de componentes
– Tipo de extracción
– Rotación
¡Muchas gracias por vuestra atención!
Y sobre todo, gracias a los
organizadores de estas reuniones
• Datos de contacto:
• E-mail: [email protected]
• Twitter: @ConcejeroPedro