Random Walk based Collaborative Filtering using Implicit Feedback

Download Report

Transcript Random Walk based Collaborative Filtering using Implicit Feedback

Random Walk based
Collaborative Filtering for
Implicit Feedback Datasets
Sangkeun Lee, Sang-il Song
Intelligent Data Systems Lab.
Seoul National Univ
Introduction
•
그 동안의 추천 시스템에 관한 연구
–
•
특정 도메인(영화, 음악 등)에서 명시적인 사용자의 선호도 정보(Rating)를 가지고 사용자에
의해 평가되지 않은(Unrated)된 아이템의 평점을 예측하는 문제를 중심으로 연구됨
문제점
–
–
–
사용자에게 명시적인 선호도 정보를 요청하는 것은 매우 큰 시간 비용을 필요로 하는 일
RMSE, MAE등의 Rating Error Measure를 이용한 성능 평가가 반드시 실제 어플리케이션에
서 매우 중요한 Top-k Recommendation의 성능을 보장하지는 못함
대부분의 연구들이 User, Item 의 두 가지 차원만을 고려
•
•
상황 정보 등의 활용으로 자연스럽게 확장되지 않는 알고리즘
연구 방향
–
–
명시적인 상황 정보 대신 상대적으로 쉽게 얻을 수 있는 로그 데이터 (Implicit Feedback) 데
이터를 활용한 추천 기법 연구
Top-k Recommendation 성능에 초점을 맞춘 Collaborative Filtering 기법 연구
•
–
최신의 추천 기법과 성능 비교 평가
시간, 장소 등의 상황 정보를 활용할 수 있는 다차원 Collaborative Filtering 기법 연구
Related Work
•
Explicit Rating 을 활용한 추천 기법
–
–
사용자의 선호도 정보(Rating)를 가지고 사용자에 의해 평가되지 않은(Unrated)된 아이템의 평점을 예측하는
문제
RMSE 성능 평가에서 가장 우수한 성능을 보이는 최신(The state of the art)기법은 주로 SVD등의 Latent
Factor Model을 활용한 Matrix Factorization 기법
•
•
•
•
–
–
•
SVD
Asymmetric SVD
SVD++
PureSVD
성능 평가를 위하여 공개된 데이터 셋 (Netflix, MovieLens)가 존재
사용자에게 명시적인 선호도 정보를 요청하는 것은 매우 큰 시간 비용을 필요로 하는 일
Implicit Feedback을 활용한 추천 기법
–
User의 Item access history등 Implicit하게 얻을 수 있는 정보를 이용하여 추천
•
•
–
Asymmetric SVD, SVD++
•
•
–
User의 Movie Rental History 등을 Binary Matrix로 구성하여 Rating Prediction에 활용
Rating 정보를 보조하는 역할로만 Implicit Feedback을 사용하며, Explicit Rating Matrix가 존재하지 않으면 적용 불가능
Collaborative Filtering for Implicit Feedback Datasets (Yifan Hu et al.)
•
•
–
RMSE, MAE등 Rating 오차 성능 척도를 사용한 평가가 불가능 / Precision & Recall, Hit Ratio 등으로 평가
Explicit Rating을 활용한 추천 기법에 비하여 상대적으로 많은 연구가 이루어지지 않음
User의 History Data에 기반하여 Preference, Confidence를 모델링하고 이를 포함한 LDA모델을 학습하여 추천에 활용
유저 서베이를 통한 성능 평가/ 다른 기법과의 성능 비교 없음
A User-Item Relevance Model for Log-based Collaborative Filtering
•
Item Ranking의 문제로 바라보고 확률 모델로 collaborative filtering을 모델링/ Explicit Rating기법들과 직접 비교 불가능
Related Work
•
Random Walk를 활용한 추천 기법
–
ItemRank: A Random-Walk Based Scoring Algorithm for Recommender Engines
•
–
PageRank알고리즘으로부터 힌트를 얻어서 user-item bipartite graph를 구성하고 RWWR를 이용한
top-k Recommendation 수행
A Random Walk Method for Alleviating the Sparsity Problem in Collaborative Filtering
(Hilmi et al.)
•
Item간의 cosine similarity를 이용하여 Item 유사도 그래프를 구성. 유저의 초기 Item Preference에
기반하여 그래프 위에서 Random Walk를 수행한 후 아이템을 추천
Transforming Implicit Feedback into Ratings
Last.fm
Learning Set: SSI_ORI_TRN
Test Set: SSI_TEST_RANK_1
•
SVD (dim#=5)
uKNN (k=20)
RANDCF (restartFactor = 0.05)
Implicit Feedback Data를 대상으로 한 기존 추천 기법의 적용
–
–
기존의 추천 기법들은 𝑼𝒔𝒆𝒓 × 𝑰𝒕𝒆𝒎 Rating Matrix를 Rating Matrix를 기반 자료로 사용
User의 Item Access History 는 𝑼𝒔𝒆𝒓 × 𝑰𝒕𝒆𝒎 Access Count Matrix로 간주할 수 있다.
•
•
–
–
그러나 Count는 명시적인 선호도를 표현하는 값이 아니라는 점에서 Rating과 다른 의미를 가진다.
따라서 Count를 어떻게 Normalize 하여 사용하느냐가 매우 중요한 문제가 된다.
Last.fm 대상으로 실험 (시간 기준으로 Learning 80%, Test 20%)
관찰 결과(Hit Ratio)
•
•
•
Popularity가 꽤 높은 성능을 보임 그러나 Diversity에 약점
AVGD의 성능이 월등하게 높은 것으로 나타남
Log를 활용하여 추천할 때에는 다양한 Normalization 기법을 고려할 필요 있음
Random Walk based Collaborative Filtering
active user
User
𝑢1
𝑢2
𝑢3
𝑢4
…
𝑰𝟏
𝑢𝑛
…
𝑰𝒋
…
𝑰𝒏
𝑼𝟏
…
User preference
𝑈𝑖
𝑪(𝒊, 𝒋)
…
Item
𝑖1
𝑖2
𝑖3
𝑖4
…
𝑖𝑚
𝑼𝒎
Access Count Matrix
For an active user, recommend items that are most likely
preferred by the user based on other users’ preferences
𝑙 𝑝𝑎 , 𝑝𝑏 =
𝑙 𝑝𝑎 , 𝑝𝑏 =
𝐶(𝑖,𝑗)
𝑛 𝐶(𝑖,𝑗)
𝑗=1
𝐶(𝑖,𝑗)
𝑚 𝐶(𝑖,𝑗)
𝑖=1
where the node 𝑝𝑎 represents 𝑈𝑖 and the node 𝑝𝑏 represents 𝐼𝑗
where the node 𝑝𝑎 represents 𝐼𝑗 and the node 𝑝𝑏 represents 𝑈𝑖
Random Walk based Collaborative Filtering
•
관찰 결과(Hit Ratio)
–
–
–
–
Count Matrix를 Normalize하지 않았을 경우 월등하게 RANDCF가 성능이 앞섬
그러나 AVGD Normalization을 수행한 SVD, uKNN 의 경우 성능이 매우 증가하나
RANDCF 는 성능이 크게 증가하지 않아서 순위가 뒤바뀜
다른 실험을 수행하고 관찰하면서 현재의 단순한 모델을 확장할 필요 있음
RANDCF는 매우 단순한 구조이므로 개선, 확장될 여지가 많음