유사한 인기도

Download Report

Transcript 유사한 인기도

유사한 인기도 추세를 갖는
웹 객체들의 클러스터링
2012. 2. 15
정보보증 연구실
윤재성
목차
1. 웹 객체들의 인기도 측정의 어려움
2. k-means와 DBSCAN 알고리즘
3. 웹 객체들간의 유사성 척도
4. 효율적인 GAP 척도 계산 및 클러스터링
5. 실험 결과
6. 결 론
3 / 23
웹 객체들의 인기도 측정의 어려움
유사한 인기도 추세를 갖는 두 웹 객체들
4 / 23
웹 객체들의 인기도 측정의 어려움
유사한 인기도 추세를 갖는 두 웹 객체들
웹 객체의 인기도는 0 이상의 임의의 정수값을 가지나, 그 최대값은 웹 객체의
따라 편차가 매우 크고 예측하기 어렵다
웹 객체의 인기도는 시간에 따라 변화한다
=> 웹객체의 인기도를 시계열로 표시, 유사성 판정을 위한 gap 척도 제안
웹 객체의 개수가 매우 많다(수 억개 이상)
=> 밀도 기반 클러스터링 알고리즘의 하나인 DBSCAN 알고리즘을 이용하여,
유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성
5 / 23
웹 객체들의 인기도 측정의 어려움
논문에서 제시한 인기도 측정 방법
웹 객체의 인기도를 n-차원의 벡터인 시계열(Time-series)로 표현
두 웹 객체간의 인기도의 유사성을 판정하기 위하여 gap이라는 새로운 척도 제안
gap 척도에 기반하여 밀도기반 클러스터링 알고리즘의 하나인 DBSCAN 알고리즘을
이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터들을 생성
6 / 23
k-means와 DBSCAN 알고리즘
K-means 알고리즘
보통 점들의 그룹의 평균이 되는 중심점에 의해 분할하여 k개의 클러스터를 형성
DBSCAN 알고리즘
다차원적이고 공간적인 특성을 갖는 다양한 모양과 크기의 데이터에 대한
클러스터링 방법
클러스터들의 밀도를 결정하기 위해 2개의 매개변수를 입력받음
다양한 모양과 크기의 클러스터를 구분 가능하고, 클러스터와 잡음을 점들의
밀도를 기준으로 구분
7 / 23
웹 객체들 간의 유사성 척도
인기 객체(Popular Item)의 정의
단위 시간내에 다른 객체들에 비해 좀 더 빈번하게 엑세스되거나 사용된 웹 객체를
의미한다
최대 인기도(단위 시간내에 임의의 사용자가 엑세스하거나 사용한 횟수의 합)가 t1을 초과한다
전체 단위시간 동안의 인기도의 표준 편차가 t2를 초과한다.
※ t1, t2는 한계값(Threshold)
8 / 23
웹 객체들간의 유사성 척도
동일한 길이(차원) n의 두 객체 t1과 t2간의 유사도(similarity)는
다음과 같이 정의함.
<t1, t2>는 두 벡터간의 내적
각각 객체의 크기
9 / 23
웹 객체들간의 유사성 척도
동일한 길이(차원) n의 두 객체 t1과 t2간의 유사도(similarity)는
다음과 같이 정의함.
이t1과
gap을
데에
임의의 두 객체
t2에계산하는
대하여 그들
간의쓰이는
gap은 다음과 같이 정의함
기존 알고리즘은 DTW나 유클리드 거리법!!
그런데 많은 양을 계산시 너무 느림!!ㄷ
벡터 t+d는 벡터 t={t0, t1, t2, … tn-1}을 d만큼 회전한 벡터이며,
즉, 이는 t+d={td, td+1, td+2,…,tn-1, t0, t1, t2, … td-1}으로 표시할 수 있음.
dissim(t1, t2)가 영역[0, π] 내의 값을 가지므로, gap(t1, t2)도 동일한 영역내의
값을 가짐
10 / 23
웹 객체들간의 유사성 척도
블러링 기법
객체 벡터내의 주변 요소 값들에 대한 가중치가 가우스(정규) 분포를 가지는 것
표준 편차
주변 요소간의 거리
11 / 23
실험 결과
성능 평가 결과
약 8,000개의 키워드로 부터
2,560개의 단일 단어 추출!!
12 / 23
실험 결과
클러스터 분석 결과(
)
DBSCAN 알고리즘을 수행하여 얻어진 예상된 패턴
상식적으로 서로 관련이 있을 것으로 여겨지는 예상되는 키워드들의 클러스터들
예로 ‘symantec’과 ‘virus’ 키워드 쌍을 들수 있음
DBSCAN 알고리즘을 수행하여 얻어진 주기적 패턴
특정 기간을 주기로 특정 시점에 매우 인기가 높아지는 키워드들의 클러스터들
예로 ‘amigo’, ‘egg’, ‘cupid’등을 들수 있음
DBSCAN 알고리즘을 수행하여 얻어진 비예측 패턴
상식적으로 상관관계가 쉽게 발견되지 않는 키워드들의 조합을 의미
예로 {connelly, farrel, mischa} 조합은 시간차이를 두고 유사한 인기도를 가짐
13 / 23
실험 결과
클러스터 분석 결과(
)
DBSCAN 알고리즘을 수행하여 얻어진 주기적 패턴
특정 기간을 주기로 특정 시점에 매우 인기가 높아지는 키워드들의 클러스터들
예로 ‘amigo’, ‘egg’, ‘cupid’등을 들수 있음
14 / 23
실험 결과
클러스터 분석 결과(
)
DBSCAN 알고리즘을 수행하여 얻어진 비예측 패턴
상식적으로 상관관계가 쉽게 발견되지 않는 키워드들의 조합을 의미
예로 {connelly, farrel, mischa} 조합은 시간차이를 두고 유사한 인기도를 가짐
15 / 23
결론
웹 객체의 인기도를 시계열로 표현하였고, 웹 객체 인기도간의 유사성을
측정하기 위해 gap 척도를 제안하였다
gap 척도를 기반으로 밀도기반 클러스터링 알고리즘인 DBSCAN을
이용하여 유사한 인기도 추세를 갖는 웹객체들의 클러스터를 생성하였다
Google Trends 웹사이트로부터 인기도 추세를 이용한 실험에서
제안된 알고리즘이 실제 응용에서 인기도 패턴을 찾아내는 데에
유용함을 보였다
감사합니다