Transcript present
태그를 이용한 웹 페이지간의 유사도 측정 방법 (Measuring Web Page Similarity using Tags) 목적 태그를 이용한 두 웹페이지 간의 의미적 유사 도 측정하는 방식 WSET(Web Page Similariy Based on Entire Tags)을 제안 의미적 유사도(semantic similarity) : 웹 페이지들이 얼마나 비슷한 주제 또는 내용을 다루고 있는지를 측정하는 척도 이전의 유사도 측정 방법들 HITS알고리즘 (Hiperlink-Induced Topic Search) 텍스트 데이터를 통한 측정 Social-SimRank(SSR)을 이용한 방식 SSR : 태그간의 유사도 측정 방식 NA : 태그의 개수 2차원 행렬 SA=NAⅹNA 두 웹페이지 P, Q의 각각 태그 [t1,t2,…,tn], [u1,u2,…,um] P와 Q의 유사도 Sp(P,Q)=SA(t1,u1)+SA(t1,u2)+…+SA(tn,um) Sp(P,Q)= n m Sp(P,Q)=∑ ∑ SA(ti,uj) Sp(P,Q)=i=1 j=1 Social-SimRank(SSR)을 이용한 방식 단점 : 여러 의미로 쓰이는 단어에 대해 문제가 생김 덧셈을 통하여 관계가 없어도 높게 나옴 예 : java – 프로그래밍 언어, 인도네시아의 섬 SMM(Separable Mixture Model) 동시 발생 데이터(co-occurrence data)를 위한 통계적 모델 동시 발생 데이터 : 동시에 발생하는 두 가지 다른 종류의 데이터 ex) 웹 페이지, 태그 각각 추상 클래스가 발생할 확률과 데이터 각 각이 K개의 추상 클래스 각각에 대해 나타날 조건부 확률을 알려줌 SMM을 웹 페이지와 태그에 적용 Class 1 Class 2 p(Cα) 0.75 0.25 p(‘programming’| Cα) 0.5 0 p(‘java’| Cα) 0.5 0.5 p(‘tour’| Cα) 0 0.5 p(A|Cα) 0.33 0 p(B|Cα) 0.33 0 p(C|Cα) 0.33 0 p(D|Cα) 0 1.0 WSET Web page Similarity based on Entire Tags SMM을 이용해 클래스들로 분류, 각 태그들이 각 클래스에서 나타날 확률을 이용해 유사도 측정 WSET 실험결과-샘플 SSR WSET [Java, Programming, Software] [Java, Travel, Island] 0.0521 0 [Eclipse, Java, Programming] [Java, Island, Tour] 0.0942 1.1E-26 WSET 실험결과-실제 delicious.com 10,000개의 웹 페이지 최소 총 6천 여 태그 이 200번 이상 태그 붙여진 웹 페이지 중 오타 등 이유로 상위 60%(약 3,600)만 사용 50개 클래스 WSET 실험결과-유사한 웹 페이지 Web Pages Tag Information 1 http://www.graphdrome.com/ [design, illustration, portfolio, …] 2 http://inspiredology.com/graphicdesign/typography [typography, design, inspiration, font, …] 3 http://feltron.com/ [design, portfolio, inspiration, typography, …] 4 http://www.maxomatic.net/ [illustration, design, portfolio, graphic, …] 5 http://www.adrianjohnson.org.uk/ [illustration, design, portfolio, …] page 2 3 1 0.017 0.018 0.069 0.038 2 0.031 0.021 0.027 3 0.018 0.028 4 0.038 SSR Results 4 5 2 3 4 5 0.016 0.015 0.011 0.042 0.030 0.023 0.016 0.046 0.015 0.011 WSET Results WSET 실험결과 -완전히 다른 웹 페이지 WSET 실험결과 -다양한 의미를 가지는 태그 webdev, howto 고려 사항 웹 페이지-태그 데이터의 적절한 샘플링 최신 데이터를 반영하여 SMM을 주기적 구축 필요 적절한 수의 K개의 추상 클래스 지정 결론 SMM을 이용해 각 태그들이 클래스에 나타날 확률이 아닌 해당 태그 전체가 같은 클래스에 서 나타날 확률을 계산하여 의미적 유사도를 측정하는 방식에 더 좋은 결과를 보임 완전히 다른 태그에 대해 민감 Web Pages Tag Information 1 http://www.graphdrome.com/ [design, illustration, portfolio, …] 2 http://inspiredology.com/graphicdesign/typography [typography, design, inspiration, font, …] 3 http://feltron.com/ [design, portfolio, inspiration, typography, …] 4 http://www.maxomatic.net/ [illustration, design, portfolio, graphic, …] 5 http://www.adrianjohnson.org.uk/ [illustration, design, portfolio, …] page 2 3 1 0.017 0.018 0.069 0.038 2 0.031 0.021 0.027 3 0.018 0.028 4 0.038 SSR Results 4 5 2 3 4 5 0.016 0.015 0.011 0.042 0.030 0.023 0.016 0.046 0.015 0.011 WSET Results 완전히 다른 태그에 대해 민감 http://www.graphdrome.com/ Tag : illustration,design,portfolio,art,typography,grap hics,inspiration,drawing,illustrator,designer http://www.maxomatic.net/ Tags : illustration,design,portfolio,inspiration,collage, barcelona,art,graphics,graphic,illustrator 여러 의미 가진 태그 제거에 우수 여러 의미를 지닌 태그로 인해 의미적 유사성 이 높게 나오는 것을 방지하는데 우수 다만, 완전히 다른 태그 하나가 끼어들어 있으 면 더 유사한 웹 페이지더라도 의미적 유사도 가 낮게 나올 수 있음