Transcript 19웹탐색

웹 검색의 구조

웹 검색의 이용률

웹 데이터의 구조

휘발성, 그리고 변경률

웹의 탄생

• Tim Berners-Lee 가 1990년에 CERN인터넷상의 문서 교류를 연구 및 활동 시작.

• FTP로부터 자료공유에 대한 아이디어.

• • 그후 HTTP프로토콜을 개발하고 URL과 HTML개념 그리고 웹서버 개념 확립 최초의 HTML 은 Ted Nelson 이 1965 년에 개발

웹 IR에서의 도전과제

Distributed Data : 문서들이 알 수 없는 많은 곳에 분포 Volatile Data : 앞선 표(표보다 현재는 더)와 같이, 하루 에도 수백만개 이상의 문서가 사라지고, 생겨남 Large Volume : 양 자체가 너무 많다.

Unstructured and Redundant Data Quality of Data Heterogeneous Data : 모든 학문과, 모든 데이터를 표현하다 보니 체계가 없음.

: 데이터의 신뢰도가 낮음 : 데이터 포멧 자체도 지원하기 힘 듬..

웹의 성장

Google Inktomi AllTheWeb Teoma Altavista 웹 검색엔진의 평가 Link to Note from Jan 2004 한 페이지당 순수내용 20KB바이트로 계산시 10억만 페이지는 20테라 바이트가된다.

7

웹 검색 체계

Zipf의 법칙 • 인, 아웃링크로부터의 페이지수는 zipfian 분포를 가진다.

• 웹 페이지의 크기도 Zipfian의 분포를 가진다 • 웹 페이지의 클릭수도 Zipfian의 분포를 가진다.

9

Zipf의 법칙

Zipf의 법칙

• 모든 단어중 실제 사용되는 단어는 별로 안됨 • 빈도수를 Y, 순위를 X라고 할 때

• Y=c*X^(-a)

• 이 때 c와 a는 상수이며 a는 1에 근접한 값을 을 갖는다. • 여기서 드물게 사용되는 많은 단어들이 long tail을 이루는 것이다

.

Pareto의 법칙

승자독식(Winner-take-all)적인 특징이 웹에서도 나타남..

p

(

x

) 

a ak x

1 

a

Long Tail

Long tail(롱 테일, 긴 꼬리)은 통계 분포의 특징을 표 현하는 용어 Long tail을 보이는 통계 분포 곡선은 일반적으로 단 조감소하는 지수 함수로 표현 그 꼬리가 길게 이어지는 모양 Long tail이란 개념은 통계 분포의 특징을 나타내는 의미로 오래전부터 사용되어 왔다. Zipf 분포, Power law 분포, Pareto 분표 등이 롱 테일을 보여 주는 분포의 대표적인 예

중복 문제

최근 웹 IR분에서 가장 큰쟁점.

40%이상이 중복된 데이터.

아래 스탠포드 IRBOOK의 shingling 중복탐색기법 http://nlp.stanford.edu/IR-ook/html/htmledition/near duplicates-and-shingling-1.html

순위화 HITS

authority '권위 있다'는 것은 검색어로 "harvard"를 입력하면 수만, 수십만 페이지가 결과로 '권위 있 는' 페이지는 당연히 www.harvard.edu. 그런데 이런 '권위 있는' 페이지 를 찾아낼 문서 자체의 내부적 특성이 부재 단어 빈도수를 따져보았을때 www.harvard.edu

는 "harvard"라는 단어가 가장 많이 등장하는 페이지가 아님. 단어 빈도수만을 기준으로 '권위'를 추정하는 경우 전혀 엉뚱한 페이지가 가장 관련성이 높은 페이지가 될수 있음 중요한 수단이 하이퍼링크를 활용하는 것 하이퍼링크는 사람의 판단이 포함되어 있기 때문 링크가 많이 되어 있는 페이지가 있다면 그 페이지는 살펴 볼 가치가 있는 페이지일 가능성이 높다

HITS 알고리즘(1)

어떤 노드 p의 out-degree: 밖으로 나가는 링크의 갯수 어떤 노드 p의 in-degree : 노드 p를 가리키는 링크의 갯수 G[W] : V에 속하는 부분집합 W로부터 만든 그래프 질의어 : σ 하이퍼링크로 연결된 페이지들의 컬렉션 V를 G = (V,E)라는 directed graph로 표현 우리가 원하는 집합을 Sσ라 하면, Sσ는 이런 특성을 가지면 좋다. 상대적으로 작아야 한다. 관계되는 페이지가 많아야 한다. 대부분의 오쏘리티들을 담고 있으면 좋겠다. 1. 질의어와 관계있는 페이지들의 부분집합(서브 그래프 (subgraph)를 구하자

HITS 알고리즘(1)

상위 t개의 페이지를 루트셋(root set) Rσ->1,2번조건 만족 하지만 3번은 X Rσ를 이용해서 강한 오쏘리티(strong authorities)를 찾아낼 수 있다면 우리 가 원하는 Sσ에 가까운 서브 그래프 제작 Subgraph(σ, ε, t, d) σ : a query string ε : a text-based search engin t,d : natural numbers Let Rσ denote the top t results of ε and σ Set Sσ := Rσ For each page p ∈ Rσ Let T+(p) denote the set of all pages p points to Let T-(p) denote the set of all pages pointing to p Add all pages T+(p) to Sσ If |T-(p)| ≤ d then (개수가 너무 많아서 표본) Add all pages in T-(p) to Sσ Else Add an arbituray set of d pages from T-(p) to Sσ End Return Sσ

HITS 알고리즘(2)

Gσ(서브그래프)속에 존재하는 헙과 오쏘리티를 찾아내는데, 제일 쉽게 생각해 볼 수 있는 것이 Gσ내의 페이지들을 in degree 순으로 순위를 매기는 것 Gσ라는 특정 검색어와 관계성이 높은 페이지들 집합 속에 서 다른 페이지로부터의 링크가 많다는 것은 그 만큼 '좋은' 페이지일 가능성이 높아지기 때문 실제로 그렇게 해보면 강력한 오쏘리티와 보편적으로 인 기가 높은 페이지(universally popular pages) 사이의 긴 장이라는 문제 발생(주제없이 무조건적 링크)

HITS 알고리즘(3)

authority weight", 즉 오쏘리티 가중치를(높을수록 좋은 오쏘 리티) x(p)라 하고, "hub weight", 헙 가중치를(높을수록 좋은 헙) y(p)라 하면 다음과 같은 두 가지의 연산이 가능 http://www.emh.co.kr/xhtml/hubs_and_authorities.html

PageRank