2.2 C-Rank 소개

Download Report

Transcript 2.2 C-Rank 소개

C-Rank:
기여도 기반의 웹 문서 랭킹 방법
김동진
(NHN NEXT)
1
목차
1. 정보 검색 Introduction
1.1 검색 서비스 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
2
질문 1
 상황
 네이버/구글 검색 사용자가 검색어로 “월드컵”을 입력했다.
 질문
 사용자가 찾고자 하는 정보는 무엇일까요?
 https://www.mentimeter.com/p/2807d81b2058
 원하는 정보
 월드컵 사이트, 일정, 장소, 역사, 지난 대회 우승국, 한국
시합 날짜 등
 다양함
3
질문 2
 상황
 인터넷으로 제주도 가는 항공권 예약을 하려고 한다.
 질문
 사용자가 찾고자 하는 정보는 무엇일까요?
 원하는 정보
4
질문 1과 질문 2의 차이점
 정답 개수
 데이터 관리 방식
그 외
5
정답 개수
 항공권 예약 검색
 찾고자 하는 정보가 명확함
 즉, 하나의 정답이 있음
 월드컵 검색
 검색어 입력한 사람에 따라서 원하는 정보가 다름
 동일한 사람이 입력하더라도 검색 시점에 따라서 원하는
정보가 다를 수 있음
 즉, 정답이 여러 개일 수 있음
6
Data 관리 방식
 항공권 예약 검색
 데이터 검색 (Data Retrieval)
• 출발지, 도착지, 출발 시간, 가격, 좌석수 등의 정보를
구조화해서 저장.
• 주어진 Database에서 SQL 등으로 쿼리 조건에 맞는
결과를 찾아냄
 월드컵 검색
 문서 검색 (Document Retrieval)
• Unstructured data + query
• 검색어와 제일 관련도가 높은 문서를 찾아냄
• 네이버, 구글 등의 검색 엔진
7
“월드컵” 검색 결과
8
“월드컵” 검색 결과
9
오늘 세미나의 관심 대상
우리가 일상적으로 사용하고 있는 인터넷 검색
웹 문서 검색의 문서 순위 결정 방법
10
순위 결정(Ranking)하는 기본적인 방법
 검색어가 1개 단어인 경우
 예제: “월드컵”
 주어진 검색어를 포함하는 문서
 검색어를 포함하는 문서가 많은 경우
• 검색어가 문서에서 여러 번 사용된 경우 문서
• Term Frequency (TF): 문서 내의 단어 빈도수
 검색어가 2개 이상 단어로 구성된 경우
 예제: “월드컵 개최국”
 두 개 단어 모두 포함한 문서
 두 단어 모두 많이 사용하는 문서
11
질문
 주어진 상황
 검색어: “월드컵 개최국”
 문서 A: “월드컵” 2번 사용, “개최국” 1번 사용
 문서 B: “월드컵” 1번 사용, “개최국” 2번 사용
 다른 조건이 문서 A와 문서 B 모두 동일하다고 가정
 문제
 문서 A와 문서 B중 어느 문서가 더 검색어와 관련된 문서일
가능성이 높을까?
 즉, 검색 결과 상위에 나와야 할까?
 https://www.mentimeter.com/p/653348cb15fc
12
질문 (cont.)
 정답
 문서 B가 관련도가 높은 문서임
 Why?
• Inverse-document frequency (IDF)
• 1 / (전체 문서 중 해당 단어가 나타난 문서수)
• 적은 수의 문서에서 사용된 단어가 더 중요한 단어임
 검색어 “타이로신혈증 원인”
• “타이로신혈증” 포함 문서수: 67,300 (구글)
• “원인” 포함 문서수:
20,300,000 (구글)
• “타이로신혈증” 1번 사용 문서 >> “원인” 1번 사용 문서
 검색어 “월드컵 개최국”
• “월드컵” 포함 문서수: 15,100,000 (구글)
• “개최국” 포함 문서수:
827,000 (구글)
13
Content-Based Approach
 문서의 내용을 분석해서 순위 결정
 Term frequency(TF)와 inverse-document frequency(IDF) 사용
 전략
 검색어와 문서 사이의 관련도가 높으면 랭킹(검색 순위)이 높음
• 검색어의 단어가 문서 내에서 많이 사용된 경우 관련도 높음
• 검색어의 단어가 소수의 문서에서만 사용된 경우 관련도 높음
 대표적 기법
 BM25
 Language Model
 한계점
 웹 문서 개수가 많아지면서 상위 랭킹 문서들의 점수 차이가 크지 않음
 결과적으로 관련도가 상대적으로 낮은 문서가 상위에 랭킹될 확률이
14
높아짐
웹 문서의 특징
 HTML 문서
 Hyperlink로 서로 연결되어 있음
 웹 문서의 특징을 활용하는 방법은 없을까?
15
Link-Based Approach
 Hyperlink로 연결된 링크 구조를 이용하는 방법
 전략
 다른 문서들이 링크로 가리키고 있으면 중요한 문서일 가능성이 높음
 대표적 기법
 Inlink count
• Graph로 표현할 때 indegree가 클수록 좋은 문서
 PageRank
• Google이 제시한 방법.
• “좋은 문서가 가리키는 문서는 좋은 문서”라는 개념 사용
• 문서수 x 문서수 크기의 역행렬 계산.
 문제점
 문서의 내용과 무관하게 순위가 매겨짐
 결과적으로 검색어와 관련된 문서를 찾기 위한 첫 번째 조건이 될 수
없음
16
Content와 Link를 결합하는 방법 (1)
 Content 점수와 Link 점수의 가중합
 Inlink 사용 시
• 문서점수 = d x (content 기반 점수)
+ (1 – d) x log(Inlink Count)
 PageRank 사용 시
• 문서 점수 = d x (content 기반 점수)
+ (1 – d) x log(PageRank)
17
Content와 Link를 결합하는 방법 (2)
 가중합 방법의 문제점
 Link 점수가 높으면 검색어와 무관해도 전체 점수는 높음
 Link 점수가 낮으면 내용이 좋아도 전체 점수는 낮음
 등고선 상의 모든 문서는 동일한 점수를 부여 받음
Link 기반 점수
이상적인 정답 문서의
점수 위치
Content 기반 점수
 근본적인 문제점
 Content 점수가 높다고 문서의 검색어 관련도가 반드시 높은 것이 아님
 Link 점수가 높다고 문서의 검색어 관련도가 반드시 높은 것이 아님
 부정확한 두 가지 정보를 더하므로 효과적인 결합 방법 찾기가 어려움
18
Content와 Link를 결합하는 방법 (3)
 효과적으로 결합하기 위한 전략
 Link 정보를 query-dependent하게 활용하자.
 Content만을 사용한 검색 결과 내에서 link graph를 구성
 구성된 graph에서 링크를 고려한 점수 계산
 대표적 방법
 Intelligent Random Surfer
 Relevance Propagation Model
 HITS
 그 외 다수
 문제점
 검색어 입력 시점에 link 정보를 분석
 계산 시간이 너무 많이 소요됨
 상용 검색 엔진에 적용할 수 없음
19
Summary
 정보 검색
 문서 내에 있는 내용, 문서 그 자체, 문서에 있는 메타데이터,
데이터베이스에서 정보를 찾는 것을 말함 (위키피디아)
 정보 검색 구분
 데이터 검색 (Data Retrieval)
• Structured data + query  결과 data set 추출
 문서 검색 (Document Retrieval)
• Unstructured data + query  관련 문서 추출
 Ranking
 Query와 관련된 문서를 찾아서 query 관련도 순위를 정하는 것
 Ranking approaches 분류
 Content-based approach
 Link-based approach
20
현재 검색 서비스의 구성 요소
 문서 수집
•
목적: 사용자들의 찾고자 하는 정보를 포함하는 문서들을 미리 확보하는 과정
•
방법: Web Crawling, 사용자 입력 (지식인, 블로그, 게시판 등), 제휴 데이터
(뉴스 등) 수집
 문서 정제
•
문서 단위: 정보가 없는 문서, 중복 문서, 성인 문서 등의 저품질 문서 제거
•
정보 단위: HTML 문서의 내용 중 본문 이 외의 정보 제거. 예) 광고
•
결과물: 다수의 문서로 구성된 collection
 문서 색인 및 랭킹
•
문서의 내용을 단어별로 분리
•
각 문서의 각 단어 관련도 점수 계산
 실시간 검색 결과 제공
•
질의어가 입력되면 실시간 검색 결과 제공
21
현재의 검색 서비스
 사용자 기대
 찾고자 하는 정보를 포함하는 문서가 검색 결과 상위에
노출되기를 기대함
 서비스 제공자
 사용자들이 원하는 정보를 포함하는 문서를 미리 확보
 검색어가 입력되면 사용자가 찾는 것으로 추정되는 문서를
검색 결과 상위에 노출
 상업적으로는 검색 광고를 통한 수익 증대
22
미래의 검색 서비스
 사용자의 기대
 전문적 지식을 갖춘 개인 비서
 사용자의 대략적인 질의를 분석한 후 검색된 정보를
요약해서 정답 제공
 서비스 제공자
 Semantic 검색 등
 인공지능 기반의 전문가 수준 요약 서비스
 실현 가능한 시점
 10년~20년 후면 가능할까?
23
정보 검색의 응용 분야
 사용자별 적합한 상품 소개
 게임 사용자가 좋아하는 모바일 게임 특성 파악
 파악된 특성을 갖는 게임 소개
 Opinion Leader 찾기
 친구 추천
 Facebook, Line, 카톡
 그 외 다양한 분야
24
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
25
C-Rank를 생각하게 된 이유
 Google PageRank의 이상함
 매우 멀리 떨어져 있는 문서들 사이의 영향
 문서가 삭제 혹은 추가
• 멀리 떨어진 다른 문서의 PageRank도 변경
 나비 효과? 아니면 Tunneling effect?
 웹 제작자는 난해한 이론 물리 연구자가 아니다.
 링크 활용 방법이 검색어와 무관
 PageRank가 높으면 어떤 질의어에 대해서도 높은 점수를 받음
PageRank에 문제점이 있다.
현재 세계 1등인 Google의 PageRank보다
더 좋은 랭킹 알고리즘을 만들 수 있을 것 같다!!!
26
Intuitions
 스포이드로 종이에 물감 떨어뜨리기
 종이: 웹 환경
 물감: 문서 혹은 문서의 내용
 물감 떨어뜨리기: 문서 작성
 물감 번짐: 링크로 연결된 문서의 가치에 영향을 줌
 물감의 색깔: 문서의 주제에 해당
 특정 주제와 관련된 문서: 특정 색깔의 농도가 진함
 웹 환경과 스포이드 실험의 유사성?
 웹 제작자가 신규 문서를 만드는 과정은 스포이드로 물감 떨어뜨리는
과정과 유사하지 않을까?
 스포이드 실험이 웹의 특성을 잘 설명할 수 있다면?
 각 문서의 근처 문서만 다루어도 링크 정보를 충분히 활용 가능함
• Locality 특성
 질의어(검색어)별 처리가 가능함
27
C-Rank 초기 개념
 문서 색깔
 문서 혹은 문서가 포함하는 단어
 물감의 양
 문서의 단어 관련도 점수
 물감의 전파
 물감이 떨어진 곳에 제일 많이 흡수되고 멀리 떨어질수록 적게 흡수됨
 따라서, 멀리 퍼지지 않는 현상을 반영할 방법이 필요함
28
C-Rank 초기 개념의 개선
 초기 개념의 문제점
 계산 복잡도
• 모든 단어에 대해서 해당 물감을 인접한 문서로 전파해야 함
 결과적으로 실용성이 매우 떨어질 것으로 보임
 개선 아이디어
 각 문서가 모든 색깔 성분을 균일하게 가지고 있으면 검정색임
• 즉, 특별한 의미 없는 문서로 볼 수 있음
 각 문서의 색깔을 주요한 색깔 성분으로 나누어 볼 수 있음
 문서의 전체 색깔을 구성하는 주요 색깔에 해당하는 물감만을 인접
지역으로 전파
29
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
30
직관에 기반한 웹 문서의 특징
 웹 제작자 관점
 본문에 링크 사용 이유
• 문서가 다루는 주제에 대한 보충 설명
• 문서에서 다루는 용어에 대한 설명
 웹 문서 내용 구성
• 하나의 웹 문서는 일반적으로 하나 혹은 몇 개의 주제를 다룸
• 문서의 내용은 몇 개의 키워드로 표현 가능
 검색 결과
• 웹 제작자가 초점에 맞춘 검색어에 대해서 검색 결과 상위 노출
기대
• 관련 없는 검색어에 대해서는 랭킹에 관심 없음
 사용자 관점
 검색어와 관련된 정보를 포함하는 문서가 상위에 노출되기를 원함
 검색어를 키워드로 하지 않는 문서의 상위 노출 원하지 않음
31
C-Rank 방법의 전략
 기본적으로 문서의 단어 관련도 점수를 랭킹에 반영
 링크에 의해서 다른 문서의 품질 향상에 기여하는 정도 반영
 다른 문서의 품질 향상 기여는 각 문서의 키워드에 대해서만
고려
32
단어에 대한 문서의 C-Rank 점수
 문서의 단어 관련도 점수와 문서의 링크 기반 점수의 결합
 Func(문서의 단어 관련도 점수, 문서의 링크 기반 점수)
 각 점수 계산 방법
 문서의 단어 관련도 점수
• BM25, Language Model 등 사용
• 전통적인 내용 기반 방법을 그대로 사용
 문서의 링크 기반 점수
• 기여 점수로 계산
• C-Rank 계산의 초점이 되는 점수
33
C-Rank 알고리즘의 대략적인 흐름
1. 각 문서에 대해서 포함하는 term들의 단어 관련도 점수 계산
• 물감의 색깔별 농도
2. Keyword 추출
• 현재 실험에서는 단어 관련도 점수를 기준으로 상위 N개를 키워드로
지정함.
• 주요 색깔 지정
3. 각 link에 대해서 두 문서의 공통 키워드 추출
4. 각 link에 대해서 공통 키워드에 대한 weight를 정함
• 물감이 옆으로 전달되는 정도에 해당됨
• Weight 정하는 방법은 이후에 설명…
5. 각 link에 대해서 내용 기반 점수를 연결된 문서에 전파
• 4단계에서 주어진 weight에 비례하여 전파
34
C-Rank 알고리즘의 대략적인 흐름 (cont.)
6. 각 문서는 전파 받은 점수를 link로 연결한 문서에 전파
• 4단계에서 주어진 weight에 비례하여 재 전파
• 물감이 점점 퍼지는 과정
7. 6단계를 반복
• 일정 횟수 혹은 전파할 값이 threshold 이내일 때까지 반복
• 물감이 더 이상 퍼지지 않는 상태
• 본 실험에서는 일정 횟수로 제한함.
8. 각 term의 단어 관련도 점수와 전파 받은 점수를 조합하여 문서의 term에
대한 C-Rank 계산
9. 질의가 입력되면 C-Rank 순으로 출력
• Multi-term query의 경우 각 term의 C-Rank 점수의 합으로 랭킹
35
Link Weight 계산 전략
 Term t에 대한 링크 A  B에서 link weight
A
B
 문서 A의 term t에 대한 단어 관련도가 높으면 weight 높아진다.
• 좋은 문서가 hyperlink로 가리키고 있으므로 좋은 문서
 문서 B의 term t에 대한 단어 관련도가 높으면 weight 높아진다.
• 문서 B가 좋은 문서이면 문서 A가 더 많이 활용
 문서 A의 term t에 대한 단어 관련도가 문서 B에 비해서 높으면
weight는 낮아진다.
• 문서 A가 이미 충분한 정보를 가리고 있는 것으로 간주
 문서 A가 여러 개의 hyperlink를 포함하고 있으면 weight는 낮아진다.
• 문서 A가 여러 개의 문서를 가리키고 있으므로 B의 가치는 낮음
36
Link Weight와 기여점수
 문서 p가 문서 q를 link로 가리키고 있을 때의 link weight
 주변 문서들의 내용 점수 총합 중 자신의 관련도 점수 비율
r2
50
0.25
10
p
40
0.25
 t1 ( p, q) 
Rt (q )
Rt ( p ) 
 Rt (r )
routlink ( p )
0.3
q
60
12
12 = 40 x 0.3
r1
50
여기서 Rt (q) 는문서 q의 term t에 대한 content score
 전파할 기여 점수
 Link weight x 단어 관련도 점수
 t1 ( p, q)  Rt ( p)
37
Path Weight과 기여점수
 Path length가 2인 경우의 path weight
p
 t1 ( p, q )
q
 t1 (q, r )
r
 t2 ( p, r )   t1 ( p, q)   t1 (q, r )
 Path length가 d(>2)인 경우의 path weight
 경로를 구성하는 링크들의 weight 곱
𝑑−2
𝛼𝑡𝑑 𝑝, 𝑞 = 𝛼𝑡1 𝑝, 𝑟𝑑−1 ×
𝛼𝑡1 𝑟𝑖+1 , 𝑟𝑖 × 𝛼𝑡1 𝑟1 , 𝑞
𝑖=1
 기여 점수
 Path length x 단어 관련도 점수
 td ( p, q)  Rt ( p)
38
C-Rank 계산 수식
 Notation
 CRt ( p ) : 문서 p의 term t에 대한 C-Rank 점수
 계산 방법
 내용 점수와 기여 점수의 가중합
CRt ( p)   Rt ( p)  (1   ) 
td (q, p) Rt (q)
d qD ( p , d )
여기서 D( p, d ) 는 문서 p 와 length 가 d 인 path로 연결된 문서들의 집합
39
기여 점수의 Offline Computation
 매 iteration에서 수행하는 작업
 첫 번째 iteration
• 각 문서별로 자신이 hyperlink로 가리키는 문서로 내용 기반 점수
전달
 N번째 iteration
• 직전 단계에서 받은 내용 기반 점수에 link weight를 곱한다.
• 곱한 결과를 자신이 가리키는 문서로 전달
 계산 복잡도에 영향을 주는 요소
 Keywords 개수
 점수가 전파되는 path의 최대 길이
 실험에서 위 두 가지 요소를 바꾸면서 C-Rank 방법의 성능 측정함
40
C-Rank 계산 예제
 표시
 A(50, 0) : 문서에 대한 단어 A의 관련도 점수는 50, 기여 점수는 0
 화살표 위의 숫자: link weight를 의미
Document 1
A (50, 0)
Document 2
0.25
B (10, 0)
B (30, 0)
0.5
C (20, 0)
C (20, 0)
0.67
D (80, 0)
D (40, 0)
0.47
E (70, 0)
E (80, 0)
F (80, 0)
Document 3
0.33
0.47
0.5
0.53
A (10, 0)
B (20, 0)
D (70, 0)
E (70, 0)
F (90, 0)
 1 단계
 키워드 수를 5로 가정
 각 단어에 대한 문서의 관련도 점수 계산
 링크로 연결된 두 문서에서 모든 공통 키워드 추출
 각 공통 키워드에 대한 link weight 계산
 기여 점수 초기값은 모두 0
41
C-Rank 계산 예제 (cont.)
Document 1
Document 2
A (50, 0)
0.25
B (10, 7.5)
B (30, 0)
0.5
C (20, 10)
C (20, 0)
0.67
D (80, 26.8)
D (40, 0)
0.47
E (70, 37.6)
E (80, 0)
F (80)
Document 3
0.33
A (10, 0)
B (20, 3.3)
0.47
0.5
0.53
D (70, 37.6)
E (70, 35)
F (90, 42.4)
빨간색 숫자가 전달받은 기여점수임.
 2 단계
 링크를 통하여 기여점수 전달
• “단어관련도 점수” x “link weight”를 링크가 가리키는 문서로 전달
 단어 관련도 점수와 기여점수의 가중치가 d : (1 - d)일 때
• C-Rank 점수 = d x “단어 관련도 점수” + (1 - d) x “기여점수”
• d = 0.5라면 단어 C에 대한 문서 2의 C-Rank 점수 = 20 x 0.5 + 10
x 0.5 = 15
42
C-Rank 계산 예제 (cont.)
Document 1
A (50, 0)
B (30, 0)
Document 2
0.25
0.5
B (10, 7.5)
0.33
C (20, 10)
0.67
D (80, 26.8)
D (40, 0)
0.47
E (70, 37.6)
F (80)
A (10, 0)
B (20, 3.3 + 2.5)
C (20, 0)
E (80, 0)
Document 3
0.47
0.5
0.53
D (70, 37.6 + 12.6)
E (70, 35 + 18.8)
F (90, 42.4)
빨간색 숫자가 전달받은 기여점수임.
 3 단계
 직전에 받은 전달 점수에 link weight 곱한 후 다시 전달 작업을 반복
 각 단어에 대한 문서의 순위 변화 (d = 0.5라고 가정)
• A: (문서 1, 문서 3)  (문서 1, 문서 3)
• E: (문서 1, 문서 2 = 문서 3)  (문서 3, 문서 2, 문서 1)
43
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
44
실험 환경
 GOV 문서 collection 사용
 문서 수: 1.25M
 Hyperlink 수: 11.2M
 Query sets (검색어 집합)
 TREC-2003의 topic-distillation task (50개)
 TREC-2004의 topic-distillation task (75개)
 검색 엔진
 Lucene (open source)
 Baseline 점수
 BM25, vector space model
 C-Rank 계산 조건
 Keyword 개수: 10, 20, 30, 40, 50, 60
 Path 최대 경로 길이: 3, 5, 7, 9
45
사용한 정확도 measure
 P@10
 Precision at 10
 검색 결과 상위 10개 문서 중 질의와 관련 있는 문서의 개수
 MAP
 Mean average precision
 검색어 각각에 대한 average precision의 평균
 검색어에 대한 average precision: P@1, P@2, … , P@1000의 평균
46
키워드 개수에 따른 P@10, MAP
 Baseline 보다 월등히 좋은 결과 생성
 10개 ~ 20개 사이일 때 결과가 제일 좋음
47
Path 최대 경로에 따른 P@10, MAP
 Baseline 보다 월등히 좋은 결과 생성
 경로 길이가 3 ~ 5일 때 결과가 제일 좋음
48
이전 방법들과 정확도 비교
 비교 대상
 기존 방법 중 정확도가 좋은 relevance propagation model
 비교 결과
 C-Rank가 TREC-2003의 MAP과 TREC-2004의 P@10에서 1위
 C-Rank는 나머지 경우에 1위에 근접함
49
이전 방법들과 수행 시간 비교
 Online computation
 의미: 검색어가 입력되었을 때 수행 시간
 한 개의 단어 점수 계산 소요 시간
Time Usage (sec)
C-Rank
HT-WI
WIO
0.0
5.92
18.16
 C-Rank는 각 단어의 점수를 미리 계산하므로 소요 시간이 0임
 기존 방법들은 상용 검색 엔진에 적용하기에 online 계산 시간이 너무
큼
 Offline computation
 의미: 미리 계산할 때 소요되는 시간
Keyword 개수
5
10
15
20
40
Time usage (hour)
0.04
0.11
0.19
0.30
1.72
 키워드 개수를 10개 ~ 20개 정도로 할 경우 상용 검색 엔진에 적용
가능
50
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
51
C-Rank 요약 및 결론
 활용한 웹 문서 특징
 웹 제작자는 문서 내용을 보강하기 위해서 다른 문서를 link로 연결
 링크로 연결된 문서는 다른 문서의 내용에 기여
 웹 제작자는 질의어가 문서의 키워드에 해당할 경우 검색 결과 노출을
원함
 웹 검색 사용자는 질의어가 키워드에 해당하지 않는 문서는 검색 결과
노출되지 않기를 원함
 실험 결과
 10개 키워드, 3 hyper-link distance에서 최적의 결과 얻음
 Effectiveness(정확도) & Efficiency(효율성)
 Effectiveness
• Baseline 대비 약 53% 증가
• 기존의 relevance propagation model에 비해 좋거나 비슷
 Efficiency
• 상용 엔진에 적용 가능한 수준
52
Intuitions과 최종 결과 비교
 Intuitions
 멀리 떨어져 있는 문서는 서로 영향이 없어야 함
 물감 퍼지는 개념
 최종 결과
 최대 path length가 3~5 정도에서 좋은 결과 얻음
 물감의 주요한 색깔 성분만 처리하여 좋은 결과 없음
 Intuitions과 최종 결과가 서로 일치
 추가 Intuitions
 동적 갱신
• 의미: 문서 추가/삭제/변경 시 이미 계산된 결과에 반영하는 것
• 물감이 멀리 퍼지지 않았으므로 근처에 있는 물감만 제거하면 부분
갱신 가능
53
• 부분 갱신이 가능하면 동적 갱신 가능
향후 연구 방향
 개선된 키워드 추출 방법 적용
 동의어 적용
 동적 갱신 방법 적용
54
검색 서비스의 궁극적 방향
 전문적 지식을 갖춘 개인 비서가 제공하는 것과 유사한 검색 결과 생성
 인공지능을 활용한 검색
 최근에 deep learning algorithm의 검색 적용이 시도되고 있음
연구/개발 도전!!!
재미있지 않을까요?
영화 iRobot의 한 장면
55
Q&A
56