2.2 C-Rank 소개
Download
Report
Transcript 2.2 C-Rank 소개
C-Rank:
기여도 기반의 웹 문서 랭킹 방법
김동진
(NHN NEXT)
1
목차
1. 정보 검색 Introduction
1.1 검색 서비스 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
2
질문 1
상황
네이버/구글 검색 사용자가 검색어로 “월드컵”을 입력했다.
질문
사용자가 찾고자 하는 정보는 무엇일까요?
https://www.mentimeter.com/p/2807d81b2058
원하는 정보
월드컵 사이트, 일정, 장소, 역사, 지난 대회 우승국, 한국
시합 날짜 등
다양함
3
질문 2
상황
인터넷으로 제주도 가는 항공권 예약을 하려고 한다.
질문
사용자가 찾고자 하는 정보는 무엇일까요?
원하는 정보
4
질문 1과 질문 2의 차이점
정답 개수
데이터 관리 방식
그 외
5
정답 개수
항공권 예약 검색
찾고자 하는 정보가 명확함
즉, 하나의 정답이 있음
월드컵 검색
검색어 입력한 사람에 따라서 원하는 정보가 다름
동일한 사람이 입력하더라도 검색 시점에 따라서 원하는
정보가 다를 수 있음
즉, 정답이 여러 개일 수 있음
6
Data 관리 방식
항공권 예약 검색
데이터 검색 (Data Retrieval)
• 출발지, 도착지, 출발 시간, 가격, 좌석수 등의 정보를
구조화해서 저장.
• 주어진 Database에서 SQL 등으로 쿼리 조건에 맞는
결과를 찾아냄
월드컵 검색
문서 검색 (Document Retrieval)
• Unstructured data + query
• 검색어와 제일 관련도가 높은 문서를 찾아냄
• 네이버, 구글 등의 검색 엔진
7
“월드컵” 검색 결과
8
“월드컵” 검색 결과
9
오늘 세미나의 관심 대상
우리가 일상적으로 사용하고 있는 인터넷 검색
웹 문서 검색의 문서 순위 결정 방법
10
순위 결정(Ranking)하는 기본적인 방법
검색어가 1개 단어인 경우
예제: “월드컵”
주어진 검색어를 포함하는 문서
검색어를 포함하는 문서가 많은 경우
• 검색어가 문서에서 여러 번 사용된 경우 문서
• Term Frequency (TF): 문서 내의 단어 빈도수
검색어가 2개 이상 단어로 구성된 경우
예제: “월드컵 개최국”
두 개 단어 모두 포함한 문서
두 단어 모두 많이 사용하는 문서
11
질문
주어진 상황
검색어: “월드컵 개최국”
문서 A: “월드컵” 2번 사용, “개최국” 1번 사용
문서 B: “월드컵” 1번 사용, “개최국” 2번 사용
다른 조건이 문서 A와 문서 B 모두 동일하다고 가정
문제
문서 A와 문서 B중 어느 문서가 더 검색어와 관련된 문서일
가능성이 높을까?
즉, 검색 결과 상위에 나와야 할까?
https://www.mentimeter.com/p/653348cb15fc
12
질문 (cont.)
정답
문서 B가 관련도가 높은 문서임
Why?
• Inverse-document frequency (IDF)
• 1 / (전체 문서 중 해당 단어가 나타난 문서수)
• 적은 수의 문서에서 사용된 단어가 더 중요한 단어임
검색어 “타이로신혈증 원인”
• “타이로신혈증” 포함 문서수: 67,300 (구글)
• “원인” 포함 문서수:
20,300,000 (구글)
• “타이로신혈증” 1번 사용 문서 >> “원인” 1번 사용 문서
검색어 “월드컵 개최국”
• “월드컵” 포함 문서수: 15,100,000 (구글)
• “개최국” 포함 문서수:
827,000 (구글)
13
Content-Based Approach
문서의 내용을 분석해서 순위 결정
Term frequency(TF)와 inverse-document frequency(IDF) 사용
전략
검색어와 문서 사이의 관련도가 높으면 랭킹(검색 순위)이 높음
• 검색어의 단어가 문서 내에서 많이 사용된 경우 관련도 높음
• 검색어의 단어가 소수의 문서에서만 사용된 경우 관련도 높음
대표적 기법
BM25
Language Model
한계점
웹 문서 개수가 많아지면서 상위 랭킹 문서들의 점수 차이가 크지 않음
결과적으로 관련도가 상대적으로 낮은 문서가 상위에 랭킹될 확률이
14
높아짐
웹 문서의 특징
HTML 문서
Hyperlink로 서로 연결되어 있음
웹 문서의 특징을 활용하는 방법은 없을까?
15
Link-Based Approach
Hyperlink로 연결된 링크 구조를 이용하는 방법
전략
다른 문서들이 링크로 가리키고 있으면 중요한 문서일 가능성이 높음
대표적 기법
Inlink count
• Graph로 표현할 때 indegree가 클수록 좋은 문서
PageRank
• Google이 제시한 방법.
• “좋은 문서가 가리키는 문서는 좋은 문서”라는 개념 사용
• 문서수 x 문서수 크기의 역행렬 계산.
문제점
문서의 내용과 무관하게 순위가 매겨짐
결과적으로 검색어와 관련된 문서를 찾기 위한 첫 번째 조건이 될 수
없음
16
Content와 Link를 결합하는 방법 (1)
Content 점수와 Link 점수의 가중합
Inlink 사용 시
• 문서점수 = d x (content 기반 점수)
+ (1 – d) x log(Inlink Count)
PageRank 사용 시
• 문서 점수 = d x (content 기반 점수)
+ (1 – d) x log(PageRank)
17
Content와 Link를 결합하는 방법 (2)
가중합 방법의 문제점
Link 점수가 높으면 검색어와 무관해도 전체 점수는 높음
Link 점수가 낮으면 내용이 좋아도 전체 점수는 낮음
등고선 상의 모든 문서는 동일한 점수를 부여 받음
Link 기반 점수
이상적인 정답 문서의
점수 위치
Content 기반 점수
근본적인 문제점
Content 점수가 높다고 문서의 검색어 관련도가 반드시 높은 것이 아님
Link 점수가 높다고 문서의 검색어 관련도가 반드시 높은 것이 아님
부정확한 두 가지 정보를 더하므로 효과적인 결합 방법 찾기가 어려움
18
Content와 Link를 결합하는 방법 (3)
효과적으로 결합하기 위한 전략
Link 정보를 query-dependent하게 활용하자.
Content만을 사용한 검색 결과 내에서 link graph를 구성
구성된 graph에서 링크를 고려한 점수 계산
대표적 방법
Intelligent Random Surfer
Relevance Propagation Model
HITS
그 외 다수
문제점
검색어 입력 시점에 link 정보를 분석
계산 시간이 너무 많이 소요됨
상용 검색 엔진에 적용할 수 없음
19
Summary
정보 검색
문서 내에 있는 내용, 문서 그 자체, 문서에 있는 메타데이터,
데이터베이스에서 정보를 찾는 것을 말함 (위키피디아)
정보 검색 구분
데이터 검색 (Data Retrieval)
• Structured data + query 결과 data set 추출
문서 검색 (Document Retrieval)
• Unstructured data + query 관련 문서 추출
Ranking
Query와 관련된 문서를 찾아서 query 관련도 순위를 정하는 것
Ranking approaches 분류
Content-based approach
Link-based approach
20
현재 검색 서비스의 구성 요소
문서 수집
•
목적: 사용자들의 찾고자 하는 정보를 포함하는 문서들을 미리 확보하는 과정
•
방법: Web Crawling, 사용자 입력 (지식인, 블로그, 게시판 등), 제휴 데이터
(뉴스 등) 수집
문서 정제
•
문서 단위: 정보가 없는 문서, 중복 문서, 성인 문서 등의 저품질 문서 제거
•
정보 단위: HTML 문서의 내용 중 본문 이 외의 정보 제거. 예) 광고
•
결과물: 다수의 문서로 구성된 collection
문서 색인 및 랭킹
•
문서의 내용을 단어별로 분리
•
각 문서의 각 단어 관련도 점수 계산
실시간 검색 결과 제공
•
질의어가 입력되면 실시간 검색 결과 제공
21
현재의 검색 서비스
사용자 기대
찾고자 하는 정보를 포함하는 문서가 검색 결과 상위에
노출되기를 기대함
서비스 제공자
사용자들이 원하는 정보를 포함하는 문서를 미리 확보
검색어가 입력되면 사용자가 찾는 것으로 추정되는 문서를
검색 결과 상위에 노출
상업적으로는 검색 광고를 통한 수익 증대
22
미래의 검색 서비스
사용자의 기대
전문적 지식을 갖춘 개인 비서
사용자의 대략적인 질의를 분석한 후 검색된 정보를
요약해서 정답 제공
서비스 제공자
Semantic 검색 등
인공지능 기반의 전문가 수준 요약 서비스
실현 가능한 시점
10년~20년 후면 가능할까?
23
정보 검색의 응용 분야
사용자별 적합한 상품 소개
게임 사용자가 좋아하는 모바일 게임 특성 파악
파악된 특성을 갖는 게임 소개
Opinion Leader 찾기
친구 추천
Facebook, Line, 카톡
그 외 다양한 분야
24
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
25
C-Rank를 생각하게 된 이유
Google PageRank의 이상함
매우 멀리 떨어져 있는 문서들 사이의 영향
문서가 삭제 혹은 추가
• 멀리 떨어진 다른 문서의 PageRank도 변경
나비 효과? 아니면 Tunneling effect?
웹 제작자는 난해한 이론 물리 연구자가 아니다.
링크 활용 방법이 검색어와 무관
PageRank가 높으면 어떤 질의어에 대해서도 높은 점수를 받음
PageRank에 문제점이 있다.
현재 세계 1등인 Google의 PageRank보다
더 좋은 랭킹 알고리즘을 만들 수 있을 것 같다!!!
26
Intuitions
스포이드로 종이에 물감 떨어뜨리기
종이: 웹 환경
물감: 문서 혹은 문서의 내용
물감 떨어뜨리기: 문서 작성
물감 번짐: 링크로 연결된 문서의 가치에 영향을 줌
물감의 색깔: 문서의 주제에 해당
특정 주제와 관련된 문서: 특정 색깔의 농도가 진함
웹 환경과 스포이드 실험의 유사성?
웹 제작자가 신규 문서를 만드는 과정은 스포이드로 물감 떨어뜨리는
과정과 유사하지 않을까?
스포이드 실험이 웹의 특성을 잘 설명할 수 있다면?
각 문서의 근처 문서만 다루어도 링크 정보를 충분히 활용 가능함
• Locality 특성
질의어(검색어)별 처리가 가능함
27
C-Rank 초기 개념
문서 색깔
문서 혹은 문서가 포함하는 단어
물감의 양
문서의 단어 관련도 점수
물감의 전파
물감이 떨어진 곳에 제일 많이 흡수되고 멀리 떨어질수록 적게 흡수됨
따라서, 멀리 퍼지지 않는 현상을 반영할 방법이 필요함
28
C-Rank 초기 개념의 개선
초기 개념의 문제점
계산 복잡도
• 모든 단어에 대해서 해당 물감을 인접한 문서로 전파해야 함
결과적으로 실용성이 매우 떨어질 것으로 보임
개선 아이디어
각 문서가 모든 색깔 성분을 균일하게 가지고 있으면 검정색임
• 즉, 특별한 의미 없는 문서로 볼 수 있음
각 문서의 색깔을 주요한 색깔 성분으로 나누어 볼 수 있음
문서의 전체 색깔을 구성하는 주요 색깔에 해당하는 물감만을 인접
지역으로 전파
29
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
30
직관에 기반한 웹 문서의 특징
웹 제작자 관점
본문에 링크 사용 이유
• 문서가 다루는 주제에 대한 보충 설명
• 문서에서 다루는 용어에 대한 설명
웹 문서 내용 구성
• 하나의 웹 문서는 일반적으로 하나 혹은 몇 개의 주제를 다룸
• 문서의 내용은 몇 개의 키워드로 표현 가능
검색 결과
• 웹 제작자가 초점에 맞춘 검색어에 대해서 검색 결과 상위 노출
기대
• 관련 없는 검색어에 대해서는 랭킹에 관심 없음
사용자 관점
검색어와 관련된 정보를 포함하는 문서가 상위에 노출되기를 원함
검색어를 키워드로 하지 않는 문서의 상위 노출 원하지 않음
31
C-Rank 방법의 전략
기본적으로 문서의 단어 관련도 점수를 랭킹에 반영
링크에 의해서 다른 문서의 품질 향상에 기여하는 정도 반영
다른 문서의 품질 향상 기여는 각 문서의 키워드에 대해서만
고려
32
단어에 대한 문서의 C-Rank 점수
문서의 단어 관련도 점수와 문서의 링크 기반 점수의 결합
Func(문서의 단어 관련도 점수, 문서의 링크 기반 점수)
각 점수 계산 방법
문서의 단어 관련도 점수
• BM25, Language Model 등 사용
• 전통적인 내용 기반 방법을 그대로 사용
문서의 링크 기반 점수
• 기여 점수로 계산
• C-Rank 계산의 초점이 되는 점수
33
C-Rank 알고리즘의 대략적인 흐름
1. 각 문서에 대해서 포함하는 term들의 단어 관련도 점수 계산
• 물감의 색깔별 농도
2. Keyword 추출
• 현재 실험에서는 단어 관련도 점수를 기준으로 상위 N개를 키워드로
지정함.
• 주요 색깔 지정
3. 각 link에 대해서 두 문서의 공통 키워드 추출
4. 각 link에 대해서 공통 키워드에 대한 weight를 정함
• 물감이 옆으로 전달되는 정도에 해당됨
• Weight 정하는 방법은 이후에 설명…
5. 각 link에 대해서 내용 기반 점수를 연결된 문서에 전파
• 4단계에서 주어진 weight에 비례하여 전파
34
C-Rank 알고리즘의 대략적인 흐름 (cont.)
6. 각 문서는 전파 받은 점수를 link로 연결한 문서에 전파
• 4단계에서 주어진 weight에 비례하여 재 전파
• 물감이 점점 퍼지는 과정
7. 6단계를 반복
• 일정 횟수 혹은 전파할 값이 threshold 이내일 때까지 반복
• 물감이 더 이상 퍼지지 않는 상태
• 본 실험에서는 일정 횟수로 제한함.
8. 각 term의 단어 관련도 점수와 전파 받은 점수를 조합하여 문서의 term에
대한 C-Rank 계산
9. 질의가 입력되면 C-Rank 순으로 출력
• Multi-term query의 경우 각 term의 C-Rank 점수의 합으로 랭킹
35
Link Weight 계산 전략
Term t에 대한 링크 A B에서 link weight
A
B
문서 A의 term t에 대한 단어 관련도가 높으면 weight 높아진다.
• 좋은 문서가 hyperlink로 가리키고 있으므로 좋은 문서
문서 B의 term t에 대한 단어 관련도가 높으면 weight 높아진다.
• 문서 B가 좋은 문서이면 문서 A가 더 많이 활용
문서 A의 term t에 대한 단어 관련도가 문서 B에 비해서 높으면
weight는 낮아진다.
• 문서 A가 이미 충분한 정보를 가리고 있는 것으로 간주
문서 A가 여러 개의 hyperlink를 포함하고 있으면 weight는 낮아진다.
• 문서 A가 여러 개의 문서를 가리키고 있으므로 B의 가치는 낮음
36
Link Weight와 기여점수
문서 p가 문서 q를 link로 가리키고 있을 때의 link weight
주변 문서들의 내용 점수 총합 중 자신의 관련도 점수 비율
r2
50
0.25
10
p
40
0.25
t1 ( p, q)
Rt (q )
Rt ( p )
Rt (r )
routlink ( p )
0.3
q
60
12
12 = 40 x 0.3
r1
50
여기서 Rt (q) 는문서 q의 term t에 대한 content score
전파할 기여 점수
Link weight x 단어 관련도 점수
t1 ( p, q) Rt ( p)
37
Path Weight과 기여점수
Path length가 2인 경우의 path weight
p
t1 ( p, q )
q
t1 (q, r )
r
t2 ( p, r ) t1 ( p, q) t1 (q, r )
Path length가 d(>2)인 경우의 path weight
경로를 구성하는 링크들의 weight 곱
𝑑−2
𝛼𝑡𝑑 𝑝, 𝑞 = 𝛼𝑡1 𝑝, 𝑟𝑑−1 ×
𝛼𝑡1 𝑟𝑖+1 , 𝑟𝑖 × 𝛼𝑡1 𝑟1 , 𝑞
𝑖=1
기여 점수
Path length x 단어 관련도 점수
td ( p, q) Rt ( p)
38
C-Rank 계산 수식
Notation
CRt ( p ) : 문서 p의 term t에 대한 C-Rank 점수
계산 방법
내용 점수와 기여 점수의 가중합
CRt ( p) Rt ( p) (1 )
td (q, p) Rt (q)
d qD ( p , d )
여기서 D( p, d ) 는 문서 p 와 length 가 d 인 path로 연결된 문서들의 집합
39
기여 점수의 Offline Computation
매 iteration에서 수행하는 작업
첫 번째 iteration
• 각 문서별로 자신이 hyperlink로 가리키는 문서로 내용 기반 점수
전달
N번째 iteration
• 직전 단계에서 받은 내용 기반 점수에 link weight를 곱한다.
• 곱한 결과를 자신이 가리키는 문서로 전달
계산 복잡도에 영향을 주는 요소
Keywords 개수
점수가 전파되는 path의 최대 길이
실험에서 위 두 가지 요소를 바꾸면서 C-Rank 방법의 성능 측정함
40
C-Rank 계산 예제
표시
A(50, 0) : 문서에 대한 단어 A의 관련도 점수는 50, 기여 점수는 0
화살표 위의 숫자: link weight를 의미
Document 1
A (50, 0)
Document 2
0.25
B (10, 0)
B (30, 0)
0.5
C (20, 0)
C (20, 0)
0.67
D (80, 0)
D (40, 0)
0.47
E (70, 0)
E (80, 0)
F (80, 0)
Document 3
0.33
0.47
0.5
0.53
A (10, 0)
B (20, 0)
D (70, 0)
E (70, 0)
F (90, 0)
1 단계
키워드 수를 5로 가정
각 단어에 대한 문서의 관련도 점수 계산
링크로 연결된 두 문서에서 모든 공통 키워드 추출
각 공통 키워드에 대한 link weight 계산
기여 점수 초기값은 모두 0
41
C-Rank 계산 예제 (cont.)
Document 1
Document 2
A (50, 0)
0.25
B (10, 7.5)
B (30, 0)
0.5
C (20, 10)
C (20, 0)
0.67
D (80, 26.8)
D (40, 0)
0.47
E (70, 37.6)
E (80, 0)
F (80)
Document 3
0.33
A (10, 0)
B (20, 3.3)
0.47
0.5
0.53
D (70, 37.6)
E (70, 35)
F (90, 42.4)
빨간색 숫자가 전달받은 기여점수임.
2 단계
링크를 통하여 기여점수 전달
• “단어관련도 점수” x “link weight”를 링크가 가리키는 문서로 전달
단어 관련도 점수와 기여점수의 가중치가 d : (1 - d)일 때
• C-Rank 점수 = d x “단어 관련도 점수” + (1 - d) x “기여점수”
• d = 0.5라면 단어 C에 대한 문서 2의 C-Rank 점수 = 20 x 0.5 + 10
x 0.5 = 15
42
C-Rank 계산 예제 (cont.)
Document 1
A (50, 0)
B (30, 0)
Document 2
0.25
0.5
B (10, 7.5)
0.33
C (20, 10)
0.67
D (80, 26.8)
D (40, 0)
0.47
E (70, 37.6)
F (80)
A (10, 0)
B (20, 3.3 + 2.5)
C (20, 0)
E (80, 0)
Document 3
0.47
0.5
0.53
D (70, 37.6 + 12.6)
E (70, 35 + 18.8)
F (90, 42.4)
빨간색 숫자가 전달받은 기여점수임.
3 단계
직전에 받은 전달 점수에 link weight 곱한 후 다시 전달 작업을 반복
각 단어에 대한 문서의 순위 변화 (d = 0.5라고 가정)
• A: (문서 1, 문서 3) (문서 1, 문서 3)
• E: (문서 1, 문서 2 = 문서 3) (문서 3, 문서 2, 문서 1)
43
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
44
실험 환경
GOV 문서 collection 사용
문서 수: 1.25M
Hyperlink 수: 11.2M
Query sets (검색어 집합)
TREC-2003의 topic-distillation task (50개)
TREC-2004의 topic-distillation task (75개)
검색 엔진
Lucene (open source)
Baseline 점수
BM25, vector space model
C-Rank 계산 조건
Keyword 개수: 10, 20, 30, 40, 50, 60
Path 최대 경로 길이: 3, 5, 7, 9
45
사용한 정확도 measure
P@10
Precision at 10
검색 결과 상위 10개 문서 중 질의와 관련 있는 문서의 개수
MAP
Mean average precision
검색어 각각에 대한 average precision의 평균
검색어에 대한 average precision: P@1, P@2, … , P@1000의 평균
46
키워드 개수에 따른 P@10, MAP
Baseline 보다 월등히 좋은 결과 생성
10개 ~ 20개 사이일 때 결과가 제일 좋음
47
Path 최대 경로에 따른 P@10, MAP
Baseline 보다 월등히 좋은 결과 생성
경로 길이가 3 ~ 5일 때 결과가 제일 좋음
48
이전 방법들과 정확도 비교
비교 대상
기존 방법 중 정확도가 좋은 relevance propagation model
비교 결과
C-Rank가 TREC-2003의 MAP과 TREC-2004의 P@10에서 1위
C-Rank는 나머지 경우에 1위에 근접함
49
이전 방법들과 수행 시간 비교
Online computation
의미: 검색어가 입력되었을 때 수행 시간
한 개의 단어 점수 계산 소요 시간
Time Usage (sec)
C-Rank
HT-WI
WIO
0.0
5.92
18.16
C-Rank는 각 단어의 점수를 미리 계산하므로 소요 시간이 0임
기존 방법들은 상용 검색 엔진에 적용하기에 online 계산 시간이 너무
큼
Offline computation
의미: 미리 계산할 때 소요되는 시간
Keyword 개수
5
10
15
20
40
Time usage (hour)
0.04
0.11
0.19
0.30
1.72
키워드 개수를 10개 ~ 20개 정도로 할 경우 상용 검색 엔진에 적용
가능
50
목차
1. Introduction
1.1 정보 검색 소개
1.2 Ranking 기법 분류
2. C-Rank Approach
2.1 개발 배경
2.2 C-Rank 소개
2.4 실험 결과
2.4 요약 및 결론
51
C-Rank 요약 및 결론
활용한 웹 문서 특징
웹 제작자는 문서 내용을 보강하기 위해서 다른 문서를 link로 연결
링크로 연결된 문서는 다른 문서의 내용에 기여
웹 제작자는 질의어가 문서의 키워드에 해당할 경우 검색 결과 노출을
원함
웹 검색 사용자는 질의어가 키워드에 해당하지 않는 문서는 검색 결과
노출되지 않기를 원함
실험 결과
10개 키워드, 3 hyper-link distance에서 최적의 결과 얻음
Effectiveness(정확도) & Efficiency(효율성)
Effectiveness
• Baseline 대비 약 53% 증가
• 기존의 relevance propagation model에 비해 좋거나 비슷
Efficiency
• 상용 엔진에 적용 가능한 수준
52
Intuitions과 최종 결과 비교
Intuitions
멀리 떨어져 있는 문서는 서로 영향이 없어야 함
물감 퍼지는 개념
최종 결과
최대 path length가 3~5 정도에서 좋은 결과 얻음
물감의 주요한 색깔 성분만 처리하여 좋은 결과 없음
Intuitions과 최종 결과가 서로 일치
추가 Intuitions
동적 갱신
• 의미: 문서 추가/삭제/변경 시 이미 계산된 결과에 반영하는 것
• 물감이 멀리 퍼지지 않았으므로 근처에 있는 물감만 제거하면 부분
갱신 가능
53
• 부분 갱신이 가능하면 동적 갱신 가능
향후 연구 방향
개선된 키워드 추출 방법 적용
동의어 적용
동적 갱신 방법 적용
54
검색 서비스의 궁극적 방향
전문적 지식을 갖춘 개인 비서가 제공하는 것과 유사한 검색 결과 생성
인공지능을 활용한 검색
최근에 deep learning algorithm의 검색 적용이 시도되고 있음
연구/개발 도전!!!
재미있지 않을까요?
영화 iRobot의 한 장면
55
Q&A
56