Transcript Document

Search Relevance 향상
Jeong Kyung Seok
KoreaWISEnut/CSE/KSJeong
1
목차
이제 똑똑한 검색엔진?
Enterprise vs Internet
Verity vs Google
검색모델의 선택
검색 기술의 동향(1~5)
성능 평가 자동화 툴
결론
Reference
KoreaWISEnut/CSE/KSJeong
2
이제 똑똑한 검색엔진?
[1]
또 다른 수식어를 달자!
대용량, 초고속 + 정확한
?
?
KoreaWISEnut/CSE/KSJeong
3
Enterprise vs Internet
Difficulty
Security
Heterogeneousness
[2]
KoreaWISEnut/CSE/KSJeong
4
Verity vs Google
Google
Only PageRank? No!
[3][4]
Verity
Adaptive Ranking
Information Recommendation
Expert Location
Communities
Federated Recommendation
Auto-Initialization & Profile Management
KoreaWISEnut/CSE/KSJeong
5
검색모델의 선택
전통적인 검색모델
[5][6]
벡터 모델
확률 모델
퍼지 모델
확장 불린 모델
새로운 검색모델
피벗 문서 길이 정규화
추론 네트워크 모델
2-포아송 모델
어떤 검색 모델이 가장 좋은
모델인가?
KoreaWISEnut/CSE/KSJeong
6
검색 기술의 동향(1)
HTML TAG를 이용한 성능 향상
[7][8]
웹 검색에서 대표적으로 사용되는
메타 정보
사이트에서 취급하는 문서는 HTML
태그로 구성된 문서들이 상당수를
차지
scd문서를 만들 때, 중요한 HTML
태그도 함께 파싱하여, 색인 시 태
그 정보를 rank에 반영하자
KoreaWISEnut/CSE/KSJeong
7
검색 기술의 동향(2)
이종 컬렉션에 따른 상이한 랭킹과 그 결
과의 병합
[7]
Different type
Degree of Explicit structure
Distribution of lengths
Presence of links
Presence of repeated content
The way in which language is used
One possible approach
Divide the overall collection into
relatively homogeneous subcollection
Separate retrieval operations on each
and to merge the results
KoreaWISEnut/CSE/KSJeong
8
검색 기술의 동향(3)
각 필드 별 차등 가중치 할당
[9][10][11][12]
Ordered Rank(Wisenut)의 문제점
임의적인 필드 별 가중치 할당을 통한 편향된 가중치 적용
상위 필드 별 점수를 하위 필드가 역전할 수 없다.
Google은 어느 특정 factor에 많은 점수를 할여하지 않는다.
해결 방법
필드 별 가중치 학습
Simulated annealing
Genetic algorithm
Logistic regression analysis
단점 : 학습 데이터를 구축하기가 어렵다.
Rank aggregation
여러 평가 기준들을 결합하여 적용
KoreaWISEnut/CSE/KSJeong
9
검색 기술의 동향(4)
[4][13]
문서에 가중치 할당
사용자의 hit rate 반영
관리자의 임의적 점수 반영
taxonomy 정보를 이용
Pagerank
Text processing
Synonym management
Spelling suggestion
Query-based Summaries
KoreaWISEnut/CSE/KSJeong
10
검색 기술의 동향(5)
질의어 확장과 가중치 재계산
KoreaWISEnut/CSE/KSJeong
[5][14][15]
11
성능 평가 자동화 툴
[5]
필요성
랭크 함수의 수정과 새로운 랭크 함수의 필요성에 대한 당위성을 제공
특정 컬렉션에 가장 합당한 랭크에 대해 객관적인 지표를 제공하여 추천
성능 평가 방법
11 포인트 재현율에 대한 정확률 평균 (Test Collection : Hantec)
ATC 11-P oi nt P re c e s i on
0.9
0.8
Recall
0.7
0.6
0.5
0.4
0.3
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Preces ion
1.5-Gram :
1.75-Gram :
2-Gram :
Overlap 2-Gram :
KoreaWISEnut/CSE/KSJeong
12
결론
검색엔진에서 Ranking의 비중은?
전 세계적으로 Google의 선전의 가장 큰 비결은?
I think..
처리 속도를 위한 최적화된 구조와 연산
여러 랭킹 함수들을 구축함으로써 유연하게 적용
잘 가공된 메타 정보를 이용한 특허화된 Ranking
KoreaWISEnut/CSE/KSJeong
13
Discussion
KoreaWISEnut/CSE/KSJeong
14
Reference
[Back]
[1] 검색솔루션 및 사례소개_박재형 부장.ppt.PDF
[2] RAJAT MUKHERJEE AND JIANCHANG MAO, VERITY, 2004 “Enterprise Search”
[3] Sergey Brin, Lawrence Page, 1998, “The anatomy of large scale hypertextual web
search engine”
[4] http://www.verity.com/products/k2_enterprise/recommendation.html
[5]최신정보검색론, 홍릉출판사
[6] 김지승, 이준호, 이상호, 2001, “세 가지 정보 검색 모델의 성능 평가 및 분석”
[7] David Hawking, 2004, “Challenges in Enterprise Search”
[8]Justin Boyan, Dayne Freitag, and Thorsten Joachims, 1996, “A Machine Learning
Architecture for Optimizing Web Search Engines”
[9] Ronald Fagin, Ravi Kumar, Kevin S. McCurley, 2003“Searching the Workplace Web”
[10] 김선, 서울대 학위논문, 2001, “유전 알고리즘을 이용한 웹 문서 검색”
[11] 정태진, 서울대 학위논문, 2002, “강화학습을 이용한 웹 정보검색”
[12] Jacques Savoy, Anne Le Calve, Dana Vrajitoru, 1988, “Report on the TREC-5
Experiment: Data Fusion and Collection Fusion”
[13] Verity VISION KOREA 2005 세미나
[14] http://www.naver.com
[15] http://www.accoona.com/
KoreaWISEnut/CSE/KSJeong
15