수식X정보검색-20120510
Download
Report
Transcript 수식X정보검색-20120510
수식이 없는
정보검색 이야기
Information Retrieval without Mathematics
2012. 5. 10.
김진숙
한국과학기술정보연구원(KISTI)
해외정보실
2
목차
정보검색 = 색인+ 검색
檢索
검색
探索
탐색
검사(檢査)하여 찾음. 실상(實相)을 더듬어 찾음.
들어가며
우리 주변에서 보는 정보검색의 단편들
정보검색: 사전
국어사전
• 단어를 가나다 순으로 배열하여 찾기 쉽게 함
• 이진탐색(binary search) 알고리즘
5
정보검색: 색인 / 찾아보기 / Index
색인 / 찾아보기
•
•
•
•
색인 또는 찾아보기(Index)는 책의 말미에 주제어 별로 위치를 제공
가나다/ABC 순으로 정렬하여 원하는 쪽을 찾기 쉽게 함
주로 저자가 중요하다고 생각하는 주제어/주제구를 선정하여 배치
비고: (사전 + 정보위치) 이것이 정보검색의 기본 알고리즘임.
6
정보검색: 도서관 목록카드
검색
도서목록카드
•
•
•
•
1777: 판 슈비텐 백작이 빈 황실도서관에 카드 형태의 도서목록 도입
기존의 책자형 목록에 비해서 수정/삭제/추가가 매우 손쉬워짐
저자별 목록, 제목별 목록 등을 통해 도서 검색 가능 정보검색의 예
1960년대 이후 전산화에 밀려 90년대 이후 찾아보기 어려움
7
정보검색
수식없이 즐기는 간단한 검색론
↑전혀 없는 것은 아님
정보검색: 관련된 것들 (좁게 봐서)
검색
•
•
•
•
•
•
질의확장
불리안 검색 (Boolean Retrieval)
순위 검색 (Ranked Retrieval): 벡터공간모델(Vector Space Model)
짬뽕형… 그리고 매우 다양한 모델들
별색(highlighting), 검색결과 정렬, 범위 연산, 검색결과 분류, 결과내 재검색
웹 검색, PageRank…
색인
• 자연어 처리: 형태소분석, 색인 추출
• 색인 저장: 사전(lexicon)
정보검색을 기반으로 하는 분야들
• 교차언어 검색, 유사문서 검색, 문서범주화, 군집화(clustering), 기계번역(예제 기
반), 개인화, 질의응답시스템(QA system)
♨ Retrieval? Search?
• Retrieval (회수) – 알고 있는 것을 찾아 옴 검색 Information Retrieval
• Search (뒤지다) – 모르는 것을 찾음
탐색 Web Search
♨ 정보검색? 데이터베이스?
• 정보검색: 문서 집합에서 원하는 정보를 검색하는 분야
• DBMS: 데이터 기지(base)에서 관련 정보를 관리하는 분야
9
정보검색: 질의 확장
목적 : 재현율(recall / IR)과 정확도(precision / Web) 향상
복합명사 확장
복합 명사를 각 구성명사 형태로 분해한 후, 연산자를 조합하는 방식
정보검색 → (정보 /W1 검색) ← KRISTAL
정보검색 → (정보 AND 검색), honeybee → (honey AND bee) ← Google
다수 문자열 확장
공백으로 구분된 여러 검색 단어들에 연산자를 적용시키는 방식
대부분의 검색엔진에서 기본 연산자는 AND로 확장
정보 검색 연구 → (정보 & 검색 & 연구)
원형복원, 오탈자 보정, 동의어 확장, 번역/교차언어 (Google의 예)
widgets → (widget | widgets)
site:imdb.com black night → site:imdb.com ( (black knight) | (dark knight) )
10
정보검색: 질의 확장
11
정보검색: 불리안 검색모델
문서집합
(1) A ladybug has
beautiful wings…
(2) Bugs hide from
enemy as …
(3) enemy of aphids
is wasps that …
(4) Night heron has
short legs and …
(5) Ladybug as enemy
agriculture …
Ladybug is an …
역파일(색인)
.
.
.
ladybug
.
.
.
enemy
.
.
.
(Ladybug)
1,5
(enemy)
(ladybug&enemy)
2,3,5
불리안 연산자 (Boolean Operators)
•
•
•
•
불리안 검색 결과
(ladybug|enemy)
1, 5
2, 3, 5
5
1, 2, 3, 5
Geroge Bool (영국, 1815-64)
AND (또는 &): A & B A, B를 함께 포함하는 문서
OR (또는 | ) : A | B A 또는 B를 하나라도 포함하는 문서
NOT (또는 ! ) : A ! B A를 포함하지만 B는 포함하지 않는 문서
불리안 값은 참(1, true), 거짓(0, false)의 이진값으로 표현
12
정보검색: 불리안 검색모델 예
과학기술학회마을
[질의] TI: 문서 AND 분류
13
정보검색: 불리안 검색모델 예
과학기술학회마을
[질의] TI: 문서 OR 분류
14
정보검색: 불리안 검색모델 예
과학기술학회마을
[질의] TI: 문서 NOT 분류
15
정보검색: 순위 검색모델
문서집합
(1) A ladybug has
beautiful wings…
(2) Bugs hide from
enemy as …
(3) enemy of aphids
is wasps that …
(4) Night heron has
short legs and …
(5) Ladybug as enemy
agriculture …
Ladybug is an …
역파일(색인)
.
.
.
ladybug
.
.
.
enemy
.
.
.
벡터 검색 결과
(Ladybug)
1,5
(enemy)
(ladybug&enemy)
2,3,5
5, 1
2, 3, 5
5, 1, 2, 3
5 (웹검색)
(ladybug|enemy)
5, 1, 2, 3
순위검색모델 (Ranked Retrieval)
•
•
•
•
벡터검색모델이 일반적임 검색 단어가 많이 들어가 있을수록 상위!
주어진 질의에 가장 유사한 문서를 검색 (비고: 문서 길이는???)
웹검색엔진의 기본적인 검색 모델 (엔진마다 상이: 구글의 PageRank)
비고: 웹검색에서는 2개 이상의 질의어에 대해서 AND 연산결과 제공
16
정보검색: 순위 검색모델
순위기반 검색 모델
•
•
•
•
빠른 검색 기능 제공 (불리안에 비해 수배 이상 빠름)
높은 정확도 제공
일반 사용자를 위한 검색 모델
불리안 검색의 논리연산 및 관계연산은 지원하지 않음(웹 검색의 경
우에는 AND 기반)
• 우절단 연산 지원
사용자 질의
TITLE: 문단단위 문서범주화
벡터모델 검색결과 우선순위별 제시
① 문단단위를 이용한 효과적인 문서범주화
②
문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화
③
바이그램이 문서범주화 성능에 미치는 영향에 관한 연구
④
SVM 분류기를 이용한 문서 범주화 연구
...
⑤
17
정보검색: 수식으로 잠시 쉬어가기
벡터공간모델 (Vector Space Model)
• TF: term freq. 질의어가 많이 나올
수록 높은 가중치 부여
• IDF: inverse doc. freq. 많은 문서에
출현하는 단어에는 낮은 가중치 부여
18
정보검색: 벡터공간모델
문서집합
(1) A ladybug has
beautiful wings…
벡터공간(2차원으로 축소)
ladybug
축
2
(5)
(2) Bugs hide from
enemy as …
(3) enemy of aphids
is wasps that …
(1)
1
각도
(ladybug & enemy)
(4) Night heron has
short legs and …
(5) Ladybug as enemy
agriculture …
Ladybug is an …
(2)
(3)
0
1
enemy
축
2
벡터공간모델 (Vector Space Model)
• 각 문서를 색인어수의 차원의 문서벡터로 표현
• 문서간의 유사성은 두 벡터의 근접도로 표현
• 실제 정보검색엔진 구현에서는 질의에 포함된 단어의 숫자로 차원을 감
소시킴(차원축소)
19
정보검색: 순위 검색모델 예 (NDSL)
[불리안 검색]
[순위 검색 / 벡터검색모델]
과학기술학회마을 [질의] BI: passage text categoriztion
20
정보검색: 순위 검색모델 예 (Google 학술검색)
[벡터검색모델의 요점]
질의어를 많이 포함하
는 문서일수록 검색 결
과의 상위에 배치
21
구글은 김경호 홈피를 어떻게 상위에 올릴까?
웹검색 대상 및 순위조정
• HTML : 위의 홈페이지에는 “김경호”가 딱 한번 들어 있음. 블로그 문서
보다 순위가 낮아야 함
• 바깥고리내용: 다른 웹페이지의 Link에 걸리는 내용(무지 많은 “김경호”)
• (벡터 검색 + Link의 숫자)로 순위 재조정: 구글의 PageRank
22
정보검색: PageRank (또 다시 수식이…)
나를 연결(Link)하는
웹 페이지 수가 많을수록
나를 연결(Link)하는
웹 페이지의 인기가 클수록
나를 연결(Link)하는 페이지
의 바깥고리 수가 많을수록
PR(u) ↑
PR(u) ↑
PR(u) ↓
PageRank
•
•
•
•
Larry Page의 이름을 따서 붙임(Page’s Rank? Web Page Rank?)
특허는 스탠포드 대학이 소유(구글은 스탠포드 대학에서 만들어짐)
가치: 2005년에 3.35억$에 특허 독점 사용권을 구글이 획득
비고: 벡터검색의 가중치와의 적절한 조합을 통해서 순위를 매김
23
문서색인
인간과는 사뭇 다른 기계적인 색인 추출
정보검색: 문서 색인
나는 학교에 간다.
학교
학교, 나, 학교, 가다
나, 학교, 나는, 학교에, 간다
I go to school.
i, go, to, school
我去學校.
我, 去, 學, 校
我, 去, 學, 校, 我去, 去學, 學校
색인기(Indexer)
•
•
•
•
영어의 색인기는 대개의 경우 표현형을 그대로 사용
한국어의 경우, 형태소 분석을 통해서 명사 위주로 색인
한자의 경우 낱자로 색인함
형태소 분석을 기반으로 의미기반 색인이 시도되고 있음(WSD, 울산대)
25
정보검색: 한국어 색인 예 (KRISTAL)
색인형식
INDEX_AS_IS
INDEX_BY_TOKEN
INDEX_BY_MA
INDEX_BY_CHAR
INDEX_AS_NUMERIC
INDEX_AS_IS_MA
INDEX_BY_MIX_CHAR
INDEX_BY_MIX_MA
제목
정보검색에 관한 연구
情報檢索에 관한 硏究
정보검색에 관한 연구
情報檢索에 관한 硏究
전산학/정보검색;전산학/
문서분류
홍길동/Smith, J./허균
정보검색에 관한 연구
情報檢索에 관한 硏究
홍 길동
洪吉洞
19961214
색인어
“정보검색에 관한 연구”
“情報檢索에 관한 硏究”
“정보검색에”, “관한”, “연구”
“情報檢索”, “에”, “관한”, “연구”
“전산학/정보검색”, “전산학/문서분류”
“홍길동”, “SmithJ”, “허균”
“정보”, “검색”, “정보검색”, “연구”
“情報檢索”, “硏究”
‘’홍”, “길”, “동”
“洪”, “吉”, “洞”
19961214
“정보검색에 관한 연구”, “정보”, “검색”, “정보검
정보검색에 관한 연구
색”, “연구”
情報檢索에 관한 硏究
“情報檢索에 관한 硏究”, “情報檢索”, “硏究”
“樂”, “악”, “락”, “요”, “器”, “기”, “에”, “관”,
樂器에 관한 硏究
“한”, “硏”, “연”, “究”, “구”
“樂”, “악”, “락”, “요”, “器”, “기”, “硏”, “발전”,
樂器의 발전에 관한 硏究
“연”, “究”, “구”
26
색인 저장소의 간략한 구조
문서집합
(1) A ladybug has
beautiful wings…
(2) Bugs hide from
enemy as a …
(3) enemy of aphids
is wasps that …
(4) Night heron has
short legs and …
(5) Ladybug as enemy
agriculture …
Ladybug is an …
사전
-A
- AGRICULTURE
- AN
- AND
- APHIDS
- AS
- BEAUTIFUL
- BUGS
- ENEMEY
- FROM
B+트리 - HAS
- HERON
- HIDE
- IS
- LADYBUG
- LEGS
- NIGHT
- OF
- THAT
- WASPS
- WINGS
문서번호
(1)
(5)
(5)
(4)
(3)
(2)
(1)
(2)
(2)
(2)
(1)
(4)
(2)
(3)
(1)
(4)
(4)
(3)
(3)
(3)
(1)
(2)
위치정보
1
4
7
6
3
5
4
1
(3) (5) 4
3
(4)
3
2
2
(5)
4
(5)
2
5
1
2
6
5
5
6
13
3
6
{1,5}
정보검색에서 색인의 구성: 사전(lexicon) + 문서번호 + 위치정보
27
의미분별형 검색과 색인
의미분별형 검색이 가능하려면? 개인화 기술(검색) 또는 WSD 기반 색인
28
흥미거리들
관심이 갈 만한 것들, 생각해볼 것들…
문서요약 및 별색기능 (highlighting)
검색된 결과 출력 가공
• 문서의 내용이 긴 경우 간략하게 보여주고자 할 때 사용
• 질의어가 포함된 특정 부분을 보여주고자 할 때 사용
30
주요어 추출 및 별색
31
N-Gram 색인
DBPIA
(누리미디어)
한국역사정보통합시스템
(국사편찬위원회)
32
문자열 일치 검색
33
정보검색?: 초성 검색
초성검색도 정보검색일까?
• 문자열 탐색? 색인 이용? 구현에 따라 다를 듯…
34
구글의 문서/색인 관리
2012년 현재 약 200억 개의 웹
페이지가 존재한다고 추정됨
구글은 어떻게 관리할까?
Google File System
• 분산 1024대 단위의 분
산 클러스터
• 중복 3개의 복사본
• 장착 즉시 실행(plug &
play) 방식의 서버 운영
• 2006년 서버 45만대 사용
• 현재 100만대 이상(추정)
• 시간당 10억 건 처리
• 검색시간 기준: 0.005초
35
생방송 퀴즈가 좋다
MBC 1999 ~ 2004
인터넷 검색 찬스 (40초)
네이버
광고비
검색서버는?
업계 3위 업계 2위(전지현?)
지식iN과 업계 1위?
36
검색동향 (검색어 통계)
Semantic Web
37
검색동향 (검색어 통계)
Big Data
38
Google
Analytics
(동물그림창고)
39
웹 로봇의 양면성
이 사이트의 일주일 web traffic 통계
Google bot: 48만번
전체연결수: 201만번
구글봇의 연결만 전체의 24%를 차지
전체 웹로봇 접속이 50%에 육박할 듯
40
네이버 대 구글
자체정보제공 vs 웹검색
• 네이버: 자체 정보위주의 검색 결과 뛰어남 확장성 결여 (국내)
• 구글: 웹 페이지 검색 결과를 제공 어수룩(?) 확장성 좋음 (세계)
41
다 어디 갔어? 다 사라지고 없어!!!
ftp 검색
gopher 검색
[세계]
강한 자가
살아남는다
FTP
Gopher
FSP
UseNet
웹검색 엔진으로서
HTTP
1990
Mosaic
1995
2000
2005
Android
iPhone
2010
웹검색 엔진으로서
[국내]
살아 남은 자가
강한 자다.
42
남겨진 것들 (개인적으로)
43
검색기획: 서비스? 데이터?
한국향토문화전자대전: 데이터 속에 모든 서비스의 가능성을 수용함. 데이터 기획의 승리! 한 사람의 힘!
44
감사합니다!
알면 흥미거리, 몰라도 사는데 아무런
지장이 없는 이야기들이었습니다~~~