Transcript 정보검색
18장 정보검색.
발표 : 이주호
NLP Lab. seminar
개요.
정보 검색 시스템의 유형.
데이터 검색 시스템.
참조 정보 검색 시스템.
본문 검색 시스템.
질의 응답 시스템.
비디오 텍스.
색인 기법.
색인의 개념
색인과정.
자동색인.
통계적 기법에 의한 자동 색인.
검색 기법.
불린 모델.
벡터모델.
확률모델.
정보 검색 시스템이란?
정보에 대한 요구가 발생 했을 때 해당
정보를 찾아 제공하는 시스템.
검색 대상 정보.
수치 정보(numeric data).
사실 정보(factual data).
텍스트 정보(textual data).
서지 정보(bibliographic data).
그림 정보(graphic data).
그 외 다양한 종류가 있을 수 있고 복합
된 형태의 정보 또한 가능하다.
정보 검색은 간단히 색인, 질의 처리, 정
보 검색, 정보 배포 순으로 이루어진다.
텍스트
사용자
인터페이스
사용자 요구
텍스트
텍스트 연산
논리적 뷰
논리적 뷰
질의 연산
색인 작성
검색
색인
DB관리자 모듈
랭킹 된
문서
랭킹
텍스트
DB
그림 1 정보 검색 시스템
정보 검색 시스템은 검색되는 정보의 유형
에 따라 다음과 같이 크게 다섯 가지 형태
로 분류 할 수 있다.
데이터 검색 시스템.
독립된 형태의 데이터 항목(단어나 수치)을 소
장하여 두었다가 그대로 검색하는 시스템.
참조 정보 검색 시스템.
문헌과 같은 정보원에 대한 참조 정보를 검색하
는 시스템.
본문 검색 시스템.
문헌의 전문을 소장, 질의 관련 문단이나 전문
을 검색하는 시스템.
질의 응답 시스템.
소장된 데이터나 텍스트로부터 질의에 대한 해
답을 직접 찾아내는 시스템.
비디오 텍스.
텍스트나 그림 정보로부터 일상 생활과 관련된
정보를 검색하는 시스템.
비교적 간단한 형태의 검색 시스템
사용분야.
조직체의 업무 관련 데이터 검색.
경제 및 경영 관계 통계 데이터 검색.
과학 기술 데이터 검색.
사용되는 데이터.
인명 등과 같은 단어.
통계치와 같은 수치.
데이터 검색 시스템의 형태.
업무데이터 처리 시스템.
경영 정보 시스템.
데이터 뱅크 등.
서지정보 DB, 안내 정보 DB로부터 이차적
인 참조 정보를 검색하는 시스템.
서지 정보 DB.
단행본, 논문, 보고서 등 일차 문헌에 관한
서지 정보를 수록.
대개 논문의 초록을 포함.
현재 거의 모든 분야별 DB가 구축 되어 있다.
소급 탐색(retrospective search)
선별 제공(select dissemination of information)
두 가지 유형의 서비스로 나눌 수 있다.
소급 탐색
특정 주제와 관련된 정보 자료를 모조리 탐색.
특정 연도 이후에 출판된 정보만을 탐색.
선별 제공
사용자의 요구 정보를 프로파일(profile)에 기록.
최신 정보를 기록한 DB또는 세로 구축한 경우
에 사용자가 원하는 정보를 검색하여 그 결과를
인쇄하여 사용자에게 제공하는 신 정보 검색 시
스템.
문헌의 전문을 저장하고 있는 DB로부
터 전문이나 전문의 일부를 검색하는 시
스템.
문장 검색.
문장이나 문단 검색.
질의 응답 시스템과 유사(검색어가 포함된
문장을 직접 검색).
참조 정보 검색 시스템과도 유사(인공적 검
색문 입력).
질의 응답 시스템과 참조 정보 검색 시스템
의 중간형태.
본문의 단어 그대로 색인.
검색문으로부터 추출된 검색어와 일치하
지 않는 경우 발생.
이형태나 동의어 및 기타 관련 단어를 포함
하는 검색어 리스트를 이용하여 DB탐색.
전문 검색.
본문 전체를 출력해 내는 경우.
자연언어 인터페이스 제공.
관계형 DB시스템.
계층형 DB시스템.
탐색에 적합한 질의어 변환.
기계 번역 과정과 거의 흡사.
원시 문장 -> 구문 분석 -> 의미 분석
-> 목표 문장.
어휘 사전,변환 사전, 문법, 변환 규칙을
가짐.
이후의 질의어 처리 과정은 다른 정보
검색 시스템에서의 처리 과정과 거의 유
사.
1970(말)~1980(초)걸쳐 본격 개발되기 시작
한 새로운 형태의 온라인 정보 서비스.
TV수상기를 단말기로 하여 각 가정에 문자
및 그림 정보를 배포하는 정보 시스템.
구성.
사용자: 단말기 보유.
서비스 제공자: 컴퓨터, DB 보유.
정보 제공자: 데이터 입력용 단말기를 통해
DB를 제작,서비스 제공자에게 제공.
공중 전화망, 공중 데이터 통신망을 이용.
제공되는 정보.
뉴스, 일기 예보, 관광 안내, 교통 정보 등.
각종 정보 처리나 프로그램을 제공하는 전
산 처리 서비스 등을 제공.
방대한 양의 정보로부터 원하는 정보만
을 걸러주는 여과기와 같다.
색인의 종류.
주제 색인.
정보 자료의 주제를 나타내는 요소를 색인.
어떤 주제에 관한 정보 자료를 찾는데 유용.
일반적 정보 검색에서의 색인.
비주제 색인.
직접적으로 관계 없는 요소를 색인
저자명, 표제, 기관명, 출판년도 등.
색인에 오류가 없어야 사용자-정보 시
스템 간의 상호 작용에 오류가 발생하지
않음.
그림과 같이 색인은 세
입력 문서
단계로 분류.
주요개념 추출.
코드화 .
주요 개념 추출
색인 작성.
수동 색인.
코드화
색인 작성
해당 분야의 전문가가
자료에 포함된 중요한
개념들을 추출 색인.
자동 색인
자동 색인컴퓨터로 자
료를 분석한 후 색인
색인어 리스트
그림 2 색인 과정
색인을 요하는 문헌의 양이 급속히 증가
하였지만 전문 사서는 부족하여 컴퓨터
를 이용한 자동 색인 연구를 진행.
최초의 자동 색인 기법은 Luhn에 의해
제안.
주어진 문장 분석.
단어의 사용빈도수 측정.
최고, 최저 한계 빈도수에 미치지 못하는
단어는 제외.
최고, 최저 한계빈도수에 속하는 단어들
로부터 색인어를 선정.
Luhn은 두 한계 빈도수의 구체적인 산출
방법을 제시하지 않았다.
언어학적 기법.
형태소 분석 수준의 자동 색인 기법.
형태소 분석 결과로부터 주제를 나타내는
단어나 구를 식별해 내는 방법을 취한다.
구문 분석 수준의 자동 색인 기법.
전치사구나 명사구 등을 이루는 단어군을
찾아내어 이 가운데 빈번하게 나타나는 단
일어 또는 복합어를 색인어로 선택.
통계적 기법
단어의 출현 빈도수에 근거하여 주제어
로서의 중요도를 측정하여 색인어 선정.
각 문장에 대한 형태소 분석 결과로부터
주제를 나타내는 단어나 구를 식별.
조사가 발달된 언어의 경우에는 한 어절
에서 조사를 제외한 나머지를 색인
복합 명사 처리 에서 문제 발생.
‘정보검색’이라는 복합 명사를
“정보검색에 대한…”또는
“정보 검색에 대한…”처럼
띄어 쓸 수도 있고 붙여 쓸 수도 있다.
전자의 경우 “정보검색”이 색인어로 채
택되며 후자의 경우 “검색”이 색인어로
채택된다.
“정보의 검색”같은 조사 ‘-의’와 같이 두
명사 사이에 조사가 오는 경우 또는
“정보에 대한 검색”, “정보를 검색하는”
등의 표현도 “정보 검색”이라는 복합 명
사를 찾아 색인 할수 있도록 처리.
형태소 분석에 의한 자동 색인 시스템
MAI
특정 패턴의 단어구를 색인어로 선택.
엄청난 수의 단어가 수록된 단어사전
색인어로 선택될 단어구의 패턴을 수록한
사전을 갖추고 있다.
FASIT
단어 사전과 어미사전을 이용하여
‘indexing’은 ‘index’의 분사형 이라던가
‘ files’는 ‘file’의 복수형이라는 식의 간단한
형태소 분석.
미리 준비된 패턴에 따라 색인어 식별.
문장의 특정 기능을 가진 단어나 구를
식별하여 이것을 색인어로 사용.
자동 색인 기법을 위한 구문 분석은 수
준에 따라 다음과 같이 분류할 수 있다.
의미적인 처리를 포함한 완벽한 구문 분
석에 의한 자동색인.
SMART
의미 처리를 제외한 통사적 구문 분석에
의한 자동 색인 기법.
LEADERMART
PHRASE
주어진 문헌에서 특정 단어의 사용 빈도수
정보가 사용된다.
단순,상대 빈도수 2가지의 빈도수 산출 방
법이 있다.
단순 빈도수.
대상 문장,문헌의 크기를 고려하지 않음.
색인어 선정 기준으로 부적합.
이원색인(binary indexing).
상대 빈도수.
단어 빈도수를 문헌의 크기 등으로 나누어
빈도수를 정규화 한 것.
색인어 선정 기준으로 적합.
가중치 색인(weighted indexing).
사용될 빈도수의 한계치는 모두 실험적으
로 결정
산출된 빈도수를 색인어의 가중치로 사용.
Shannon의 정보 이론.
정보란 어떤 정보원에 의해 발생된 다양한
메시지로부터 하나를 선택 했을 때 부여되
는 선택의 자유도를 의미.
자유도가 클수록 메시지의 불확실성 증가.
불확실성의 크기가 메시지가 갖는 평균정보
량.
Maron과 Kuhns
단어 출현 빈도수에 따른 확률 분포를 이용
한 확률 색인의 개념을 제시.
확률 색인은 기본적으로 주제어와 비주제어
의 분포 패턴이 다르다는 것에 근거를 두고
있다.
Bookstein과 Swanson
단어의 집중도를 이용한 색인어 선정 기준
을 제시.
정보 자료를 검색해 내기 위하여 사용되
는 기법을 말한다.
정통적 검색 기법.
불린 모델(boolean model).
집합 이론에 근거
질의와 문서가 색인어의 집합으로 표현.
벡터 모델(vector model).
질의와 문서를 벡터로 표시.
확률 모델(probabilistic model).
질의와 문서와의 관계를 확률적으로 계산.
시스템으로 구현하기 쉽다.
질의 처리 시간이 빠르다.
각문서는 색인어의 집합으로 표현.
AND, OR, NOT 연산 지원
극단적인 두 값 참,거짓 만을 나타내기
때문에 상대적인 중요도를 표현할 수 없
다.
정렬기능 제공 할수 없음.(ranking)
이러한 단점을 해결하기 위하여 확장 불
린 모델이 등장.
문서 유사도에 따른 정렬 기능 제공.
질의나 문서의 키워드에 이진 값이 아닌
적절한 가중치를 할당할 수 있다.
질의와 문서의 유사도에 따라 랭킹을 줄
수 있다.
벡터 공간 모델에서의 모든 색인어는 서
로 독립 이라고 가정하고 질의와 문서는
벡터로 표현 된다.
di = (wi1,wi2,wi3,………….,win)
di는 문서 또는 질의를 표현.
Wik는 가중치 값.
문서 d와 질의q사이의 유사도 측정은
두 벡터 d,q 사이의 코사인 값으로 표현
될 수 있다
di q
sim (d i , q )
di q
1960면대 초 Maron과 Kuhns 확률 검색
의 개념을 처음 제시.
현재 주로 사용되고 있는 확률 모델은
Robertson에 의해 정립.
특정 질문에 대한 각 문서의 관련 확률
과 관련이 없을 확률을 산출.
“관련 확률 > 관련 없을 확률”인 문서를
검색하는 방법.
각 문서 X가 X ( x1 , x2 , x3 ,..., xn )
형태의 백터로 표현되며 xi 는 0또는 1
의 값을 가지게 된다.
문서가 질의를 만족하는 유사도 계산은 아
래와 같다.
g ( x) log
Pr( X | rel )
Pr( X | nonrel )
Pr(X|rel) = 적합 문서가 문서 벡터 X로 표현
될 확률.
Pr(X|nonrel) = 비적합 문서가 문서 벡터 X
로 표현될 확률.
문서 X가 질의를 만족시킬 가능성이 클수록
g(x)의 값도 증가.
유사도 함수 g(x)의 값을 계산하기 위해서
는 Pr(X|rel)과 Pr(X|nonrel)의 값을 추정해
야 한다.
이론적으로는 훌륭하지만 적합성 정보를
사전에 확보하는 것이 간단하지 않아 사용
상에 어려움이 있다.
QUIZ
7
4
8
3
9
7
6
5
10
?
8
4
흰트: 가로줄은 일정한 연산을 통해 같
은 값을 가진다.
정답: 3
Q&A