정보검색

Download Report

Transcript 정보검색

18장 정보검색.
발표 : 이주호
NLP Lab. seminar
 개요.
 정보 검색 시스템의 유형.





데이터 검색 시스템.
참조 정보 검색 시스템.
본문 검색 시스템.
질의 응답 시스템.
비디오 텍스.
 색인 기법.




색인의 개념
색인과정.
자동색인.
통계적 기법에 의한 자동 색인.
 검색 기법.
 불린 모델.
 벡터모델.
 확률모델.
 정보 검색 시스템이란?
 정보에 대한 요구가 발생 했을 때 해당
정보를 찾아 제공하는 시스템.
 검색 대상 정보.
 수치 정보(numeric data).
 사실 정보(factual data).
 텍스트 정보(textual data).
 서지 정보(bibliographic data).
 그림 정보(graphic data).
 그 외 다양한 종류가 있을 수 있고 복합
된 형태의 정보 또한 가능하다.
 정보 검색은 간단히 색인, 질의 처리, 정
보 검색, 정보 배포 순으로 이루어진다.
텍스트
사용자
인터페이스
사용자 요구
텍스트
텍스트 연산
논리적 뷰
논리적 뷰
질의 연산
색인 작성
검색
색인
DB관리자 모듈
랭킹 된
문서
랭킹
텍스트
DB
그림 1 정보 검색 시스템
 정보 검색 시스템은 검색되는 정보의 유형
에 따라 다음과 같이 크게 다섯 가지 형태
로 분류 할 수 있다.
 데이터 검색 시스템.
 독립된 형태의 데이터 항목(단어나 수치)을 소
장하여 두었다가 그대로 검색하는 시스템.
 참조 정보 검색 시스템.
 문헌과 같은 정보원에 대한 참조 정보를 검색하
는 시스템.
 본문 검색 시스템.
 문헌의 전문을 소장, 질의 관련 문단이나 전문
을 검색하는 시스템.
 질의 응답 시스템.
 소장된 데이터나 텍스트로부터 질의에 대한 해
답을 직접 찾아내는 시스템.
 비디오 텍스.
 텍스트나 그림 정보로부터 일상 생활과 관련된
정보를 검색하는 시스템.
 비교적 간단한 형태의 검색 시스템
 사용분야.
 조직체의 업무 관련 데이터 검색.
 경제 및 경영 관계 통계 데이터 검색.
 과학 기술 데이터 검색.
 사용되는 데이터.
 인명 등과 같은 단어.
 통계치와 같은 수치.
 데이터 검색 시스템의 형태.
 업무데이터 처리 시스템.
 경영 정보 시스템.
 데이터 뱅크 등.
 서지정보 DB, 안내 정보 DB로부터 이차적
인 참조 정보를 검색하는 시스템.
 서지 정보 DB.
 단행본, 논문, 보고서 등 일차 문헌에 관한




서지 정보를 수록.
대개 논문의 초록을 포함.
현재 거의 모든 분야별 DB가 구축 되어 있다.
소급 탐색(retrospective search)
선별 제공(select dissemination of information)
두 가지 유형의 서비스로 나눌 수 있다.
소급 탐색
 특정 주제와 관련된 정보 자료를 모조리 탐색.
 특정 연도 이후에 출판된 정보만을 탐색.
 선별 제공
 사용자의 요구 정보를 프로파일(profile)에 기록.
 최신 정보를 기록한 DB또는 세로 구축한 경우
에 사용자가 원하는 정보를 검색하여 그 결과를
인쇄하여 사용자에게 제공하는 신 정보 검색 시
스템.
 문헌의 전문을 저장하고 있는 DB로부
터 전문이나 전문의 일부를 검색하는 시
스템.
 문장 검색.
 문장이나 문단 검색.
 질의 응답 시스템과 유사(검색어가 포함된
문장을 직접 검색).
 참조 정보 검색 시스템과도 유사(인공적 검
색문 입력).
 질의 응답 시스템과 참조 정보 검색 시스템
의 중간형태.
 본문의 단어 그대로 색인.
 검색문으로부터 추출된 검색어와 일치하
지 않는 경우 발생.
 이형태나 동의어 및 기타 관련 단어를 포함
하는 검색어 리스트를 이용하여 DB탐색.
 전문 검색.
 본문 전체를 출력해 내는 경우.
 자연언어 인터페이스 제공.
 관계형 DB시스템.
 계층형 DB시스템.
 탐색에 적합한 질의어 변환.
 기계 번역 과정과 거의 흡사.
 원시 문장 -> 구문 분석 -> 의미 분석
-> 목표 문장.
 어휘 사전,변환 사전, 문법, 변환 규칙을
가짐.
 이후의 질의어 처리 과정은 다른 정보
검색 시스템에서의 처리 과정과 거의 유
사.
 1970(말)~1980(초)걸쳐 본격 개발되기 시작
한 새로운 형태의 온라인 정보 서비스.
 TV수상기를 단말기로 하여 각 가정에 문자
및 그림 정보를 배포하는 정보 시스템.
 구성.
 사용자: 단말기 보유.
 서비스 제공자: 컴퓨터, DB 보유.
 정보 제공자: 데이터 입력용 단말기를 통해
DB를 제작,서비스 제공자에게 제공.
 공중 전화망, 공중 데이터 통신망을 이용.
 제공되는 정보.
 뉴스, 일기 예보, 관광 안내, 교통 정보 등.
 각종 정보 처리나 프로그램을 제공하는 전
산 처리 서비스 등을 제공.
 방대한 양의 정보로부터 원하는 정보만
을 걸러주는 여과기와 같다.
 색인의 종류.
 주제 색인.
 정보 자료의 주제를 나타내는 요소를 색인.
 어떤 주제에 관한 정보 자료를 찾는데 유용.
 일반적 정보 검색에서의 색인.
 비주제 색인.
 직접적으로 관계 없는 요소를 색인
 저자명, 표제, 기관명, 출판년도 등.
 색인에 오류가 없어야 사용자-정보 시
스템 간의 상호 작용에 오류가 발생하지
않음.
 그림과 같이 색인은 세
입력 문서
단계로 분류.
 주요개념 추출.
 코드화 .
주요 개념 추출
 색인 작성.
 수동 색인.
코드화
색인 작성
 해당 분야의 전문가가
자료에 포함된 중요한
개념들을 추출 색인.
 자동 색인
 자동 색인컴퓨터로 자
료를 분석한 후 색인
색인어 리스트
그림 2 색인 과정
 색인을 요하는 문헌의 양이 급속히 증가
하였지만 전문 사서는 부족하여 컴퓨터
를 이용한 자동 색인 연구를 진행.
 최초의 자동 색인 기법은 Luhn에 의해
제안.
 주어진 문장 분석.
 단어의 사용빈도수 측정.
 최고, 최저 한계 빈도수에 미치지 못하는
단어는 제외.
 최고, 최저 한계빈도수에 속하는 단어들
로부터 색인어를 선정.
 Luhn은 두 한계 빈도수의 구체적인 산출
방법을 제시하지 않았다.
 언어학적 기법.
 형태소 분석 수준의 자동 색인 기법.
 형태소 분석 결과로부터 주제를 나타내는
단어나 구를 식별해 내는 방법을 취한다.
 구문 분석 수준의 자동 색인 기법.
 전치사구나 명사구 등을 이루는 단어군을
찾아내어 이 가운데 빈번하게 나타나는 단
일어 또는 복합어를 색인어로 선택.
 통계적 기법
 단어의 출현 빈도수에 근거하여 주제어
로서의 중요도를 측정하여 색인어 선정.
 각 문장에 대한 형태소 분석 결과로부터
주제를 나타내는 단어나 구를 식별.
 조사가 발달된 언어의 경우에는 한 어절
에서 조사를 제외한 나머지를 색인
 복합 명사 처리 에서 문제 발생.
 ‘정보검색’이라는 복합 명사를
“정보검색에 대한…”또는
“정보 검색에 대한…”처럼
띄어 쓸 수도 있고 붙여 쓸 수도 있다.
 전자의 경우 “정보검색”이 색인어로 채
택되며 후자의 경우 “검색”이 색인어로
채택된다.
 “정보의 검색”같은 조사 ‘-의’와 같이 두
명사 사이에 조사가 오는 경우 또는
“정보에 대한 검색”, “정보를 검색하는”
등의 표현도 “정보 검색”이라는 복합 명
사를 찾아 색인 할수 있도록 처리.
 형태소 분석에 의한 자동 색인 시스템
 MAI
 특정 패턴의 단어구를 색인어로 선택.
 엄청난 수의 단어가 수록된 단어사전
색인어로 선택될 단어구의 패턴을 수록한
사전을 갖추고 있다.
 FASIT
 단어 사전과 어미사전을 이용하여
‘indexing’은 ‘index’의 분사형 이라던가
‘ files’는 ‘file’의 복수형이라는 식의 간단한
형태소 분석.
 미리 준비된 패턴에 따라 색인어 식별.
 문장의 특정 기능을 가진 단어나 구를
식별하여 이것을 색인어로 사용.
 자동 색인 기법을 위한 구문 분석은 수
준에 따라 다음과 같이 분류할 수 있다.
 의미적인 처리를 포함한 완벽한 구문 분
석에 의한 자동색인.
 SMART
 의미 처리를 제외한 통사적 구문 분석에
의한 자동 색인 기법.
 LEADERMART
 PHRASE
 주어진 문헌에서 특정 단어의 사용 빈도수
정보가 사용된다.
 단순,상대 빈도수 2가지의 빈도수 산출 방
법이 있다.
 단순 빈도수.
 대상 문장,문헌의 크기를 고려하지 않음.
 색인어 선정 기준으로 부적합.
 이원색인(binary indexing).
 상대 빈도수.
 단어 빈도수를 문헌의 크기 등으로 나누어
빈도수를 정규화 한 것.
 색인어 선정 기준으로 적합.
 가중치 색인(weighted indexing).
 사용될 빈도수의 한계치는 모두 실험적으
로 결정
 산출된 빈도수를 색인어의 가중치로 사용.
 Shannon의 정보 이론.
 정보란 어떤 정보원에 의해 발생된 다양한
메시지로부터 하나를 선택 했을 때 부여되
는 선택의 자유도를 의미.
 자유도가 클수록 메시지의 불확실성 증가.
 불확실성의 크기가 메시지가 갖는 평균정보
량.
 Maron과 Kuhns
 단어 출현 빈도수에 따른 확률 분포를 이용
한 확률 색인의 개념을 제시.
 확률 색인은 기본적으로 주제어와 비주제어
의 분포 패턴이 다르다는 것에 근거를 두고
있다.
 Bookstein과 Swanson
 단어의 집중도를 이용한 색인어 선정 기준
을 제시.
 정보 자료를 검색해 내기 위하여 사용되
는 기법을 말한다.
 정통적 검색 기법.
 불린 모델(boolean model).
 집합 이론에 근거
 질의와 문서가 색인어의 집합으로 표현.
 벡터 모델(vector model).
 질의와 문서를 벡터로 표시.
 확률 모델(probabilistic model).
 질의와 문서와의 관계를 확률적으로 계산.
 시스템으로 구현하기 쉽다.
 질의 처리 시간이 빠르다.
 각문서는 색인어의 집합으로 표현.
 AND, OR, NOT 연산 지원
 극단적인 두 값 참,거짓 만을 나타내기
때문에 상대적인 중요도를 표현할 수 없
다.
 정렬기능 제공 할수 없음.(ranking)
 이러한 단점을 해결하기 위하여 확장 불
린 모델이 등장.
 문서 유사도에 따른 정렬 기능 제공.
 질의나 문서의 키워드에 이진 값이 아닌
적절한 가중치를 할당할 수 있다.
 질의와 문서의 유사도에 따라 랭킹을 줄
수 있다.
 벡터 공간 모델에서의 모든 색인어는 서
로 독립 이라고 가정하고 질의와 문서는
벡터로 표현 된다.
 di = (wi1,wi2,wi3,………….,win)
 di는 문서 또는 질의를 표현.
 Wik는 가중치 값.
 문서 d와 질의q사이의 유사도 측정은
두 벡터 d,q 사이의 코사인 값으로 표현
 
될 수 있다
di q
 sim (d i , q )   
di q
 1960면대 초 Maron과 Kuhns 확률 검색




의 개념을 처음 제시.
현재 주로 사용되고 있는 확률 모델은
Robertson에 의해 정립.
특정 질문에 대한 각 문서의 관련 확률
과 관련이 없을 확률을 산출.
“관련 확률 > 관련 없을 확률”인 문서를
검색하는 방법.
각 문서 X가 X  ( x1 , x2 , x3 ,..., xn )
형태의 백터로 표현되며 xi 는 0또는 1
의 값을 가지게 된다.
 문서가 질의를 만족하는 유사도 계산은 아
래와 같다.
g ( x)  log
Pr( X | rel )
Pr( X | nonrel )
 Pr(X|rel) = 적합 문서가 문서 벡터 X로 표현
될 확률.
 Pr(X|nonrel) = 비적합 문서가 문서 벡터 X
로 표현될 확률.
 문서 X가 질의를 만족시킬 가능성이 클수록
g(x)의 값도 증가.
 유사도 함수 g(x)의 값을 계산하기 위해서
는 Pr(X|rel)과 Pr(X|nonrel)의 값을 추정해
야 한다.
 이론적으로는 훌륭하지만 적합성 정보를
사전에 확보하는 것이 간단하지 않아 사용
상에 어려움이 있다.
 QUIZ
7
4
8
3
9
7
6
5
10
?
8
4
 흰트: 가로줄은 일정한 연산을 통해 같
은 값을 가진다.
 정답: 3
 Q&A