종합 정보 시스템 구축 제안서

Download Report

Transcript 종합 정보 시스템 구축 제안서

Sogang University: Dept of Computer Science
Information Retrieval
(Chapter 4: 질의언어)
서정연교수
Office: 공학관 816
Tel: 705-8488
Email: [email protected]
Chapter 4: 질의언어
키워드 기반 질의



가장 간단하다.

키워드와 몇 가지 연산으로 구성된다.

키워드가 포함된 문서를 검색한다.
널리 사용된다. (이유)

직관적이다.

쉽게 표현할 수 있다.

순위화가 쉽다.
종류

단일 단어 질의(single-word queries)

문맥 질의(context queries)

불리안 질의(Boolean queries)

자연어 질의(natural language)
Information Retrieval
Page 2
Chapter 4: 질의언어
단일 단어 질의

가정:

텍스트는 단어의 나열이다.

단어는 분리자(separators)를 경계로 된 문자의 나열이다.



분리자:
– 공백(white space), 쉼표(comma)
– 하이픈(hyphen) : on-line (?), off-line (?)
단어 질의의 결과

질의에 있는 단어가 적어도 하나라도 포함된 문서의 집합

질의와 유사도에 따라서 검색된 문서를 순위화한다.
사용자 인터페이스

문서에서 질의에 포함된 단어의 정확한 위치를 표시한다.
Information Retrieval
Page 3
Chapter 4: 질의언어
문맥 질의


주어진 문맥(근접한 다른 단어) 내에서 단어를 검색한다.
문맥 질의의 종류
 구(phrase) 문맥 질의



근접(proximity) 문맥 질의




연속적인 단일단어의 나열로 질의를 표현한다.
문서에서 분리자가 질의에서 분리자와 정확히 같을 필요가 없다.
– 예) query : "enhance retrieval"
text : "enhance the retrieval", "enhance retrieval"
단어가 함께 사용될 수 있는 범위를 지정하는 질의
– 범위 :
• 절(paragraph)
• 단어와 단어 사이의 최대 거리
예) within 4 words :
query : "enhance retrieval"
text : "...enhance the power of retrieval …"
질의에서 표현된 순서와 같은 순서로 텍스트에 표현될 필요는 없다.
단일단어 질의와 비슷한 방법으로 순위화할 수 있다.
Information Retrieval
Page 4
Chapter 4: 질의언어
불리안 질의

간단한 문법으로 구성된다.

단어(atom) (i.e 기본 질의)

불리안 연산자 :






e1 OR e2,
e1 AND e2
e1 BUT e2 : e1 AND NOT e2,
AND
translation
질의 구문 트리(query syntax tree)

리프노드: 단어

내부 노드: 불리안 연산자
syntax
OR
syntactic
질의의 결과

특별한 기준에 따라서 검색된 문서를 순위화한다.

문서에서 질의에 포함된 단어의 정확한 위치를 표시한다.
퍼지 불리안 질의 : some (between AND and OR)
Information Retrieval
Page 5
Chapter 4: 질의언어
자연어 질의

문장으로 표현

자연어 질의는 검색 시스템에 의해서 불리안 질의와 같은 형식으로
표현하여 검색한다.
Information Retrieval
Page 6
Chapter 4: 질의언어
Good Retrieval (세계에서 제일 높은 산)

Untitled Document (정확도 : 99 %)
세계에서 가장 높은 산은 어느 것일까요? 해 면 아래와 위를 합쳐서 가장 높은
산은 미국의 하와이 섬에 있는 '마우나케아'입니다. 이 산은 해발 4,205미터이고,
해면 아래는 4,877미터입니다. 마우나케아 산의 전체 높이는 9,000 미터를 넘기
때문에 세계에서 가장 높은 산이라
http://www.tgedu.net/student/cho_ja/html/5000/5111-10.html

세 계 의 명 산 (정확도 : 97 %)
산 8000m급 14개 봉중의 (10위봉) 노아 방주가 내려앉은 산 8000m급 14개
봉중의 (12위봉) 사각형의 분화구를 이룬 사화산 칠레에서 가장 아름다운 산
8000m급 14개 봉중의 (8위봉) 돌로미테 지역의 산 러시아에서 가장 높은 산
뉴질랜드에서 가장 높은 산 세계에서 가장 높은
http://www.kuac.net/txt/d_02.htm
Information Retrieval
Page 8
Chapter 4: 질의언어
Bad Retrieval (세계에서 제일 높은 산)

WWW Home page of 이남희(Lee Nam Hee) (정확도 : 88 %)
세계에서 제일 높은 기차역 -융프라우 산 위에서 내려다 본 스위스
마을ttp://salmosa.kaist.ac.kr/~nhlee/Europe/europe20.html

그림대여시스템/판화세계 (정확도 : 77 %)
태생의 현존 작가. 현재 미국 산 앤토니오에서 작품활동하고 있다. 강렬한 화면 구성과 기법으로 화면
가득히 역동감이 넘친다. 뉴욕 프랫트 인스티튜트에서 공부하였으며 미국은 물론 유럽에서도 높은
평가를 받고 있다. 판화세계 전화 : (02)6060-919 / H.P : 011-9778-0919
http://www.artrental.co.kr/alireza.htm

PAXNet 뉴스센터 (정확도 : 77 %)
산 맥주잔과 향기초세트, 이집트산 향수병, 우루과이산 돌반지, 태국산 향초 등 각국의 유명
특산품들이 한자리에 모였다. 세계풍물기행 벼룩시장전은 시중가보다 평균 30% 정도 할인된
가격에서 입찰이 시작하는 특가경매 형태로 진행된다. 경매 종료시점까지 가장 높은 가격을
http://www.paxnet.co.kr/news/datacenter/200011/29
/20001129100828_06.sht
Information Retrieval
Page 9
Chapter 4: 질의언어
Ask jeeves (www.ask.com)
Information Retrieval
Page 10
Chapter 4: 질의언어
Response with suggested questions
Information Retrieval
Page 11
Chapter 4: 질의언어
Who was the first man on the moon?
Information Retrieval
Page 12
Chapter 4: 질의언어
패턴 정합


패턴 : 텍스트에서 출현되는 구문적 특징들의 집합
패턴의 종류








단어 : "compute"
접두사 :"comput“ : "computer", "computation", ...
접미사 : "ters" : "computers", "testers", "painters" ...
부분문자열 :
 "tal" : "coastal", "talk", “metallic" … ;
 "any flowers" : "many flowers"
범위 : 사전 순서로 두 문자열 사이에 있는 어떤 문자열과도 정합

"held..hold" : "hoax" “hissing”
허용 오류 :
 철자 오류도 검색된다.
 Levenshtein 거리(편집 거리) 이용:
– 두 문자열을 같게 만들기 위한 문자 삽입, 삭제, 치환의 최소 수
 "flower" : "flo wer"
정규표현 : "word|phrase", "pro(blem|tein)(s|)(0|1|2)*"
확장된 패턴 : 간단한 문법을 가진 정규표현
 내부적으로는 정규표현을 변환한다.
Information Retrieval
Page 13
Chapter 4: 질의언어
질의응답 시스템

Question Answering


Finding the exact answer to the user’s question in a large text
collection
The main difference between IR and QA

IR system :
User Query
(general)
-- - - - -------
Document List
collection

QA system :
Information Retrieval
User Query
(specific)
-- - - - - --------
Answers
Page 14
Chapter 4: 질의언어
질의응답 시스템
질문에 대한 정답추천
관련 홈페이지 직접 연결
Information Retrieval
Page 15
Chapter 4: 질의언어
질의응답 시스템
질문에 대한 정답추천
관련 홈페이지 직접 연결
Information Retrieval
Page 16
Chapter 4: 질의언어
Search engine vs. Q/A engine
•
종합봉사실 전화번호는?
IR system
Information Retrieval
QA system
Page 17
Chapter 4: 질의언어
Search engine vs. Q/A engine
As – Is (기존의 검색 시스템)
To – Be (질의 응답 시스템)
• 기능 측면에서의 질의 응답 결과
1. 해당되는 문서를 단순 나열함.
2. 문서 속에서 정답 검색이 여전히 필요.
3. 정보 검색 과정에 많은 시간 소요.
4. 사용자의 문서 활용도가 매우 낮음.
• 기능 측면에서의 질의 응답 결과
1. 문서에서 정답을 직접 찾아서 제시.
2. 정답 검색 과정 시간 단축.
3. 사용자 문서 활용도 증가  인지도 향상.
4. 웹 문서뿐 아니라 데이터베이스까지 검색
5. 특정 문서 직접 제시 가능
• 정확도 측면에서의 질의 응답 결과
1. 질문에서 키워드만을 추출.
2. 키워드에 대한 통계적 검색 결과만 제시.
3. 정확한 의도 분석이 불가능.
• 정확도 측면에서의 질의 응답 결과
1. 질문의 어휘 구조, 질문 의도까지 파악.
2. 정확한 질의 분석  의미있는 부분만 검색.
3. 검색 성능 최적화 가능.
• 질문 : “서정연 교수님의 전화번호는?”
1. 서정연+교수+전화+번호
• 질문 : “서정연 교수님의 전화번호는?”
1. 전화번호에 관한 질문(서정연 교수)
문서 내에서 단순히 발현되는 정도 측정.
“서정연”, “교수”, “전화”, “번호” , “전화번호”
라는 단어가 들어간 불필요한 모든 문서들을
제시
우선 전화번호에 관한 질문이라는 것이 파악
되고, 그 대상이 서정연 교수라는 것을 인식
하여 정답 추출
웹사이트를 위한 지능형 정보 검색 에이전트.
사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 Vertical 검색엔진.
Information Retrieval
Page 18
Chapter 4: 질의언어
START (MIT, AI Lab)
Information Retrieval
Page 19
Chapter 4: 질의언어
What is the population of the Korea?
Information Retrieval
Page 20
Chapter 4: 질의언어
구조 질의

텍스트 구조
양식 형태의 구조
Information Retrieval
하이퍼텍스트 구조
계층적 구조
Page 21
Chapter 4: 질의언어
고정 구조



문서는 양식과 같이 필드의 집합으로 구성된다.
필드는 텍스트이다.
 중첩(nested)되거나 중복(overlap)되지 않는다.
예) 메일 : 보내는 사람, 받는 사람, 날짜, 주제, 본문
 질의 :주제에 “football”이 들어 있고 "Cliton"에게 보낸 메일을 찾아라.

HTML 문서와 같은 계층구조(hierarchical structure)로 된 문서의
검색표현으로는 부적합하다.

데이터베이스의 관계형 모델에 적용할 수 있다.
 필드 : DB의 필드에 해당한다.
 구조질의언어(SQL, structured query language)를 확장하여 전문검색이
가능하게 할 수 있다.
 SFQL (structured full-text query language)
Information Retrieval
Page 22
Chapter 4: 질의언어
하이퍼텍스트



방향성 그래프로 간주된다.

노드 : 텍스트

링크 : 노드 사이를 연결 혹은 노드 내 어떤 위치 사이에 존재하는
연결
검색

하이퍼텍스트의 항해

원하는 문서를 찾기 위해서 링크를 따라 노드를 따라간다.
WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도

웹 네비게이션 + 현재 노드(text)와 연결된 노드들(texts)의 검색 기능

현재 하이퍼텍스트의 내용과 구조를 병합해서 검색하려는 시도가
이루어지고 있으나 많은 어려움이 있는 작업임.
Information Retrieval
Page 23
Chapter 4: 질의언어
계층 구조



하이퍼텍스트와 고정 구조가 중간 정도의 형태
장(chapter), 절(section)과 같이 나누어서 표현된 거의 모든 문서들
 예) 서적, 논문, 법률 문서, 구조화 프로그램
계층적 구조는 하이퍼텍스트보다 간단하기 때문에 질의 처리가 빠르다.
서적의 페이지
Schematic view
Chapter 4
4.1 Introduction
We cover in this chapter
the different kinds of …
….
4.4 Structural Query
chapter
section
parsed query
to retrieve the figure
in
with
figure
section
section
...
title
title
with
title
title
Introduction We cover …. ….. Structural …
Information Retrieval
"structural"
Page 24
Chapter 4: 질의언어
계층 구조(계속)

계층 모델

PAT 표현

겹침(overlapped) 리스트

참조 리스트

인접 노드

트리 정합
Information Retrieval
Page 25
Chapter 4: 질의언어
질의 프로트콜


텍스트 DB를 검색하기 위한 표준.
종류
 Z39.50;





WAIS: Wide Area Information Service(광역 정보 서비스)



1995년 ANSI와 NISO에서 표준으로 인정
클라이언트와 호스트 데이터베이스 관리기 사이의 표준 인터페이스
서버와 클라이언트가 세션을 연결하는 방법,
초기에는 서지 정보에 위주였으나, 점차 다른 형태의 정보도 검색할 수 있도록
확장.
1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜
WAIS의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를 검색
CD-ROM 프로트콜
 종류



CCL (common command language)
CD-RDx (compact disk read only data exchange)
SFQL (structured full-text query language)
Information Retrieval
Page 26