KRISTAL-IRMS 소개
Download
Report
Transcript KRISTAL-IRMS 소개
KRISTAL-IRMS 소개
http://www.kristalinfo.com
2006. 9. 21.
김진숙
한국과학기술정보연구원(KISTI)
지식정보센터 시스템개발팀
Information Retrieval
Static
Text Collection
(1) A ladybug has
beautiful wings…
(2) Bugs hide from
enemy as …
(3) enemy of aphids is
wasps that …
(4) Night heron has
short legs and …
(5) Ladybug as enemy
agriculture …
Inverted File
(Index)
.
.
.
ladybug
.
.
.
enemy
.
.
.
Boolean Retrieval
1, 5
(Ladybug)
1,5
(enemy)
2, 3, 5
(ladybug&enemy)
5
2,3,5
(ladybug|enemy)
5, 1, 2, 3
However,
• Some documents are modified.
• New documents are created.
• Some documents are deleted.
DB+IR
IRMS
목차
1
KRISTAL-IRMS 소개
2
KRISTAL의 고문서 처리
3
KRISTAL 3.1의 관리성능
4
저장엔진/색인엔진/검색엔진
5
추가기능 및 활용분야
#
별첨 – KRISTAL 기능요약
3/53
1. KRISTAL-IRMS 소개
KRISTAL-IRMS란?
KRISTAL
정보 검색 엔진과 데이터베이스 관리 시스템(DBMS) 기능을 통합한
순수 국내 기술의 정보 검색 관리 시스템(IRMS)
검색
고속/대용량 전문정보검색엔진
고속 데이터 색인
정보 관리
DBMS의 필수 관리 기능 탑재
고속 데이터 적재
• 정보검색 엔진을 위주로 DBMS의 기능을 결합
• 다양한 형태의 데이터 저장 및 관리 실현
• 하부 요소 엔진들의 분리로 분산 시스템의 개념 실현
5/53
개발배경 – 정보서비스 시스템 구조 연구/운
영 동향
방법
예
장점
단점
현황
응용프로그램
기반 DBMSIRS 소결합(疎
結合)
DBMS-IR 연동
방식의 대부분
의 문헌정보관
리시스템
DBMS는 문서관
리, IRS는 검색에
특화되어 각각의
장점을 살릴 수
있음.
별도의 이종 소프트
웨어 필요 (고비용),
복잡성,
DBMS(문서)-IRS(색
인) 간극 상존
가장
널리 사용
DBMS 기반
일부 IR 기능
소결합
Oracle
데이터 타입 확장 확장데이터타입 오버
Cartridge,
가능
헤드, SQL기반 검색
만 가능, 느린 검색
IBM DB2의
Text Extender
거의
사용하지
않음
DBMS 기반
일부 IR 기능
밀결합(密結
合)
Odysseus
(KAIST)
단순한 문서관리
IR 기반 문서
관리기능 밀
결합
KRISTAL IRMS
빠른 검색, 다양
한 IR 기능, 온라
인 문서관리
DB 관리자 입장에서
는 아직 관리기능 취
약
새로운 구조
의 DB-IR 시
스템
기본부터 DBIR 밀결합
이상적인 시스템
현재 실용적 시스템
이 없음
느린 검색, 빈약한 검
색기능.
제한된 분
야 사용?
널리 활용?
2005년
부터 논의
중
6/53
개발배경
연구개발의 동기
• 자국의 언어/문화 환경에 의존하는 정보 기술
한글, 한자의 색인 기술
문자 언어의 관행에 적합한 질의 처리
• 기술적 수요가 새롭게 창출되는 분야
지식 정보 관리 유통에 관한 수요 증대
목표 형상의 미확정: 정보 기술 선진국과 경쟁할 수 있는 분야
KISTI의 개발 기반
• 다양한 대용량 데이터 보유
문헌 정보 및 사실 정보
한글 자원
다양한 응용 실험의 기회
• 정보 시스템 사용자의 요구에 대한 이해
다양하고 복잡한 실용화 경험
정보 이용자의 지속적인 Feed Back
7/53
KRISTAL-IRMS 역사(1/2)
KRISTAL Service 명칭에서 출발
• “과학기술정보서비스”로 명명
• “telnet” 기반의 과학기술문헌검색서비스
• Korea Research Information in Science &
Technology Access Line
KRISTAL-II부터 시스템 명으로 정착
• KNL, ROSE, FIRE, DAdmin 등의 내부구성요소를 가짐
• Knowledge Retrieval In Science & Technology
Affiliated Literatures
8/53
KRISTAL-IRMS 역사(2/2)
KRISTAL-I
• 기간 : 1991. 5 - 1996. 2 (BASIS+ 이용한 정보검색)
KRISTAL-II
• 기간 : 1996. 03 – (정보검색엔진)
KRISTAL-2000
• 기간 : 2000. 03 – (정보검색관리 시스템)
KRISTAL-2002
• 기간 : 2002. 10 – (정보검색관리 시스템)
KRISTAL-IRMS
• 기간 : 2006. 01 – (정보검색관리 시스템) : 상용화 단계
9/53
KRISTAL-IRMS 연구개발 목표
1
2 바이트 언어 처리에 적합한 데이터 저장 관리 엔진 개발
구조기반 객체 저장 엔진
2
한글 처리 엔진 개발
한글 색인기, 검색 모델, 교차언어 검색기
3
상업성이 낮은 공공적 기술 수요에 대한 대응
용어사전 구축, 고문서 DB 편찬/검색 기술 개발
기술적 중요도는 높으나 상업성이 낮은 요소 기술의 실용화
10/53
KRISTAL-IRMS 특징
• 대용량, 고속의 정보 적재 실현
• 유니코드 기반으로 국제화 실현
• 멀티미디어 데이터 수용
저장-관리
• GUI 기반의 관리 시스템
• 트랜잭션 처리
• 단순화된 DB 관리
DB 관리
분산환경 기반
KRISTAL Platform
응용
시스템
• 다양한 플랫폼의 응용시스템
• 기능별 API화로 Customizing
• 확장성 고려
사용자 친화적
정보 검색 관리
• 분산 검색
• 다양한 형태의 검색 모델
• 복합명사 확장 질의 처리
검색
시스템
색인
시스템
• 색인 방법의 다양화
• 빠르고 정확한 형태소분석기 내장
• 유니코드 기반 색인
11/53
KRISTAL-IRMS 시스템 구조
KRISTAL 응용
Applications
KRISTAL
사용자 프로그램
KRISTAL
관리 프로그램(GUI)
오프라인 관리기
네트워크
KRISTAL 서버
APIs
관리 APIs
사용자 APIs
SM
검색(FIRE)
KRISTAL 서버
주요모듈
데이터 관리(DM)
하부저장(ROSE)
색인기
(INDEXER)
커널(BDB)
저장소(Repository)
KRISTAL 서버
저장소
DB1
T1
DBn
DB2
T2
멀티테이블
C1 C1’ C1’’
…
Tm
테이블 클러스터
12/53
KRISTAL-IRMS 시스템 구조 - 계속
KRISTAL
사용자 프로그램
KRISTAL
관리 프로그램(GUI)
Offline
Program
Job
Scheduler
DM
INDEXER
KRISTALKRISTAL
DAEMON
DAEMON
KRISTAL DAEMON
…
FIRE
DM
SM
INDEXER
FIRE
FIRE
SM
SM INDEXERINDEXER
..
..
DM
DM
..
Pipe link
ROSE
Socket link
Process
C
DB1
T1 .. Tn
S
…
C
DBn
T1 .. Tn
S
Thread
DB
T
Table
13/53
2. KRISTAL의 고문서 처리
고문서처리 (1/8)
사용자 요구사항 분석
• 한국의 고문서는 공백의 구분이 없이 한자로 기록
예 : “金祖淳舊居紫霞洞, 洞在景福宮之北, …”
• 한자에는 이체자 존재
예:劍 剣 劒 劔 劎…
• 대다수의 사용자는 한국어 발음으로 고문서를 검색
예 : 이순신 = “이순신”, “李舜臣”
• 한자에는 1개 이상의 한국어 음가가 존재
예 : 樂 = 악(AK), 락(RAK), 요(YO); 李 = 이(YI), 리(LI)
• 빠른 검색을 지원해야 하며 불리안 검색방법 사용
• 다수의 고문서는 번역되어 한문-국역 혼재
15/53
고문서처리 (2/8)
공백없는 한문 처리
문서번호 1
上曰, 得將爲難, 以壬辰之事言之, 李舜臣爲之則能禦, …
문서번호 2
亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, …
각각의 문자 색인
(Unigram)
B+tree에 색인저장
舜
臣
李
문서번호:위치 2:19 1:01 2:20
1:18
1:19
1:17
1:12 1:11 2:02
문서번호:위치
2:04
2:05
2:03
1:15
색인어
문서번호:위치
各 上 色
···
···
之 辰 初
1:21
16/53
고문서처리 (3/8)
사용자 질의처리 과정
“李舜臣”
사용자 질의
시스템 질의
“李” directly followed by “舜” directly followed by “臣”
B+tree
舜
臣
李
문서번호:위치 2:19 1:01 2:20
1:18
1:19
1:17
1:12 1:11 2:02
문서번호:위치
2:04
2:05
2:03
1:15
색인어
各 上 色
문서번호:위치
검색결과문서
···
···
之 辰 初
1:21
문서번호 1 : 李(17) 舜(18) 臣(19)
문서번호 2 : 李(03) 舜(04) 臣(05)
17/53
고문서처리 (4/8)
한자의 이체자 처리
문서번호 11 今番似異於前規, 白線紙·劍柄等物加磨鍊, 似可矣。
劍
11:13
이체자 색인
DB 관리자가
이체자 색인수준
결정
劍劒劔劎釖釰釼鐱剣
B+tree에 색인저장
색인어
문서번호:위치
··· 劍
劒
劔
劎
釖
釰
釼
鐱
剣
···
11:13 11:13 11:13 11:13 11:13 11:13 11:13 11:13 11:13
18/53
고문서처리 (5/8)
한국어 음가를 이용한 검색
문서번호 2
亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, …
사용자 질의 =
“이순신”.
李
舜
臣
2:03
2:04
2:05
한국어 음가 색인
복수 음가
B+tre의 각
음가 접근을
통한 검색 수행
[李 이 리] [舜 순] [臣 신]
B+tree에 색인저장
색인어
문서번호:위치
···
李
이
리
舜
순
臣
신
2:03
2:03
2:03
2:04
2:04
2:05
2:05
···
19/53
고문서처리 (6/8)
Bigram 색인을 활용한 빠른 검색
문서번호 2
“이순신”
검색
亂初李舜臣·元均等, 經營創立時, 湊合各色軍兵, …
李
舜
臣
2:03
2:04
2:05
이
순
신
2:03
2:04
2:05
Unigram 검색
李舜 舜臣
2:03
2:04
이순 순신
2:03
한자 Bigram,
한국어음가
Bigram을 추가로
색인
2:04
Bigram 검색
“이” 포함 문서수 = 593,579
“순” 포함 문서수 = 75,051
“신” 포함 문서수 = 305,013
“이순” 포함 문서수 = 4649
“순신” 포함 문서수 = 420
최소 저장장치접근회수 = 3
최소 저장장치접근회수 = 2
최소 CPU 연산회수 = 593,579
최소 CPU 연산회수 = 4649
승정원일기
DB의 실례
20/53
고문서처리 (7/8)
국역-한문 혼용 문서처리
문서번호 3
쇠약해진
기력의 회복을
위해 권제를
따를 것을
청하는 이지항
등의 계
大司諫李之恒,
司諫沈大孚,
獻納洪處亮,
正言李正益·
鄭世輔啓曰, …
한국어
한국어
형태소분석기
적용(명사색인)
한문
한자,
한국어 음가,
Bigram 색인
쇠약 기력 회복 권제
3:01
3:02
3:04
3:03
이지항
등
계
3:06
3:07
3:08
大
司
諫
···
3:09 3:10 3:11
대
사
간
3:09 3:10 3:11
3:05
大司 司諫
3:09
···
청
3:10
대사 사간
3:09
3:10
21/53
고문서처리 (8/8)
요약: KRISTAL의 고문서처리 해법
• 각각의 한자를 모두 색인 (Unigram 방식)
• 한자의 이체자는 DB 관리자의 선택에 따라 색인가능
• 한자의 한국어 음가에 의한 검색을 지원하기 위해 각 한자의
음가를 색인
• 선택에 따라 한자, 한국어 음가에 대해서 Bigram을 색인할
수 있고며 빠른 검색을 지원
• 국역-한문 혼용문서에서 한국어와 한문은 독립적인 방식으
로 색인가능
• 이상의 모든 기능은 정보검색관리시스템(IRMS)을 기반으로
개발되었기 때문에 고문서에 대해서도 일반문서와 마찬가지
로 검색과 관리의 동시지원 가능
22/53
3. KRISTAL 3.1의 관리성능
관리성능 – 버전별 관리기능의 특징
구분
보조DB
2.0.x
2.1.x
부모DB와 분리된 독립적인 보조DB 사용 부모DB에 종속적인 보조DB 사용
3.1.x
포스팅 분할(Postings
Segmentation)형 색인 관리
문서수정 삭제/삽입 정책으로 인한 문서 중복 발생
삭제/삽입 정책으로 인한 문서 중복 발 원본문서를 직접 수정하여 중복문서
생
발생 방지
문서삽입 보조 DB에 색인 저장
보조 DB에 색인 저장 - 일정크기 초과
색인정보에 대하여 부모DB와 색 부모DB에 직접 색인 관리
인정보를 그때그때 통합하는 방식
수정/삭제
문서관리속도가 기하급수적으로 증가
시간 비교
문서삭제 삭제 Flag 사용: 문서는 DB에 잔존
최적화
빈번한 최적화 필요 - 삭제문서/색인 제
거, 수정으로 인한 중복 문서/색인
제거 과정
문서관리속도가 거의 직선형으로 증가
삭제 Flag 사용: 문서는 DB에 잔존
빈번한 최적화 필요 - 삭제문서/색인
제거, 수정으로 인한 중복 문서/색
인 제거 과정
관리 회수에 관계없이 거의 일정한
속도 보장
완전 삭제 수행
최적화 필요 없음
조회수 조회수의 경우 문서수정으로 처리되는 현 조회수의 경우 문서수정으로 처리되는 조회수의 경우 특정섹션만의 수정으
처리방식
상발생(매우 느림)
현상발생(느림)
로 처리됨(빠름)
매일경제신문 집배신에서 수정시간이 길 매일경제신문 집배신의 2.1로 업그레
적용사례
어져서 검색이 느려짐. 이틀마다 최
이드후 수정으로 인한 검색지연현
적화작업 수행 2.1로 업그레이드
상 완화, DB 최적화 주기를 2주.
비고
70만건 정도의 데이터베이스에서
수만번 이상의 갱신에 대하여
일정한 속도 보장
KISTI Next10 서비스 안정화
2.0, 2.1, 3.1은 KRISTAL 하부저장구조의 변화에 따른 버전변화로 볼 수 있으며 응용프로그램은 변경할 필요 없음. 다
만, 2.02.1, 2.03.1, 또는 2.13.1 업그레이드 시에는 데이터를 재적재해야 하고 클라이언트 프로그램의 라
이브러리(JAVA의 경우 kristal.jar)를 해당 버전으로 변경만 하면 됨.
24/53
관리성능
KRISTAL-2002 2.0/2.1
- 보조 DB 기반 갱신
- 일정수준의 갱신 후에는 DB 최적화 필요
KRISTAL 3.1
- 색인분할(Postings Segmentation) 알고리즘 사용
- 별도의 DB 최적화 작업이 필요하지 않음.
그림: 버전별 수정/삽입 속도 추이 비교
25/53
관리성능
KRISTAL-2002 2.0/2.1
- 보조 DB 기반 갱신
- 일정수준의 갱신 후에는 DB 최적화 필요
KRISTAL 3.1
- 색인분할(Postings Segmentation) 알고리즘 사용
- 별도의 DB 최적화 작업이 필요하지 않음.
그림: 버전 3.1의 문서관리 성능
20
18
삭제
수정
16
CHAR/색인
CHAR/비색인
대상 DB: 학회 DB
삽입
- 70만건
- 71개 섹션
- 섹션별 색인어
평균 400개
5백건당 평균(초)
14
12
10
8
6
4
2
0
0
5000
10000
15000
20000
문서수
26/53
고문서관련 KRISTAL 연구 및 개발 현황
- 기존
-이체자/복수음가, 국역-한문 혼용문서 색인 지원
-Bi-gram 색인 방식에 의한 빠른 검색
-KConverter에 의한 XML 단편화 지원
- 현재
-SYS.CDATE/SYS.UDATE 지원
-Wild Card 검색을 위한 LIKE 검색
-관리 성능 향상 2.0/2.1 3.1
-다양한 DB 관리 도구 개발
- 향후
-Regular Expression에 의한 섹션값 추출
-XML 문서 변환 모듈 개발(KConverter의 시스템 밀결합)
-XML 질의표현식(Xpath) 지원 방안 강구
-색인의 양이 일반문서에 비해 수~수십 배에 달하는 고문서 데
이터베이스에서의 효율적인 관리
-단편화, 이로 인한 XML 복원의 어려움
- 편법이 아닌 온전한 XML의 지원에 대한 연구 필요
27/53
4. 저장엔진/색인엔진/검색엔진
저장엔진
DBMS의 필수 관리 기능과 IRS의 검색기능이 밀결합된(Tightly Coupled) IRMS 기능지원
고속의 대용량 데이터 적재
비정형, 구조문서(XML)등 다양한 형태의 데이터 저장 및 관리 기능 지원
유니코드 기반 정보 저장시스템
문서단위 동시성(Concurrency Control), 복구(Recovery)에 적합한 Coarse-grained
transaction 지원
Retrieval Oriented Storage Engine (ROSE)
Multimedia Data
Manager
Bulk Load Manager
Cat Manager
Set Manager
Doc. Manager
Index Manager
Structured Data
Manager
Recovery
Manager
XML
Parser
Backup
Manager
KRISTAL Repository
Catalog DB
Doc. DB
Index DB
…
Cache-based
Result Set DB
29/53
저장엔진
데이터베이스 구조
• 데이터베이스: 서비스 대상, 다수의 테이블 클러스터로 구성
카탈로그 DB: 테이블 속성정보(스키마 정보)
문서 및 색인 DB: 문서, 색인어
결과 집합 DB: 검색결과 및 질의
KRISTAL 데이터베이스 구조
카탈로그
DB
문서
문서
DBDB
문서 DB
색인
색인
DBDB
색인 DB
결과집합
DB
30/53
저장엔진
색인 구조
int
Char[5]
boo
l
string
1
KISTI
T
한국과학기술정보연구원
2
KSC
F
KISTI Supercomputing
Center
3
CCBB
T
바이오인포매틱스센터
4
RNBD
T
차세대신성장 동력산업정보
1
2
1
4
numeric
전체 색
인
5
바이오
정보
한국
형태소분석
3
CCBB
KISTI
2
CCBB
정보
한국
형태소분석
RNBD
KISTI
Supercomputing
4
한국과학기술정보연구원
토큰
31/53
저장엔진
데이터 타입
• 고정길이, 가변길이 문자열, 숫자, 불리언 타입 지원
KSTRING: 가변길이 문자열
KCHAR[N]: 고정길이 문자열
– N 만큼의 길이를 가짐
KINT, KUNIT, KFLOAT: 숫자형
KBOOL: 불리언
– TRUE, FALSE
32/53
색인엔진
한글 형태소 분석기 이용
한국어 어절 생성 규칙에 의한 세부 어휘 분석기능
문자, 단어, 형태소 단위의 다양한 색인 타입 지원
- 언어와 데이터 타입에 적합한 색인 적용
한자 변환 처리 지원
- 이체자 색인, 한글-한자 변환테이블 사전화
유니코드 기반 색인 시스템(외국어 색인 및 검색)
유형별 색인 기능 모듈
형태소 분석 모듈 패키지
체언 분석 모듈
수사 분석모듈
명사, 대명사, 복합명사 분석
수사 분석
용언 분석 모듈
미등록어 분석 모듈
동사,형용사,어미 분석
형식형태소 사전, 확률 추정
독립언 분석 모듈
모드별 형태소분석 API
독립어, 관형사 등 분석
명사, 대명사, 복합명사 분석
분석 결과 저장 관리
사전 관리기
관리기
메모리
메모리
관리기
분석 사전 정의
-사전 파일 이미지 생성
-사전 탐색, 삽입, 삭제, 변경
분석 사전
-품사사전(명사,대명사,동
사..)
-고유명사사전(인명,지
명..)
메모리관리기
관리기
메모리
메모리
관리기
파일 관리기
관리기
메모리
시스템 메모리 관리 모듈 탑재
시스템 사용 파일 관리 모듈 탑재
-기능성사전(어미,조사 등)
-메모리 생성, 제거, 변경
-전체 메모리 할당량 관리
-파일 열기, 닫기
-파일 삭제, 생성, 변경
-형식형태소 사전
-기분석사전
33/53
색인엔진
색인형식 및 예시 (HANJA2HANGUL이 False인 경우)
색인형식
INDEX_AS_IS
INDEX_BY_TOKEN
INDEX_BY_MA
INDEX_BY_CHAR
제목
정보검색에 관한 연구
情報檢索에 관한 硏究
정보검색에 관한 연구
情報檢索에 관한 硏究
전산학/정보검색;전산학/문
서분류
홍길동/Smith, J./허균
정보검색에 관한 연구
情報檢索에 관한 硏究
홍 길동
洪 吉洞
INDEX_AS_NUMERIC 19961214
INDEX_AS_IS_MA
정보검색에 관한 연구
情報檢索에 관한 硏究
INDEX_BY_MIX_CHAR
INDEX_BY_MIX_MA
樂器에 관한 硏究
樂器의 발전에 관한 硏究
색인어
“정보검색에 관한 연구”
“情報檢索에 관한 硏究”
“정보검색에”, “관한”, “연구”
“情報檢索”, “에”, “관한”, “연구”
“전산학/정보검색”, “전산학/문서분류”
“홍길동”, “SmithJ”, “허균”
“정보”, “검색”, “정보검색”, “연구”
“情報檢索”, “硏究”
‘’홍”, “길”, “동”
“洪”, “吉”, “洞”
“19961214”
“정보검색에 관한 연구”, “정보”, “검색”, “정보검
색”, “연구”
“情報檢索에 관한 硏究”, “情報檢索”, “硏究”
“樂”, “악”, “락”, “요”, “器”, “기”, “에”, “관”,
“한”, “硏”, “연”, “究”, “구”
“樂”, “악”, “락”, “요”, “器”, “기”, “硏”, “발전”,
“연”, “究”, “구”
34/53
검색엔진
불리언, 벡터 검색 모델 지원
Memory DB 이용한 신속한 검색
Summary DB 이용한 효율적 검색
멀티쓰레드 기반 검색
섹션간 유사 문서 검색
결과 내 재검색
섹션별 그룹 검색
멀티 스키마 검색
멀티 섹션 소팅
문서 분류
Memory DB
Summary DB
35/53
검색엔진
특징
• 불리안, 벡터, 벡터불리안 검색모델 제공
• 한글 고어, 일본어, 러시아어 등 다국어 검색
• 한문 검색
• 한글 한자 혼합 검색
• 이체자 검색
• 실시간 디렉토리 서비스 구성
• 검색 결과의 구조적 표현 제공
검색 결과의 디렉토리 서비스 형식의 표현 제공
• 전문가 검색을 위한 불리안 검색
• 검색 결과에 대하여 보다 정확한 문서 우선 순위 제공
• 유사문서 검색 제공
• 결과 내 검색 제공
36/53
검색엔진::검색모델 별 특징
특징
블리안 모델
벡터 모델
벡터 블리안 모델
느림(10)
빠름(1)
느림(11)
Recall(재현율)
높음
낮음
높음
Precision(정확율)
낮음
높음
높음
검색 속도
지원 연산자
AND, OR, NOT,
WITHIN/NEAR, *
*
AND, OR, NOT,
WITHIN/NEAR, *
전문가
일반사용
자
전문가/일반사용자
시스템 점유율
(Memory, CPU)
높음
낮음
매우 높음
Memory DB지원
O
O
O
공백문자 사용자 정
의
O
X
O
섹션들 간의 가중치
없음
OR
OR
문헌정보검색
포탈검색
소규모 DB(게시판)
검색 대상
대상 서비스
37/53
검색엔진
벡터스페이스 모델
•
•
•
•
•
•
빠른 검색 기능 제공
높은 정확도 제공
일반 사용자를 위한 검색 모델
요약 DB 지원(검색 성능 향상)
불리안 검색의 논리연산 및 관계연산은 지원하지 않음
우절단 연산 지원
사용자 질의
TITLE: 문단단위 문서범주화
벡터모델 검색결과 우선순위별 제시
① 문단단위를 이용한 효과적인 문서범주화
②
문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화
③
바이그램이 문서범주화 성능에 미치는 영향에 관한 연구
④
SVM 분류기를 이용한 문서 범주화 연구
...
⑤
38/53
검색엔진
벡터불리안 검색 : 특징
• 불리안 검색 + 벡터검색
불리안 연산결과에 대하여 문서우선순위를 계산하여 검색결과 제공
검색방법은 불리안검색과 동일함
• 랭킹 지원
• 높은 정확도
• 검색속도는 느림
불리안 연산자
관계 연산자
근접도 연산자
절단 연산자
&(AND)
|(OR)
!(NOT)
=
<
=<
>=
>
/N (near)
/W (within)
* (우절단)
39/53
검색엔진
결과 내 검색
• 검색결과에 대한 재검색 기능 제공
예) (TITLE: 정보) 결과 내에서 “시스템” 포함 문서만 재검색 (TITLE:
정보 & 시스템)
TITLE: 정보
정보시스템 현황
정보검색시스템
정보검색 입문
문헌정보 서비스시장
생물정보 서비스시스템
TITLE: 정보 & 시스템
“TITLE:시스템”
정보시스템 현황
정보검색시스템
결과 내 검색
생물정보 서비스시스템
40/53
검색엔진
유사 문서 검색
• 사용자가 지정한 문서에서 단어들을 추출
문서의 빈도 및 단어의 빈도를 이용하여 좋은 자질의 단어를 선정
자질 추출 시, 섹션 지정 가능
• 벡터 모델을 이용하여 문서의 랭킹 처리
• 사용자가 지정한 유사문서 범위의 값(0~1,0)을 선택
유사 문서 범위의 값: 0.5 지정 → 50% 이상의 유사한 문서를 나타냄
41/53
5. 추가기능 및 활용분야
XML 처리기능
변환규칙 및 변환도구 제공
• XML문서를 단편화하기 위한 변환규칙 파일 작성
• 변환도구는 변환규칙 파일을 이용하여 XML문서를 단편화
• 단편화된 문서를 KRISTAL에 적재
• 적재된 단편화된 문서에 대한 관리 및 복원 기능 제공
XML 문서
변환 규칙
데이터베이스
정보변환
적재
XML 테이블
결과
KRISTAL
XML 변환 모듈
KRISTAL
적재 포맷
KRISTAL
스키마
43/53
문서 요약 및 문서 하이라이팅
검색된 결과 출력 가공
• 문서의 내용이 긴 경우 간략하게 보여주고자 할 때 사용
• 질의어가 포함된 특정 부분을 보여주고자 할 때 사용
44/53
사용자 편의 도구::검색관련도구
메모리 DB
• 대용량 검색결과에 대한 실시간 정렬작업 속도를 빠르게 처리하
기 위해 사용
Summary DB
• 벡터 공간 모델의 검색속도 향상을 위해 사용
45/53
사용자 편의 도구::DB 적재 및 이주
문서 벌크 적재기
• 다양한 문서(정형포맷, XML, CSV)에 대한 적재 도구 제공
문서 덤프 도구
• 적재된 문서를 정형포맷, XML, CSV 등의 형식으로 출력
마이그레이션 도구
• 하위 버전으로 구성된 DB를 상위 버전으로 마이그레이션 하기
위한 도구
DB구성 도구
• 여러 개의 테이블을 조합하여 새로운 DB로 구성하는 도구
46/53
사용자 편의도구::테이블 구성 변경도구
섹션 연산(Section Operation)
• 섹션 제거 도구
• 섹션 추가 도구
• 섹션 크기 변경 도구
• 섹션 내용 일괄 변경 도구
인덱스 연산(Index Operation)
• 기존 인덱스 제거 도구
• 새로운 인덱스 생성 도구
47/53
활용분야
멀티미디어
서비스시스템
문헌정보
서비스시스템
단순구조
정보관리시스템
고문서DB
편찬시스템
KRISTAL-IRMS
유전자정보
서비스시스템
- 정보서비스
- 정보생성
- 정보가공
XML문서
서비스시스템
맞춤정보
서비스시스템
디렉토리
서비스시스템
48/53
대표적 적용사이트
내부사이트
•
•
•
•
•
•
과학기술 통합검색 (http://www.yeskisti.net)
과학기술 통향서비스 (http://techtrend.kisti.re.kr)
북한과학기술자 네트워크(http://www.nktech.net)
생물정보 서비스 (http://www.ccbb.re.kr)
과학기술학회마을 (http://society.kisti.re.kr)
학회논문투고관리 시스템
(http://acoms1.kisti.re.kr:8080/kistiacoms/acoms_new)
• 미래선도 기술네트워크 (http://next10.yeskisti.net)
• 한민족과학기술자 네트워크 (http://www.kosen21.org)
• 부품소재종합정보망 (http://www.mctnet.org)
외부사이트
•
•
•
•
•
•
•
•
국사편찬위원회 한국사DB (http://www.history.go.kr)
국사편찬위원회 승정원일기 (http://sjw.history.go.kr)
한국역사통합정보시스템 (http://www.koreanhistory.or.kr)
경상대학교 문천각 (http://nmh.gsnu.ac.kr)
민족문화 추진회 (http://www.minchu.or.kr)
서울대학교 규장각 (http://e-kyujanggak.snu.ac.kr)
디지털 성남 문화대전 (http://seongnam.grandculture.net)
디지털 청주 문화대전 (http://cheongju.grandculture.net)
49/53
# 별첨
기능요약
기능(1/2)
대항목
색인
저장
검색
○ : 반드시 필요한 기능 △ : 선택적용가능
소항목
필수기능
색인방식
유니코드지원
한자지 한자 변환
원
이체자 지원
사용자 사전제공
색인
문서
압축기능
최대 저장공간
Transaction 지원
구조문서 저장
핫백업
저장방 불리언검색
식
벡터검색
인접어 검색
동의어 검색
필드별 검색
비교 연산
절단 검색
결과내 검색
유사문서 검색
○
○
○
○
△
○
○
○
○
○
△
○
○
○
○
△
○
○
△
○
○
KRISTAL-IRMS
형태소 분석, 한자, 숫자, 토큰
YES(고어, 일본어, 러시아어)
YES
YES
불용어사전, 이체자사전
자체 DBMS
자체 DBMS
YES
제약 없음
YES
YES
YES
YES
YES
within, near
YES
YES
=, <, <=, =>, >, ~
후방
YES
YES
51/53
기능요약
기능(2/2)
대항목
소항목
다중DB/TABLE검색
분산검색지원
다국어지원
검색 결과셋유지
공급기관별
저장
주제분류별
방식
정보유형별
검색엔진 운용방식
쓰레드
결과
시스템
통신방식
필터링
통신보안
지원 OS
관리기 지원
온라인문서관리(삽입/삭제/
관리
수정)
접근권한/문서보안
사용자 지원
지원 OS
API
사용자
검색어 하이라이트
지원
검색섹션 요약
제공도구
필수기능
KRISTAL-IRMS
○
○
○
○
○
○
○
○
○
○
○
○
○
YES
YES
중국어, 일본어, 러시아어
YES
YES
YES
YES
데몬/멀티P/멀티T
YES
자체 프로토콜
NO
리눅스, 유닉스
YES
○
YES
○
○
○
○
○
○
YES
C++, JAVA
리눅스, 유닉스
YES
YES
데몬관리기, DB관리기, 백업도구
52/53
KRISTAL에 대한 모든 문의는
http://www.kristalinfo.com
감 사 합 니 다.
53/53