정보검색 테스트 컬렉션 HANTEC 구축 사례

Download Report

Transcript 정보검색 테스트 컬렉션 HANTEC 구축 사례

정보검색 테스트 컬렉션 HANTEC
구축 사례
2000년 4월 1일
맹성현
충남대학교 정보통신공학부
Outline
 HANTEC 구축 배경
 HANTEC 이전 현황 (국내, 국외)
 ‘98년도 구축 결과
 ‘99년도 추진 결과
 결론
2
구축 배경
 목적
 1998년도에 구축된 HANTEC (Hangul TEst Collection) 정보
검색 테스트 컬렉션의 품질 향상 및 규모 확장
 필요성
 정보검색시스템 신뢰도(effectiveness) 평가의 표준화
 관련 기술, 운용 시스템, 검색 서비스의 품질 향상
 국제 수준의 컬렉션 개발을 통한 international community와의
협력
3
HANTEC 이전 현황
 KT-SET 1.0 (1994)
 1,053건 문서 (학회 논문 초록)
 30개의 단순 질의
 KT-SET 2.0 (1996)
 4,414건 문서 (논문, 신문기사 포함)
 50개의 자연어 및 불리언 질의
 KRIST 컬렉션 (1995)
 13,315건 (과기처연구보고서 초록)
 30개 질의 (topic statements)
 ETRI-Kyemong
 계몽사 백과사전 23,113건, 46개 질의, 76개 범주로 분류
4
외국 사례 (1) - 미국
 TREC Test Collection
 미국 NIST주관 + 정보검색분야 전문가 위원회
 대규모 컬렉션 구축을 목표로 1991년부터 매년 컬렉션 규모
및 평가 분야 추가
• TREC-7 (1998): 총 1,634,243건 문서, 350 질의
 매년 시스템 및 알고리즘 평가 결과 발표
 평가 대상 종류
•
•
•
•
ad-hoc vs. routing algorithms
English, Japanese, Spanish, (Chinese),German, French, Italian
Cross-language IR (English, French, German)
Filtering, High Precision, Interactive, SDR(Spoken Document
Retrieval), VLC(Very Large Corpus)
 99년 Web Track 추가
5
외국 사례 (2) - 일본
 NACSIS test collection (일본)
 330,000문서 (65개 분야 학회논문 요약)
 100 개 질의
 일어-영어 병행 코퍼스 대상
 평가를 위한 conference 개최 (99.8)
 BMIR-J1 & J2 (일본)
 600건 문서, 60개 질의 (J1)
 5080건 문서, 60개 질의 (J2)
 Economics and engineering
 Query categorization
6
HANTEC (HANgul TEst Collection)
-1998년도 구축 결과 문서: 12만건 (244MB)
 일반, 사회과학, 자연과학기술 각각 40,000건
 문서 크기 (51byte - 360Kbyte/doc)
 질의: 30건
 TREC-6 형식
 적합성 판정
 5점 척도
 1건 당 2인 판정
7
적합성 판정을 위한 pooling
질의
검색기 1
검색기 2
…
검색기 n
상위 200건
검색결과
상위 200건
검색결과
…
상위 200건
검색결과
적합문서 후보 500건 생성
문서당 적합성
판정
8
HANTEC 질의 예
<num> 01
<title> 월드컵 축구 유치
<desc> 한국의 2002년 월드컵 축구 유치 활동 내용
<narr> 한국의 2002년 월드컵 축구 유치를 위한 국내외
적인 활동이나 한국개최에 대한 회원국들의 반응
을 포함한 정보는?
<quer> 2002년 월드컵 축구 피파 FIFA 회원국 한국 개최
주최 유치 전략 홍보 활동
9
HANTEC의 특징(1)
 문서의 다양성
일반
분야별 문서집합
사회 과학
과학 기술
한국 일보: 22,000
한국 경제 신문: 39,480
과기처지원연구보고서: 10,000
웹(gov): 9,000
여성 개발원 논문: 110
해외 과학기술 동향: 18,000
웹(com): 9,000
경북 도의회 회의록: 410
학술논문 서지사항: 12,000
10
HANTEC의 특징(2)
 질의 종류의 다양성
일반종합
과학 기술
사회 과학
일반인
4
4
4
영역 전문가
중고등학생
3
3
3
3
3
3
 적합성 판정
11
“HANTEC-98” 분석 (1)
 Pool depth에 따른 평균 적합문서 분포도
12
적합문서수
10
8
6
4
2
0
5
10
15
20
25
30
35
40
45
50
Pool Depth
2,3,4,5: relevant
12
“HANTEC-98” 분석 (2)
 내용별 적합 문서의 분포도
6
적합문서 수
5
4
일반
사회과학
과학기술
3
2
1
0
5
10 15 20 25 30 35 40 45 50
Pool Depth
13
“HANTEC-98” 분석 (3)
적합문서 수
 사용자별 적합 문서의 분포도
7
6
5
4
3
2
1
0
일반인
년
청소년
전문가
5
10 15 20 25 30 35 40 45 50
Pool Depth
14
1999년도 구축 목표
 HANTEC 98 품질 향상
 수정된 검색기로 새로운 검색 결과 생성
 추가 문서의 적합성 판정 실시
• 추가 문서 5571건 => 추가 적합 문서 182건
 HANTEC의 확장
 질의 20건 추가
 각 질의에 대한 기존 문서 (12만건) 적합성 판정
 일한 교차 언어 검색용 컬렉션으로 확장
 한일 교차언어 검색용 컬렉션 구축 지원
15
HANTEC 2.0 (1)
 목표: 자연과학기술 분야 질의를 총 30개로 확장
 일본 NACSIS의 질의 사용 (science & engineering 분
야)
 총 83개를 한글로 번역
 HANTEC 컬렉션과 관련 있는 질의 79개 선정
 질의 20개 선정을 위한 작업
 선정된 질의를 사용하여 일차 검색
 검색 결과에 대한 일차 적합성 판정
 적합성 문서 분포에 따른 최종 질의 선정
16
HANTEC 2.0 (2)
-후보 문서 생성  Pooling 방법
 총 41개 run들로부터 상위 50개 문서 사용
 중복 문서 제거
 사용된 후보 문서 생성 시스템
 충남대 검색기 (20 runs)
• 색인 방법, 질의 구성 방법, relevance feedback (RF) 사용 여부
 KRISTAL II (2 runs)
• P-norm사용, P-norm 사용+거리밀도 사용
 숭실대 검색기 (18 runs)
• Bigram혹은 형태소 단위 색인, 가중치 부여 방법, RF 사용 여부
 다센21 (1 run)
17
HANTEC 2.0 (3)
- 적합성 판정 -
 대상: 각 질의 당 생성된 최종 후보문서 집합
 8명의 평가자를 2인1조로 구성
 각 질의 당 각 문서의 적합성을 2인이 판정
 평가자 들간의 관점 차이 최소화
 가평가 과정을 거쳐 적합성 판정 과정을 숙지
 각 질의의 내용에 대한 사전 토의 -> 독립된 평가
 평가자 간 3점 이상의 차이는 상호협의를 통해 조정
 5점 척도
 섬세한 평가 -> 평가자간의 양극화 현상 방지
 시간이 많이 걸리는 단점
18
HANTEC 2.0 (4)
- 질의 별 적합문서 개수 적합기준
질의번호
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
평균(%)
G2
G3
G4
G5
L2
L3
L4
L5
90
112
16
78
124
47
48
82
108
107
51
81
87
75
72
83
124
34
14
101
13.3
38
31
4
21
35
14
12
38
70
23
20
13
29
32
47
10
44
3
1
32
4.49
13
2
1
6
6
2
1
11
13
7
11
2
6
10
29
1
16
2
0
10
1.3
2
1
0
1
1
0
0
3
2
0
2
0
1
2
20
0
4
0
0
3
0.37
52
62
4
31
58
17
17
56
82
38
22
21
34
43
50
17
49
6
3
47
6.16
22
8
1
10
19
5
5
20
46
10
12
4
15
21
34
2
26
2
0
20
2.45
7
2
0
3
4
1
0
6
6
5
2
1
4
4
20
0
6
0
0
8
1.69
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
1
0
0
1
0.04
질의당
문서수
609
658
741
447
611
550
594
460
463
621
626
630
647
572
498
723
387
733
579
356
19
HANTEC 2.0 (5)
- 유효성 평가  문제점: 후보 문서만을 대상으로 적합성 평가
 나머지 문서 중 적합한 문서가 존재할 가능성
 재현율이 고평가 될 수 있는 가능성
 새로운 시스템 평가가 불공정할 수 있음
 평가 방안
 1. 각 질의 별 pool depth를 가변적으로 증가 시키면서 새로운
적합문서의 출현 상황 관찰
 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰
 1번 방법 사용
 Pool깊이를 50까지 증가 시켜 가면서 추이 관찰
20
HANTEC 2.0 (6)
- Pool Depth에 따른 적합문서의 변화 추이도 -
New relevant
documents
G2
25
20
15
10
5
0
5
10
15
20
25
30
35
40
45
50
Pool depth
21
HANTEC 2.0 (7)
- Pool Depth에 따른 적합문서의 변화 추이도 -
New relevant
documents
L2
25
20
15
10
5
0
5
10
15
20
25
30
35
40
45
50
Pool depth
22
HANTEC 2.0 (8)
- Pool depth증가에 따른 추가 적합문서 수의 예측 -
Pool depth
적합기준에 따른 적합문서 수
G2
L2
1-50 ( Actual)
1534
709
51-55(predicated)
77
25
56-60(predicated)
74
23
61-65(predicated)
71
21
66-70(predicated)
68
20
71-75(predicated)
65
19
76-80(predicated)
63
18
81-85(predicated)
31
17
86-90(predicated)
59
16
91-95(predicated)
57
16
96-100(predicated)
55
15
51-100(predicated)
651
191
23
HANTEC 2.0 (9)
- Pool depth증가에 따른 추가 적합문서 수의 예측 50이후 줄어들지 않는 질의 제외 (G2:10, L2:3)
Pool depth
적합기준에 따른 적합문서 수
G2
L2
1-50 ( Actual)
528
489
51-55(predicated)
14
14
56-60(predicated)
13
13
61-65(predicated)
12
12
66-70(predicated)
11
11
71-75(predicated)
10
10
76-80(predicated)
10
9
81-85(predicated)
9
9
86-90(predicated)
8
8
91-95(predicated)
8
8
96-100(predicated)
7
7
51-100(predicated)
105
101
24
결론
 보다 객관적인 test collection을 위한 노력
 TREC과 같은 검색 시스템 및 알고리즘 평가회 필요
 일본, 중국과의 협력 고려
 규모의 확장
 Test collection종류의 확장
 교차언어 검색, interactive IR, etc.
 Filtering, Summarization, Categorization, etc.
 지속적인 지원 및 관심 필요
 국가 기관 및 전문가의 협조
 평가 체제 및 분위기 확산
25