Transcript 1 - kaist

Extracting Schedule Information
from Korean Email
Kyoungryol Kim
Table of Contents
1.
2.
3.
4.
Introduction
Methods and Experiments
Demo
Schedule
2
Introduction
3
Goal
 To extract schedule information,
Meeting Location (isHeldAt) with it's GeoTag
무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상
반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시
기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면
저기 YMCA빌딩 1층에 있습니다.
참고하세요
isHeldAt
서울 명동 민들레영토
GeoTag
35.0760269165,
127.716156006
Extract
4
Problem Statement
4 Steps to extract terms 'isHeldAt' with it's GeoTag,
1. Select sentences containing term 'isHeldAt'.
2. Detect boundary of the term from selected
sentences.
3. Select number of the term 'isHeldAt' regarding how
many schedule information is included.
4. Get full address of the extracted location and
convert it to GeoTag using Google API.
5
Methods and Experiments
6
Proposed Architecture
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸어
가시면 저기 YMCA빌딩 1층에
있습니다.
참고하세요
Input
Document
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸
어가시면 저기 YMCA빌딩 1층
에 있습니다.
참고하세요
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸
어가시면 저기 YMCA빌딩 1층
에 있습니다.
참고하세요
Sentence
Classification
Boundary
Detection
isHeldAt
isHeldAt
서울 명동 민들레영토
서울 명동 민들레영토
GeoTag
35.0760269165,
127.716156006
Deduplication
& Selection
GeoTag
Extraction
OUTPUT
NER
7
Baseline system
 [Min et al 2005] Information Extraction Using Context and
Position
 Corpus : 245 meeting announcement email
 Target : Attendee, Meeting Location, Time, Date
 Performance (F-measure) :
 Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91%
 Method
 Sentence to LSP
 NE Recognition
 ME, NN, Pattern-selection
 Instance Disambiguation
 ML : Naive Bayes
 Score calculation
8
Reference for NER tagging
 [Lee et al. 2006] Fine-grained Named Entity Recognition using
Conditional Random Fields for Question Answering
 Performance :
 Precision 85.8%, Recall 81.1%, F1 83.4%
 Boundary tags : IBO2 model (B-I-O)
 NE-classes : 147 types
 Domain of Corpus:
Boundary
Detection
(CRFs)
3 classes
NE-type
Classification
(ME)
147 classes
 Encyclopedia documents (Training : 8,037 docs, Test : 100 docs)
 Features :








Lexical feature -2,-1,0,1,2
Suffix -2,-1,0,1,2
POStag -2,-1,0,1,2
POStag + length
Position of Morpheme in Eojeol (Start /Center /End)
NE dictionary (true or false) + length
NE dictionary feature (index) + length
15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---.
9
NER - Boundary Detection
 Boundary Tagset : IOB2
 Features
 Linguistic
 {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag,
POS-tag + length of the word
 Orthographic : 18 types of the word
 isKorean, isAlpha, isAlnum, 2DigitNum, ...
 Gazetteer :
 Person/Location Pronoun dictionary (ETRI 99)
 from Training corpus :
 Heading words, Surrounding words, NE words
 External resources :
 Person : Chosun/Joins.com Person DB (64,042)
 Location :
Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390
BusStop 19,431, Address,B/D 23,365, Subway 1,288,
Hotel (Auction accomodation, hotelnjoy) 884,
Country/Place name 11,946,
School(Elementary~University) 21,957
 Syntactic :




Position of the POS-level word in the chunk (relative:S/C/E, absolute)
Position of the chunk in the sentence (relative:S/SC/CE/E, absolute)
Position of the sentence in the document (relative:S/SC/CE/E, absolute)
TF-IDF
10
External Resources (1)
 Location :
 Shop Name (80,436)
 Nate Local DB (3~10 chars.)
(http://localinfo.nate.com)
 Sigaji.com Shop DB (3~10 chars.)
(http://sigaji.com/location/)
 oFood
(http://ofood.co.kr)
 Hotel Name (884)
 Auction Accomodation
(http://accommodations.auction.co.kr)
 Hotelnjoy
(http://www.hotelnjoy.com)
 Public Transportation (20,719)
 Subway stations
 Bus-Stop names
 Address (from Zipcode DB) (23,365)
 Si/do, Gu/gun, Dong/myun/ri, B/D names
11
External Resources (2)
 Person
 Chosun Person DB, Joins Person DB
 64,042 people
 Name combination feature from
collected person DB.
 assume length of the name is 3
 # 1st char : 177, #2nd char : 351, #3rd char: 475
 possible combinations : 29,510,325
e.g.)
+
+
= 갈영남
12
Experiment : Sentence Selection
 Sentence Selection
 12,167 target sentences, 1,066 sentences including 'isHeldAt'
 11 regular expression applied for test.
 will be substituted to SVM-based classifier.
100.00%
90.00%
80.00%
Baseline
System
70.00%
Precision
96.16%
91.18%
60.00%
Recall
79.53%
87.94%
F-measure
87.06%
89.53%
Baseline
50.00%
System
40.00%
30.00%
20.00%
10.00%
0.00%
Precision
Recall
F-measure
13
Experiment : Sentence Selection
 Sentence Selection
 Regular expressions applied in the baseline system :
 .*(장)\\p{Space}*(소).*
 Regular expressions applied in the system :
 Pattern analysis by using UniTex
14
Experiment : NER - Boundary Detection
 Boundary Detection
 1,066 target sentences including 'isHeldAt'
 CRFs Model, 10-fold cross validation, Exact Matching
100
90
80
70
60
B-tag
50
I-tag
40
B-tag
I-tag
Precision
92.06%
72.10%
Recall
79.44%
84.53%
F-measure
30
85.28% 77.82%
20
10
0
Precision
Recall
F-measure
15
Demo
 http://barnabas.kaist.ac.kr:8080/
16
Schedule Plan
 ~March 18:
 Finish implementing NER module with NE type classification.
 Performance evaluation comparing with Dr.Lee's NER on our
corpus.
 ~March 25:
 GeoTag Annotation
 Finish implementing GeoTag .
 ~March 31:
 System refinement.
 Start to writing paper.
17