Transcript 1 - kaist
Extracting Schedule Information
from Korean Email
Kyoungryol Kim
Table of Contents
1.
2.
3.
4.
Introduction
Methods and Experiments
Demo
Schedule
2
Introduction
3
Goal
To extract schedule information,
Meeting Location (isHeldAt) with it's GeoTag
무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상
반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시
기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면
저기 YMCA빌딩 1층에 있습니다.
참고하세요
isHeldAt
서울 명동 민들레영토
GeoTag
35.0760269165,
127.716156006
Extract
4
Problem Statement
4 Steps to extract terms 'isHeldAt' with it's GeoTag,
1. Select sentences containing term 'isHeldAt'.
2. Detect boundary of the term from selected
sentences.
3. Select number of the term 'isHeldAt' regarding how
many schedule information is included.
4. Get full address of the extracted location and
convert it to GeoTag using Google API.
5
Methods and Experiments
6
Proposed Architecture
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸어
가시면 저기 YMCA빌딩 1층에
있습니다.
참고하세요
Input
Document
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸
어가시면 저기 YMCA빌딩 1층
에 있습니다.
참고하세요
무더운 날씨가 본격적으로 시
작되는 즈음하여 유니브캐스트
의 상반기 평가와 하반기 운영
을 위한 정기팀장회의를 개최
합니다.
날짜 : 7월 19일(토) 오후 2시
장소 : 서울 명동 민들레영토
기본 안건
- 제작지원비 지급 지연에 대
한 설명
- 기금 조정 운영안
- 가을 워크샵 준비위 구성
- 기타(기타 안건으로 상정할
것이 있으면 각 팀장들은 제안
해 주시기 바랍니다)
명동 민들레영토 오는길
지도와 같이 명동역 8번 츨구
로 나오셔서 쭉 상가 끼고 걸
어가시면 저기 YMCA빌딩 1층
에 있습니다.
참고하세요
Sentence
Classification
Boundary
Detection
isHeldAt
isHeldAt
서울 명동 민들레영토
서울 명동 민들레영토
GeoTag
35.0760269165,
127.716156006
Deduplication
& Selection
GeoTag
Extraction
OUTPUT
NER
7
Baseline system
[Min et al 2005] Information Extraction Using Context and
Position
Corpus : 245 meeting announcement email
Target : Attendee, Meeting Location, Time, Date
Performance (F-measure) :
Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91%
Method
Sentence to LSP
NE Recognition
ME, NN, Pattern-selection
Instance Disambiguation
ML : Naive Bayes
Score calculation
8
Reference for NER tagging
[Lee et al. 2006] Fine-grained Named Entity Recognition using
Conditional Random Fields for Question Answering
Performance :
Precision 85.8%, Recall 81.1%, F1 83.4%
Boundary tags : IBO2 model (B-I-O)
NE-classes : 147 types
Domain of Corpus:
Boundary
Detection
(CRFs)
3 classes
NE-type
Classification
(ME)
147 classes
Encyclopedia documents (Training : 8,037 docs, Test : 100 docs)
Features :
Lexical feature -2,-1,0,1,2
Suffix -2,-1,0,1,2
POStag -2,-1,0,1,2
POStag + length
Position of Morpheme in Eojeol (Start /Center /End)
NE dictionary (true or false) + length
NE dictionary feature (index) + length
15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---.
9
NER - Boundary Detection
Boundary Tagset : IOB2
Features
Linguistic
{-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag,
POS-tag + length of the word
Orthographic : 18 types of the word
isKorean, isAlpha, isAlnum, 2DigitNum, ...
Gazetteer :
Person/Location Pronoun dictionary (ETRI 99)
from Training corpus :
Heading words, Surrounding words, NE words
External resources :
Person : Chosun/Joins.com Person DB (64,042)
Location :
Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390
BusStop 19,431, Address,B/D 23,365, Subway 1,288,
Hotel (Auction accomodation, hotelnjoy) 884,
Country/Place name 11,946,
School(Elementary~University) 21,957
Syntactic :
Position of the POS-level word in the chunk (relative:S/C/E, absolute)
Position of the chunk in the sentence (relative:S/SC/CE/E, absolute)
Position of the sentence in the document (relative:S/SC/CE/E, absolute)
TF-IDF
10
External Resources (1)
Location :
Shop Name (80,436)
Nate Local DB (3~10 chars.)
(http://localinfo.nate.com)
Sigaji.com Shop DB (3~10 chars.)
(http://sigaji.com/location/)
oFood
(http://ofood.co.kr)
Hotel Name (884)
Auction Accomodation
(http://accommodations.auction.co.kr)
Hotelnjoy
(http://www.hotelnjoy.com)
Public Transportation (20,719)
Subway stations
Bus-Stop names
Address (from Zipcode DB) (23,365)
Si/do, Gu/gun, Dong/myun/ri, B/D names
11
External Resources (2)
Person
Chosun Person DB, Joins Person DB
64,042 people
Name combination feature from
collected person DB.
assume length of the name is 3
# 1st char : 177, #2nd char : 351, #3rd char: 475
possible combinations : 29,510,325
e.g.)
+
+
= 갈영남
12
Experiment : Sentence Selection
Sentence Selection
12,167 target sentences, 1,066 sentences including 'isHeldAt'
11 regular expression applied for test.
will be substituted to SVM-based classifier.
100.00%
90.00%
80.00%
Baseline
System
70.00%
Precision
96.16%
91.18%
60.00%
Recall
79.53%
87.94%
F-measure
87.06%
89.53%
Baseline
50.00%
System
40.00%
30.00%
20.00%
10.00%
0.00%
Precision
Recall
F-measure
13
Experiment : Sentence Selection
Sentence Selection
Regular expressions applied in the baseline system :
.*(장)\\p{Space}*(소).*
Regular expressions applied in the system :
Pattern analysis by using UniTex
14
Experiment : NER - Boundary Detection
Boundary Detection
1,066 target sentences including 'isHeldAt'
CRFs Model, 10-fold cross validation, Exact Matching
100
90
80
70
60
B-tag
50
I-tag
40
B-tag
I-tag
Precision
92.06%
72.10%
Recall
79.44%
84.53%
F-measure
30
85.28% 77.82%
20
10
0
Precision
Recall
F-measure
15
Demo
http://barnabas.kaist.ac.kr:8080/
16
Schedule Plan
~March 18:
Finish implementing NER module with NE type classification.
Performance evaluation comparing with Dr.Lee's NER on our
corpus.
~March 25:
GeoTag Annotation
Finish implementing GeoTag .
~March 31:
System refinement.
Start to writing paper.
17