4_기사자동분류

Download Report

Transcript 4_기사자동분류

2008년 7월 24일
신문기사
자동 분류 시스템
한국과학기술정보연구원
최성필
목차
•
•
•
•
•
•
•
문서분류시스템의 예시와 정의
자동문서분류시스템의 구조
문서분류 모델 및 알고리즘의 종류
문서분류 모델 별 정확도 실험결과
실험결과에 대한 단상
세 가지 분류모델 별 비교
NAICE
– News Article Information Classification Engine
• 결론
2016-08-05
2
“자동(?)” 문서분류시스템
• http://news.google.com/news?ned=kr
2016-08-05
3
“수동(!)” 문서분류시스템
• http://news.naver.com/
2016-08-05
4
“수동(!)” 문서분류시스템
• http://kr.dir.yahoo.com/
2016-08-05
5
신문기사 자동분류시스템
[이데일리 SPN 김은구기자] “(법원에) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다. 이제는
법원의 판결만 기다리겠다.”
탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨
에 대해 강경 대응 입장을 밝혔다.
18일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다.
송일국의 법정대리인인 이재만 변호사는 17일 이번 사건에 대한 검찰의 수사결과를 발표하며 “민사소송은 계
속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다”
고 밝혔다.
그러나 김씨가 기자회견을 통해 “송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸
려있는 일이 아니다”며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다.
이에 대해 이재만 변호사는 이데일리 SPN과 가진 전화통화에서 “김씨가 기자회견장에 상해 1주일 진단서를 갖
고 나왔다는데 1주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다. 그 사람의 몸에 상처가
있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다”고 주장했다.
이어 이재만 변호사는 “김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에
부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나”라고 덧붙였다.
김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으
며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다.
2016-08-05
6
자동문서분류시스템 구조
• 일반적인 형태의 문서분류시스템
문서집합
전처리
(정제처리)
색인
(키워드 추출)
성능평가
분류 알고리즘
적용
자질선택
(중요한 키워드
선별)
학습과정 (Learning Process)
2016-08-05
7
문서분류 모델 및 알고리즘의 종류
• Naïve Bayes
– Simple, cheap, linear classifier; quite effective
• K Nearest Neighbor classification
– Simple, expensive at test time, high variance, non-linear
• Rocchio vector space classification (centroids)
– Simple, linear classifier; too simple
• Decision Trees
– Pick out hyperboxes; nonlinear; use just a few features
• Support Vector Machines
– Currently hip; linear or nonlinear (kernelized); effective at
handling high dimensional spaces; very effective
2016-08-05
8
문서분류 모델 별 정확도 실험결과(1/3)
• Dumais et al. 1998: Reuters - Accuracy
earn
acq
money-fx
grain
crude
trade
interest
ship
wheat
corn
Avg Top 10
Avg All Cat
2016-08-05
Rocchio
NBayes
Trees
LinearSVM
92.9%
95.9%
97.8%
98.2%
64.7%
87.8%
89.7%
92.8%
46.7%
56.6%
66.2%
74.0%
67.5%
78.8%
85.0%
92.4%
70.1%
79.5%
85.0%
88.3%
65.1%
63.9%
72.5%
73.5%
63.4%
64.9%
67.1%
76.3%
49.2%
85.4%
74.2%
78.0%
68.9%
69.7%
92.5%
89.7%
48.2%
65.3%
91.8%
91.1%
64.6%
61.7%
81.5%
75.2% na
88.4%
91.4%
86.4%
9
문서분류 모델 별 정확도 실험결과(2/3)
• SVM Classifiers (Joachims)
2016-08-05
10
문서분류 모델 별 정확도 실험결과(3/3)
• SVM Classifiers vs. Others (Yang&Liu)
2016-08-05
11
실험결과에 대한 단상
• 영어자료에 대한 자동분류 (다양한 검증자료)
• 한글자료에 대한 자동분류 (검증자료가 부족)
• 실무 적용 시에 고려해야 할 요건
– 학습 속도
– 분류 속도
– 튜닝 가능 여부
• 온라인 학습 기능
• 특정 색인집합 Boosting 기능
2016-08-05
12
세가지 분류모델 별 비교 – 학습 속도
KNN > NB >>>> SVM
• KNN은 단순히 검색엔진에 문서를 적재하는 속도와 동일
• NB는 적재와 함께 확률계산에 시간이 좀더 소요
• SVM은 최적화(Optimization)에 엄청나게 시간이 많이 소요
• 대용량 학습문서(기가바이트 단위)에 대한 분류학습 시도가 없었음.
2016-08-05
13
세가지 분류모델 별 비교 – 튜닝
NB > SVM = KNN
• NB는 각 주요단어에 대한 확률값(가중치) 조작이 용이함
• SVM과 KNN은 이러한 튜닝 작업이 쉽지 않음
• 온라인 학습 기능은 세가지 모델 모두 구현 가능
• 그러나 SVM의 온라인 학습기능은 현재 연구단계임
2016-08-05
14
세가지 분류모델 별 비교 – 분류속도
NB > SVM >>>> KNN
• KNN의 분류과정은 (검색 + 문서유사도측정)임
• NB의 분류속도가 가장 빠름
• SVM은 기본적으로 이진분류모델이므로 다중분류속도가 느림
2016-08-05
15
NAICE (KISTI 기사분류시스템)
• News Article Information Classification Environment
User Request Manager
Single Classifier-based
Classification
Trainer
특정 분야에
국한되지 않은
범용 문서분류기
Executer
General-Purpose
Text Classifier
Multiple Classifiers-based
Classification
Trainer
Executer
General-Purpose
Text Classifier
Classifier
Configuration
Trainer
Executer
Held-Out Validation
K-Fold Cross-Validation
General-Purpose
Text Classifier
Classifier Optimizer
On-Disk Operations
In-Memory
Document
Feature Set
Stopword Lists Mngr.
Document
Feature
Generator
Document
Manager
Document
Set
English Lemmatizer
Domain Specific Resources for CPB
2016-08-05
16
NAICE (KISTI 기사분류시스템)
• 특징
– 다양한 형태의 문서분류성능 최적화 기능 제공
• 자질추출기능
• 최적화 도구 제공
– 빠른 문서분류속도 (한글문서 1건(1Kbyte) 당 평균 0.02초)
– Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시
제공
– 다국어 문서분류기능
• 한글  한국어 형태소분석기
• 영어  Lemmatization (원형복원기), 품사태거
2016-08-05
17
NAICE (KISTI 기사분류시스템)
• 분류 정확도 (4,571건)
2016-08-05
항목
정확도
1등만을 올바른 분류결과로 인정
0.734850 (73.5%)
2등까지 올바른 분류결과로 인정
0.837891 (83.8%)
3등까지 올바른 분류결과로 인정
0.877489 (87.7%)
4등까지 올바른 분류결과로 인정
0.896740 (89.7%)
5등까지 올바른 분류결과로 인정
0.914680 (91.5%)
6등까지 올바른 분류결과로 인정
0.928462 (92.8%)
7등까지 올바른 분류결과로 인정
0.937432 (93.7%)
8등까지 올바른 분류결과로 인정
0.943776 (94.4%)
9등까지 올바른 분류결과로 인정
0.948370 (94.8%)
10등까지 올바른 분류결과로 인정
0.953839 (95.3%)
18
NAICE (KISTI 기사분류시스템)
• http://www.kristalinfo.com/K-Lab/NAICE/
– 학습문서
• 조선일보 신문기사
• 규모
– 건수 : 225,997 건
– 분야 : 1,001분야
– http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php
2016-08-05
19
성능향상을 위한 부가작업
•
기존 분류체계에 대한 정비 및 정제 작업이 필요
– 유사 분류체계 통합 및 광의 분류체계 세분화 작업
•
분류체계별 학습 집합의 정규화
– 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나
적음. 따라서 이들 차이를 최소화시키는 작업 필요
•
분야별 핵심키워드사전 구축
– 각 분야별 분류정확도를 세부적으로 측정하여 정확도가 지나치게
낮은 분야에 대한 성능튜닝 작업 수행 (예: 특정 분류에서 매우 중
요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기
에 반영)
2016-08-05
20
결론
• 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선
택은 문제의 소지가 있음
• 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도
입이 필수
• NAICE
– 영역독립적인 문서분류 프레임워크에 기반한 “실시간” 신문기사
자동 분류 시스템
– 유연성과 효율성을 극대화한 시스템
– 주변 응용도구개발이 필요
– 지속적인 학습문서 적용 필요
– 온라인 학습 기능 필요
2016-08-05
21
2016-08-05
22