Transcript 4_기사자동분류
2008년 7월 24일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 • • • • • • • 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델 별 비교 NAICE – News Article Information Classification Engine • 결론 2016-08-05 2 “자동(?)” 문서분류시스템 • http://news.google.com/news?ned=kr 2016-08-05 3 “수동(!)” 문서분류시스템 • http://news.naver.com/ 2016-08-05 4 “수동(!)” 문서분류시스템 • http://kr.dir.yahoo.com/ 2016-08-05 5 신문기사 자동분류시스템 [이데일리 SPN 김은구기자] “(법원에) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다. 이제는 법원의 판결만 기다리겠다.” 탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨 에 대해 강경 대응 입장을 밝혔다. 18일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다. 송일국의 법정대리인인 이재만 변호사는 17일 이번 사건에 대한 검찰의 수사결과를 발표하며 “민사소송은 계 속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다” 고 밝혔다. 그러나 김씨가 기자회견을 통해 “송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸 려있는 일이 아니다”며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다. 이에 대해 이재만 변호사는 이데일리 SPN과 가진 전화통화에서 “김씨가 기자회견장에 상해 1주일 진단서를 갖 고 나왔다는데 1주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다. 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다”고 주장했다. 이어 이재만 변호사는 “김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나”라고 덧붙였다. 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으 며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다. 2016-08-05 6 자동문서분류시스템 구조 • 일반적인 형태의 문서분류시스템 문서집합 전처리 (정제처리) 색인 (키워드 추출) 성능평가 분류 알고리즘 적용 자질선택 (중요한 키워드 선별) 학습과정 (Learning Process) 2016-08-05 7 문서분류 모델 및 알고리즘의 종류 • Naïve Bayes – Simple, cheap, linear classifier; quite effective • K Nearest Neighbor classification – Simple, expensive at test time, high variance, non-linear • Rocchio vector space classification (centroids) – Simple, linear classifier; too simple • Decision Trees – Pick out hyperboxes; nonlinear; use just a few features • Support Vector Machines – Currently hip; linear or nonlinear (kernelized); effective at handling high dimensional spaces; very effective 2016-08-05 8 문서분류 모델 별 정확도 실험결과(1/3) • Dumais et al. 1998: Reuters - Accuracy earn acq money-fx grain crude trade interest ship wheat corn Avg Top 10 Avg All Cat 2016-08-05 Rocchio NBayes Trees LinearSVM 92.9% 95.9% 97.8% 98.2% 64.7% 87.8% 89.7% 92.8% 46.7% 56.6% 66.2% 74.0% 67.5% 78.8% 85.0% 92.4% 70.1% 79.5% 85.0% 88.3% 65.1% 63.9% 72.5% 73.5% 63.4% 64.9% 67.1% 76.3% 49.2% 85.4% 74.2% 78.0% 68.9% 69.7% 92.5% 89.7% 48.2% 65.3% 91.8% 91.1% 64.6% 61.7% 81.5% 75.2% na 88.4% 91.4% 86.4% 9 문서분류 모델 별 정확도 실험결과(2/3) • SVM Classifiers (Joachims) 2016-08-05 10 문서분류 모델 별 정확도 실험결과(3/3) • SVM Classifiers vs. Others (Yang&Liu) 2016-08-05 11 실험결과에 대한 단상 • 영어자료에 대한 자동분류 (다양한 검증자료) • 한글자료에 대한 자동분류 (검증자료가 부족) • 실무 적용 시에 고려해야 할 요건 – 학습 속도 – 분류 속도 – 튜닝 가능 여부 • 온라인 학습 기능 • 특정 색인집합 Boosting 기능 2016-08-05 12 세가지 분류모델 별 비교 – 학습 속도 KNN > NB >>>> SVM • KNN은 단순히 검색엔진에 문서를 적재하는 속도와 동일 • NB는 적재와 함께 확률계산에 시간이 좀더 소요 • SVM은 최적화(Optimization)에 엄청나게 시간이 많이 소요 • 대용량 학습문서(기가바이트 단위)에 대한 분류학습 시도가 없었음. 2016-08-05 13 세가지 분류모델 별 비교 – 튜닝 NB > SVM = KNN • NB는 각 주요단어에 대한 확률값(가중치) 조작이 용이함 • SVM과 KNN은 이러한 튜닝 작업이 쉽지 않음 • 온라인 학습 기능은 세가지 모델 모두 구현 가능 • 그러나 SVM의 온라인 학습기능은 현재 연구단계임 2016-08-05 14 세가지 분류모델 별 비교 – 분류속도 NB > SVM >>>> KNN • KNN의 분류과정은 (검색 + 문서유사도측정)임 • NB의 분류속도가 가장 빠름 • SVM은 기본적으로 이진분류모델이므로 다중분류속도가 느림 2016-08-05 15 NAICE (KISTI 기사분류시스템) • News Article Information Classification Environment User Request Manager Single Classifier-based Classification Trainer 특정 분야에 국한되지 않은 범용 문서분류기 Executer General-Purpose Text Classifier Multiple Classifiers-based Classification Trainer Executer General-Purpose Text Classifier Classifier Configuration Trainer Executer Held-Out Validation K-Fold Cross-Validation General-Purpose Text Classifier Classifier Optimizer On-Disk Operations In-Memory Document Feature Set Stopword Lists Mngr. Document Feature Generator Document Manager Document Set English Lemmatizer Domain Specific Resources for CPB 2016-08-05 16 NAICE (KISTI 기사분류시스템) • 특징 – 다양한 형태의 문서분류성능 최적화 기능 제공 • 자질추출기능 • 최적화 도구 제공 – 빠른 문서분류속도 (한글문서 1건(1Kbyte) 당 평균 0.02초) – Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시 제공 – 다국어 문서분류기능 • 한글 한국어 형태소분석기 • 영어 Lemmatization (원형복원기), 품사태거 2016-08-05 17 NAICE (KISTI 기사분류시스템) • 분류 정확도 (4,571건) 2016-08-05 항목 정확도 1등만을 올바른 분류결과로 인정 0.734850 (73.5%) 2등까지 올바른 분류결과로 인정 0.837891 (83.8%) 3등까지 올바른 분류결과로 인정 0.877489 (87.7%) 4등까지 올바른 분류결과로 인정 0.896740 (89.7%) 5등까지 올바른 분류결과로 인정 0.914680 (91.5%) 6등까지 올바른 분류결과로 인정 0.928462 (92.8%) 7등까지 올바른 분류결과로 인정 0.937432 (93.7%) 8등까지 올바른 분류결과로 인정 0.943776 (94.4%) 9등까지 올바른 분류결과로 인정 0.948370 (94.8%) 10등까지 올바른 분류결과로 인정 0.953839 (95.3%) 18 NAICE (KISTI 기사분류시스템) • http://www.kristalinfo.com/K-Lab/NAICE/ – 학습문서 • 조선일보 신문기사 • 규모 – 건수 : 225,997 건 – 분야 : 1,001분야 – http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php 2016-08-05 19 성능향상을 위한 부가작업 • 기존 분류체계에 대한 정비 및 정제 작업이 필요 – 유사 분류체계 통합 및 광의 분류체계 세분화 작업 • 분류체계별 학습 집합의 정규화 – 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나 적음. 따라서 이들 차이를 최소화시키는 작업 필요 • 분야별 핵심키워드사전 구축 – 각 분야별 분류정확도를 세부적으로 측정하여 정확도가 지나치게 낮은 분야에 대한 성능튜닝 작업 수행 (예: 특정 분류에서 매우 중 요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기 에 반영) 2016-08-05 20 결론 • 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선 택은 문제의 소지가 있음 • 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도 입이 필수 • NAICE – 영역독립적인 문서분류 프레임워크에 기반한 “실시간” 신문기사 자동 분류 시스템 – 유연성과 효율성을 극대화한 시스템 – 주변 응용도구개발이 필요 – 지속적인 학습문서 적용 필요 – 온라인 학습 기능 필요 2016-08-05 21 2016-08-05 22