Transcript Sub-title
웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010 황인범, 이동주, 연종흠, 이상구1 1서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30 서론 1/2 자연어 처리에 대한 요구 증대 넓어진 자연어 처리 활용 범위 – 웹 검색의 색인어 추출 – Opinion mining 등 information extraction 연구 및 응용 늘어나는 자연어 데이터 – 웹을 통해 많은 데이터 생산 Copyright 2010 by CEBT 2 서론 2/2 형태소 분석 자연어 처리 과정의 첫 단계 형태소 분석 결과는 이후 과정의 결과에 큰 영향 문장에 포함된 단어의 구조 파악 한국어 등 교착어에서 중요성 두드러짐 – 어미 및 조사 등에 의해 뚜렷한 형태 변화 Copyright 2010 by CEBT 3 관련연구 1/2 규칙 기반 형태소 분석 방법 대부분 초기 연구 – 강승식, “음절 정보와 복수어 단위 정보를 이용한 한 국어 형태소 분석”, 서 울대학교 공학박사 학위 논문, 1993 – 임희석, 윤보현, 임해창, “배제 정보를 이용한 효율적 인 한국어 형태소 분 석기”, 한국정보과학회 논문지, 1995. 문법에 따라 미리 정의한 규칙에 의해 형태소 분석 많은 탐색 횟수로 인한 시간 복잡도 증가: 비교적 낮은 분석 효율 – 음소 단위 분석 수행 규칙에 벗어난 예외 상황 처리가 어려움 – 알고리즘 단계에서 수정 필요 Copyright 2010 by CEBT 4 관련연구 2/2 사전 기반 형태소 분석 방법 처리할 데이터 양이 증가하면서 주목받음 – 양승현, 김영섬, “부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법”, 정보과학회논문지, 2000. 3 – 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보 과학회논문지, 2004. 1 – 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 어절 또는 음절 형태를 사전에 기록(기분석 사전) 사전 항목 조합을 통해 형태소 분석이 이루어짐 음절 단위 분석: 규칙 기반 방법에 비해 연산 횟수 적음 성능 향상을 위해 사전 크기를 적절히 유지하여야 함 Copyright 2010 by CEBT 5 Motivation 1/1 웹에서 생산되는 데이터에는 많고 다양한 오류 존재 오타, 잘못된 용법, 신조어 등 그에 반해, 바른 문장을 분석하는 것에 초점을 맞추어 온 기존 형태 소 분석 연구 많은 오류를 포함한 문장에 대한 활용도 저하 자동화 자연어 처리에 부적합 오류에 대응하는 방법의 효율성도 평가 기준에 포함되어야 함 사전 기반 형태소 분석 방법에 이점: 사전 관리를 통한 분석 품질 유지 Copyright 2010 by CEBT 6 꼬꼬마(KKMA) 1/5 http://kkma.snu.ac.kr 한글 형태소 분석기와 분석 품질 관리 체계 다양한 자연어 처리 연구에서 용이하게 사용 가능 공개 소프트웨어: 소스코드 분석 및 수정 용이 Java 라이브러리 형태: 높은 코드 이식성 Copyright 2010 by CEBT 7 꼬꼬마(KKMA) 2/5 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법 (심광섭, 양 재형, 2005)에 기반 사전 기반 형태소 분석 – 확장 형태소 사전 사용 우수한 분석 성능 – 높은 정확도: 99.2% – 기존 연구들에 비해 빠른 분석 속도 Copyright 2010 by CEBT 8 알고리즘 3/5 NN VV ETN JKC VA EFN 예 제 찾 기 가 어 렵 습 니 다 음절 단위 분석으로 분석 후보 생성 각 음절 사이에 형태소가 구분될 수 있는지 판정 – 형태소의 결합 조건 사용 간단한 동적 프로그래밍으로 구현 확률 모델을 이용한 최적 분석 후보 선택 Copyright 2010 by CEBT 9 결합조건 4/5 품사 결합 조건 형태소의 왼쪽에 결합 가능한 품사들 – E.g. 조사의 왼쪽에 체언이 결합 음운 결합 조건 형태소와 결합하기 위해 만족해야 할 특정 음운 조건 한국어의 음운적 특성 반영 – E.g. ~아라: 양성 결합 (보아라), ~어라: 음성 결합 (숨어라) 형태 결합 조건 음소 단위 결합이 이루어지는 형태소를 나타내기 위한 조건 – E.g. 감사합니다: 감사하+ㅂ니다 Copyright 2010 by CEBT 10 확장 형태소 사전 5/5 단어의 모든 활용 형태를 항목으로 저장 포함 내용 표제어 분석 결과 결합 조건 Copyright 2010 by CEBT 11 사전 관리를 통한 분석 품질 유지 1/7 패키지 프로그램 형태 개발은 형태소 분석기 개발에 부적합 긴 개발 주기: 언어의 변화 주기에 비해 김 언어 변화에 따른 품질 관리에 어려움 사전 중심 형태소 분석 형태소 분석기 성능이 사전 품질에 의존 지속적 사전 관리로 다양한 오류 및 예외 상황에 대처 가능 형태소 분석기에 적합한 개발 환경 구축 필요 Copyright 2010 by CEBT 12 Open Knowledge 2/7 웹 기반 협업 사전 관리 시스템 구현 형태소 분석기 개발자 및 사용자들이 협업적으로 사전 데이터를 개선 및 정제 Open API 및 웹 기반 사전 관리 프로그램 제공 집단 지성을 사전 관리에서 발현시키고자 한 첫 시도 Copyright 2010 by CEBT 13 Open API 3/7 Search 사전 항목 검색 Parameter Type Default id Integer 항목 id expression String 표제어 morpheme String 형태소 exactExpression Boolean True 표제어 exact match 여부 exactMorpheme Boolean False 형태소 exact match 여부 tag String 품사 createdAfter createdBefore Timestamp 생성 시각 modifiedAfter modifiedBefore Timestamp 수정 시각 createdBy String 생성한 사람 modifiedBy String 수정한 사람 page Integer 1 Copyright 2010 by CEBT Description 페이지 번호 14 Open API 4/7 Create 사전 항목 생성 Parameter Type Default expression String 표제어 tag String 품사 analyzedResult String 기분석 결과, 형태소/태그를 ‘+’ 로 연결하여 나열한다. atl String 띄어쓰기 하지 않고 접속 가능한 품 사의 태그 hcl String 해당 기분석 결과가 나타내는 결합 조건. 음운 조건, 품사 조건 등 ccl String 형태소가 결합하기 위한 조건. 음운 결합 조건, 품사 결합 조건 등 ecl String 결합 배제 조건 pcl String 띄어쓰기를 통해 결합할 때 선호되 는 조건 commit Boolean False Copyright 2010 by CEBT Description 사전 반영 여부 15 Open API 5/7 Analyze 웹을 통한 형태소 분석 Copyright 2010 by CEBT 16 Open API 6/7 API Description Register 사용자 및 API key 등록 Publish 최신 사전 배포 Search 검색 Analyze 형태소 분석 Report 분석 오류 보고 Create 사전 항목 추가 CreateSingle CreateCompNoun 사전 항목 추가 (형태소와 표제어가 일치하는 경우) 사전 항목 추가 (복합 명사인 경우) Delete 사전 항목 삭제 Modify 사전 항목 수정 Copyright 2010 by CEBT 17 형태소 분석기 개발 환경 7/7 관련 연구 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 – 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법에 기반 – 사전 관리를 통해 형태소 분석 결과 보정 – 적용 영역에 적합한 형태소 사전 제작 가능 분석할 데이터 양이 많은 경우, 적용 영역이 다르더라도 대체로 비 슷한 오류에 대응해야 할 것 협업적 사전 관리를 통해 관리 효율 향상 가능 Copyright 2010 by CEBT 18 성능 검증 1/1 검증 데이터 글수 문장 수 정확도 신문기사 10 1057 0.81 블로그 게시물 10 2199 0.75 상품평 10 2414 0.70 오류 적음 오류 많음 웹에서 얻은 검증 데이터 오류가 포함된 웹 문서 특성 반영 Edit distance를 이용한 성능 평가 정확도 = (전체 형태소 수 - edit distance) / 전체 형태소 수 띄어쓰기 보정을 고려한 성능 평가가 이루어져야 하기 때문에 기존 어 절 내 형태소 재현율(Recall)에 의한 평가는 알맞지 않음 Copyright 2010 by CEBT 19 결론 1/2 공개된 형태소 분석기 구현 협업 환경에서 사전 내용을 수정하여 분석 품질 유지 웹 기반 사전 관리 도구와 Open API 제공 많은 연구 및 응용에서 유용하게 활용할 수 있을 것으로 기대 라이브러리 형태로 쉽게 사용 가능 지속적 유지보수로 정확도 높은 분석 결과를 얻을 수 있음 Copyright 2010 by CEBT 20 향후 연구 방향 2/2 형태소 분석기 평가 방법 재고 기존에는 분석 후보의 재현율(Recall)로 분석 품질 평가 – 분석 후보 개수가 많은 경우에 신뢰도 저하 분석 정확도를 판단하는 명확한 기준 수립 필요 변화하는 언어 사용 양상을 반영하는 표본 필요 주기적 Test set 검증 및 보정 Copyright 2010 by CEBT 21