Transcript Sub-title

웹의 협업 환경을 이용한 확장 형태소 사전 관리
KCC 2010
황인범, 이동주, 연종흠, 이상구1
1서울대학교
컴퓨터공학부
KCC 2010
2010. 6. 30
서론
1/2
 자연어 처리에 대한 요구 증대


넓어진 자연어 처리 활용 범위
–
웹 검색의 색인어 추출
–
Opinion mining 등 information extraction 연구 및 응용
늘어나는 자연어 데이터
–
웹을 통해 많은 데이터 생산
Copyright  2010 by CEBT
2
서론
2/2
 형태소 분석

자연어 처리 과정의 첫 단계

형태소 분석 결과는 이후 과정의 결과에 큰 영향

문장에 포함된 단어의 구조 파악

한국어 등 교착어에서 중요성 두드러짐
–
어미 및 조사 등에 의해 뚜렷한 형태 변화
Copyright  2010 by CEBT
3
관련연구
1/2
 규칙 기반 형태소 분석 방법

대부분 초기 연구
–
강승식, “음절 정보와 복수어 단위 정보를 이용한 한 국어 형태소 분석”, 서
울대학교 공학박사 학위 논문, 1993
–
임희석, 윤보현, 임해창, “배제 정보를 이용한 효율적 인 한국어 형태소 분
석기”, 한국정보과학회 논문지, 1995.

문법에 따라 미리 정의한 규칙에 의해 형태소 분석

많은 탐색 횟수로 인한 시간 복잡도 증가: 비교적 낮은 분석 효율
–

음소 단위 분석 수행
규칙에 벗어난 예외 상황 처리가 어려움
–
알고리즘 단계에서 수정 필요
Copyright  2010 by CEBT
4
관련연구
2/2
 사전 기반 형태소 분석 방법

처리할 데이터 양이 증가하면서 주목받음
–
양승현, 김영섬, “부분 어절의 기분석에 기반한 고속 한국어 형태소 분석
방법”, 정보과학회논문지, 2000. 3
–
심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보
과학회논문지, 2004. 1
–
심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지,
2007. 8

어절 또는 음절 형태를 사전에 기록(기분석 사전)

사전 항목 조합을 통해 형태소 분석이 이루어짐

음절 단위 분석: 규칙 기반 방법에 비해 연산 횟수 적음

성능 향상을 위해 사전 크기를 적절히 유지하여야 함
Copyright  2010 by CEBT
5
Motivation
1/1
 웹에서 생산되는 데이터에는 많고 다양한 오류 존재

오타, 잘못된 용법, 신조어 등
 그에 반해, 바른 문장을 분석하는 것에 초점을 맞추어 온 기존 형태
소 분석 연구

많은 오류를 포함한 문장에 대한 활용도 저하

자동화 자연어 처리에 부적합
 오류에 대응하는 방법의 효율성도 평가 기준에 포함되어야 함

사전 기반 형태소 분석 방법에 이점: 사전 관리를 통한 분석 품질 유지
Copyright  2010 by CEBT
6
꼬꼬마(KKMA)
1/5
 http://kkma.snu.ac.kr
 한글 형태소 분석기와 분석 품질 관리 체계
 다양한 자연어 처리 연구에서 용이하게 사용 가능

공개 소프트웨어: 소스코드 분석 및 수정 용이

Java 라이브러리 형태: 높은 코드 이식성
Copyright  2010 by CEBT
7
꼬꼬마(KKMA)
2/5
 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법 (심광섭, 양
재형, 2005)에 기반

사전 기반 형태소 분석
–

확장 형태소 사전 사용
우수한 분석 성능
–
높은 정확도: 99.2%
–
기존 연구들에 비해 빠른 분석 속도
Copyright  2010 by CEBT
8
알고리즘
3/5
NN
VV
ETN JKC
VA
EFN
예 제 찾 기 가 어 렵 습 니 다
 음절 단위 분석으로 분석 후보 생성

각 음절 사이에 형태소가 구분될 수 있는지 판정
–

형태소의 결합 조건 사용
간단한 동적 프로그래밍으로 구현
 확률 모델을 이용한 최적 분석 후보 선택
Copyright  2010 by CEBT
9
결합조건
4/5
 품사 결합 조건

형태소의 왼쪽에 결합 가능한 품사들
–
E.g. 조사의 왼쪽에 체언이 결합
 음운 결합 조건

형태소와 결합하기 위해 만족해야 할 특정 음운 조건

한국어의 음운적 특성 반영
–
E.g. ~아라: 양성 결합 (보아라), ~어라: 음성 결합 (숨어라)
 형태 결합 조건

음소 단위 결합이 이루어지는 형태소를 나타내기 위한 조건
–
E.g. 감사합니다: 감사하+ㅂ니다
Copyright  2010 by CEBT
10
확장 형태소 사전
5/5
 단어의 모든 활용 형태를 항목으로 저장
 포함 내용

표제어

분석 결과

결합 조건
Copyright  2010 by CEBT
11
사전 관리를 통한 분석 품질 유지
1/7
 패키지 프로그램 형태 개발은 형태소 분석기 개발에 부적합

긴 개발 주기: 언어의 변화 주기에 비해 김

언어 변화에 따른 품질 관리에 어려움
 사전 중심 형태소 분석

형태소 분석기 성능이 사전 품질에 의존

지속적 사전 관리로 다양한 오류 및 예외 상황에 대처 가능
 형태소 분석기에 적합한 개발 환경 구축 필요
Copyright  2010 by CEBT
12
Open Knowledge
2/7
 웹 기반 협업 사전 관리 시스템 구현

형태소 분석기 개발자 및 사용자들이 협업적으로 사전 데이터를 개선
및 정제

Open API 및 웹 기반 사전 관리 프로그램 제공
 집단 지성을 사전 관리에서 발현시키고자 한 첫 시도
Copyright  2010 by CEBT
13
Open API
3/7
 Search
사전 항목 검색

Parameter
Type
Default
id
Integer
항목 id
expression
String
표제어
morpheme
String
형태소
exactExpression
Boolean
True
표제어 exact match 여부
exactMorpheme
Boolean
False
형태소 exact match 여부
tag
String
품사
createdAfter
createdBefore
Timestamp
생성 시각
modifiedAfter
modifiedBefore
Timestamp
수정 시각
createdBy
String
생성한 사람
modifiedBy
String
수정한 사람
page
Integer
1
Copyright  2010 by CEBT
Description
페이지 번호
14
Open API
4/7
 Create
사전 항목 생성

Parameter
Type
Default
expression
String
표제어
tag
String
품사
analyzedResult
String
기분석 결과, 형태소/태그를 ‘+’ 로
연결하여 나열한다.
atl
String
띄어쓰기 하지 않고 접속 가능한 품
사의 태그
hcl
String
해당 기분석 결과가 나타내는 결합
조건. 음운 조건, 품사 조건 등
ccl
String
형태소가 결합하기 위한 조건. 음운
결합 조건, 품사 결합 조건 등
ecl
String
결합 배제 조건
pcl
String
띄어쓰기를 통해 결합할 때 선호되
는 조건
commit
Boolean
False
Copyright  2010 by CEBT
Description
사전 반영 여부
15
Open API
5/7
 Analyze

웹을 통한 형태소 분석
Copyright  2010 by CEBT
16
Open API
6/7
API
Description
Register
사용자 및 API key 등록
Publish
최신 사전 배포
Search
검색
Analyze
형태소 분석
Report
분석 오류 보고
Create
사전 항목 추가
CreateSingle
CreateCompNoun
사전 항목 추가 (형태소와 표제어가 일치하는 경우)
사전 항목 추가 (복합 명사인 경우)
Delete
사전 항목 삭제
Modify
사전 항목 수정
Copyright  2010 by CEBT
17
형태소 분석기 개발 환경
7/7
 관련 연구

심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지,
2007. 8
–
인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법에 기반
–
사전 관리를 통해 형태소 분석 결과 보정
–
적용 영역에 적합한 형태소 사전 제작 가능
 분석할 데이터 양이 많은 경우, 적용 영역이 다르더라도 대체로 비
슷한 오류에 대응해야 할 것

협업적 사전 관리를 통해 관리 효율 향상 가능
Copyright  2010 by CEBT
18
성능 검증
1/1
검증 데이터
글수
문장 수
정확도
신문기사
10
1057
0.81
블로그 게시물
10
2199
0.75
상품평
10
2414
0.70
오류 적음
오류 많음
 웹에서 얻은 검증 데이터

오류가 포함된 웹 문서 특성 반영
 Edit distance를 이용한 성능 평가

정확도 = (전체 형태소 수 - edit distance) / 전체 형태소 수

띄어쓰기 보정을 고려한 성능 평가가 이루어져야 하기 때문에 기존 어
절 내 형태소 재현율(Recall)에 의한 평가는 알맞지 않음
Copyright  2010 by CEBT
19
결론
1/2
 공개된 형태소 분석기 구현
 협업 환경에서 사전 내용을 수정하여 분석 품질 유지

웹 기반 사전 관리 도구와 Open API 제공
 많은 연구 및 응용에서 유용하게 활용할 수 있을 것으로 기대

라이브러리 형태로 쉽게 사용 가능

지속적 유지보수로 정확도 높은 분석 결과를 얻을 수 있음
Copyright  2010 by CEBT
20
향후 연구 방향
2/2
 형태소 분석기 평가 방법 재고

기존에는 분석 후보의 재현율(Recall)로 분석 품질 평가
–

분석 후보 개수가 많은 경우에 신뢰도 저하
분석 정확도를 판단하는 명확한 기준 수립 필요
 변화하는 언어 사용 양상을 반영하는 표본 필요

주기적 Test set 검증 및 보정
Copyright  2010 by CEBT
21