규칙과 말뭉치를 이용한 한국어 형태소 분석과 중의성 제거

Download Report

Transcript 규칙과 말뭉치를 이용한 한국어 형태소 분석과 중의성 제거

규칙과 말뭉치를 이용한
한국어 형태소 분석과 중의성 제거
발표자: 정세광
1
목
차
한국어 형태소 분석의 중요성과 분야
관련 연구 동향
한국어 형태소 분석과 중의성 제거의 문제점
규칙에 의한 형태소 분석과 중의성 제거
말뭉치에 의한 형태소 분석과 중의성 제거
응용 시스템을 통한 성능 검증
2
한국어 형태소 분석의 중요성과 분야
한국어 형태소 분석의 중요성



한국어의 형태소 분석의 어려움
구문 분석과 의미 분석에 절대적인 영향력
영어의 경우에 비해 느린 처리 시간
한국어 형태소 분석의 분야




띄어쓰기
철자법 오류
미등록어 추론
중의성 해소
3
관련 연구 동향(1)
한국어 형태소 분석 연구(1)

분석법




Two-level 방법
상향식 병렬 처리 방법
상향식 예측 방법
양방향 방법
4
관련 연구 동향(2)
한국어 형태소 분석 연구(2)

Two-level 방법

개요


장점


형태론적 변형을 규칙화하여 처리하기에 효율적
단점



트라이 구조 사전과 Two-level 규칙을 이용
미등록어와 띄어쓰기 오류 포함한 어절 처리 어려움
복합 명사와 복합 용언 처리시 백트래킹 발생
개선

Lexical Transducer를 이용
 한국어 복합 명사 처리 어려움
5
관련 연구 동향(3)
한국어 형태소 분석 연구(3)

상향식 병렬 처리 방법

개요


분석 가능한 모든 형태소 생성, 어절 형성 가능한 형태소를
접속 규칙으로 추출
단점



사전 탐색 증가
형태소 별 접속 관계 기술 필요
예외 처리 거의 불가능
6
관련 연구 동향(4)
한국어 형태소 분석 연구(4)

상향식 예측 방법(1)

개요


단어의 한 쪽 끝에서 다른 쪽 방향으로 진행하면서 형태소
분리, 단어의 유형 예측
분석 기법




사전 기반 분석 방법
Head-Tail 분석법
음절 단위 분석법
어절 사전 이용법
7
관련 연구 동향(5)
한국어 형태소 분석 연구(5)

상향식 예측 방법(2)

사전 기반 분석 방법



개요
 어휘 사전 기반 좌우 분석법에 의한 어휘 형태소 예측
단점
 미등록어 처리를 위한 별도의 처리 요구
Head-Tail 분석법


개요
 어절을 실질형태소(H)와 문법형태소(T)로 분리, 접속 정보를
이용 결합 관계 도출
단점
 접속 정보 규모로 인한 구축의 어려움
 협소한 처리 범위
8
관련 연구 동향(6)
한국어 형태소 분석 연구(6)

상향식 예측 방법(3)

음절 단위 분석법



개요
 음절 정보를 이용, 어휘사전의 검색 횟수 감소가 목적
장점
 형태소 분리 위치 추정
 용언의 불규칙 활용
 축약 복원
 미등록 어휘형태소 추정
단점
 복합 체언과 복합 용언에 음절 정보 효과 미미
 접사가 붙은 어절 분석
 오류 어절 분석
9
관련 연구 동향(7)
한국어 형태소 분석 연구(7)

상향식 예측 방법(4)

어절 사전을 이용법



개요
 자주 사용되는 어절의 형태소 분석 결과로 별도의 사전
구축, 미등록 어절만 형태소 분석
장점
 과분석 제거
단점
 축약된 어절 처리의 어려움
 다수의 실질 형태소 결합 어절 형태소 결과 표현 불가능
 응용 시스템에 대한 지원 이용 방법 지원 미미
10
관련 연구 동향(8)
한국어 형태소 분석 연구(8)

양방향 방법

개요


왼쪽 끝을 어휘 형태소로 오른쪽 끝을 문법 형태소 인식, 중
심방향으로 진행
분석 기법


우-좌, 좌-우 분석 결과 비교법
 맞춤법 검사에서 오류의 종류와 위치 발견에 이용
양방향 최장 일치법
 사전 탐색 효율 개선을 위한 중첩 정보 이용
11
관련 연구 동향(9)
한국어 형태소 중의성 제거 연구(1)

중의성 분류

형태소 중의성





어휘적 중의성
품사 중의성
구조적 중의성
의미적 중의성
중의성 제거 방법



규칙 기반 방법
통계적 방법
혼합 방법
12
관련 연구 동향(10)
한국어 형태소 중의성 제거 연구(2)

규칙 기반 방법

장점




비교적 적은 개수의 규칙으로 높은 정확도의 태깅 가능
태깅 결과에 대한 설명 용이
인간 언어적 직관 활용 가능
단점




규모가 증가하면 규칙의 일관성 유지와 제어의 어려움
환경 변화에 대한 적응력 낮음
견고성이 떨어짐
모든 중의성을 해결할 수 없음
13
관련 연구 동향(11)
한국어 형태소 중의성 제거 연구(3)

통계적 방법(1)

개요



장점


높은 적용 가능성
단점





대량의 말뭉치를 이용 통계 정보 추출, 이용
대부분 HMM 이용
실제 언어현상을 대표할 충분한 말뭉치의 부재
도메인 변경에 따른 말뭉치 재구성 필요
부정적 정보나 예외 현상 처리에 어려움
규칙 기반 처리 결과에 비해 상대적으로 낮은 정확도
품사 태깅 단위에 따른 구분


어절 단위 품사 태깅 모델
형태소 단위 품사 태깅 모델
14
관련 연구 동향(12)
한국어 형태소 중의성 제거 연구(4)

통계적 방법(2)

어절 단위 품사 태깅 모델



장점
 문맥 확장에 용이
단점
 충분한 말뭉치 확보의 어려움
개선
 품사 집합 단순화
 품사가 동일하나 어휘는 다른 경우 중의성 처리 어려움
15
관련 연구 동향(13)
한국어 형태소 중의성 제거 연구(5)

통계적 방법(3)

형태소 단위 품사 태깅


장점
 어휘 중의성 처리 가능
 말뭉치 부족의 문제가 상대적으로 덜 심각
단점
 문맥 정보 이용의 제한
16
관련 연구 동향(14)
한국어 형태소 중의성 제거 연구(6)
 혼합 방법

개요


규칙 기반 방법과 통계적 방법의 상호 보완 방법
구현 예


TAKTAG 시스템
 HMM 기반 품사 태깅
 품사 집합 19개
 변형 규칙 450여 개 적용
부산대 시스템
 품사 집합 73개
 복합 명사 결합 제약 규칙 128개
 개별 형태소 규칙 49개
 구문 규칙 15개
 연어 제약 규칙 31개
 형태소 범주 기반 형태적 정보
 빈도 통계 정보를 통한 순위 부여
17
한국어 형태소 분석과
중의성 제거의 문제점(1)
개요

형태소


형태소 분석 절차





최소의 유의적 단위
형태소
과분석
형태소
형태소
분리
제거
원형 복구
추출
형태소 중의성


어휘적 중의성
품사 중의성
18
한국어 형태소 분석과
중의성 제거의 문제점(2)
한국어 형태적 특징






조사 생략 가능
자유로운 어순
조사와 어미의 결합 가능성
보조사의 격은 문장 구성 성분 간의 관계나 명사의 의
미에 의존
복합명사, 복합용언 등의 복합어와 접사에 의한 파생
어의 빈번한 사용
다수의 실질 형태소와 형식 형태소의 결합 통한 음절
형성, 음절 내의 형태소 위치는 고정
19
한국어 형태소 분석과
중의성 제거의 문제점(3)
한국어 형태소 분석 시스템의 기본 요구 사항





문장 부호와 숫자 처리
사전 검색
형태소 간의 결합 조건 조사
중의성 제거
사용자 정의 사전
20
한국어 형태소 분석과
중의성 제거의 문제점(4)
한국어 형태소 분석의 문제점




접사에 의한 파생어와 복합어가 많이 쓰임
한 어절이 다수의 형태소로 구성
철자법 오류 어절이 많음
영어에 비해 느린 분석 속도
21
한국어 형태소 분석과
중의성 제거의 문제점(5)
한국어 중의성 제거의 문제점






굴절어에 비해 형태소 중의성 많음
파생어와 복합 명사의 붙여 쓰기 허용에 따른
중의성 증가
영어에 비해 띄어쓰기와 철자법 오류가 많음
어순이 비교적 자유로움
문법 형태소의 빈번한 생략과 문맥에 따라 가
변적인 기능
형태소 간 결합에 의한 문법적 기능이나 특성
의 변화
22
규칙에 의한
형태소 분석과 중의성 제거(1)
형태소 분석(1)



형태소 분리와 변형 복원 중심으로 발전
한국어의 경우 두 문제가 복합되어 있음
일반적 처리 방법






Head-Tail 구분법
Tabular 파싱법
최장-최단 일치법
접속 정보 이용법
사전 정보와 어절 오토마타에 기반한 방법
음절 정보를 이용한 방법
23
규칙에 의한
형태소 분석과 중의성 제거(2)
형태소 분석(2)

본 한국어 형태소 분석 시스템에 적용된 방법


사전 기반 분석 방법(좌우 분석법)
음절 단위 분석법


개별 어휘 지식 활용


수사 어절 처리
우좌 분석법


접사 처리와 복합 명사 처리
수사 어절 오토마타와 결합 규칙


어미와 서술격 조사의 축약 복원
미등록어 추정 시스템
결합한 형식 형태소는 한 단위로 처리
24
규칙에 의한
형태소 분석과 중의성 제거(3)
형태소 분석 시스템 구현(1)

형태소 분석 시스템의 구성



사전 탐색부
결합 조건 검사부
형태소 원형 복원부
25
규칙에 의한
형태소 분석과 중의성 제거(4)
형태소 분석 시스템 구현(2)

사전 탐색부 사용 사전

기본 사전



조사 사전


1,623 개
어미 사전


실질 형태소 저장
72,424 개
3,418 개
접미사와 보조용언 사전
26
규칙에 의한
형태소 분석과 중의성 제거(5)
형태소 분석 시스템 구현(3)

품사의 어절 내 위치 제약

어절 구성 오토마타 사용
27
규칙에 의한
형태소 분석과 중의성 제거(6)
형태소 분석 시스템 구현(4)

음절 정보 사용




용언-어미를 위한 음절 정보
체언-조사를 위한 음절 정보
서술격 조사 축약처리 위한 음절 정보
개별 어휘 특성 이용

복합 명사 처리
28
규칙에 의한
형태소 분석과 중의성 제거(7)
규칙에 의한 형태소 분석 성능 개선(1)

접미사/접두사 처리 규칙



명사 범주 세분화하여 유형 처리
한자어 조어 과정을 이용하여 연결된 접미사 처리
복합 명사 처리 규칙



사전 정보
명사 간 연어 관계 규칙
명사 간 위치 제약 규칙
29
규칙에 의한
형태소 분석과 중의성 제거(8)
규칙에 의한 형태소 분석 성능 개선(2)

수사 처리

수사 구분의 세분화







수사 의존 명사
수사
수관형사
수사 접미사
수사 접두사
서수사
결합 제약

수사 결합 오토마타 사용
30
규칙에 의한
형태소 분석과 중의성 제거(9)
형태소 분석률
31
규칙에 의한
형태소 분석과 중의성 제거(10)
형태소 분석 실패 어절 유형
32
규칙에 의한
형태소 분석과 중의성 제거(11)
미등록어 추정(1)

전제


형태소 분석에 실패한 어절에만 적용
미등록어 추정 시스템의 구성 및 절차



미등록어 위치 추정부
미등록어 범주 추정부
중의성 제거부
33
규칙에 의한
형태소 분석과 중의성 제거(12)
미등록어 추정(2)

미등록어 위치 추정



한 어절에서 주위 다른 품사들의 분포를 통해 추정
우좌 비교법
절차



미등록어 뒤에 나오는 복합 조사, 서술격 조사, 어미의 결합
꼴, 명사 및 접미사 제거
전체 어절에서 위치가 확인되된 품사 분리
미등록어의 마지막 음절로 위치 추정
 조사 역사전, 이다(+어미) 역사전, 명사와 접미사를 동시
에 저장한 명사 역사전 이용
34
규칙에 의한
형태소 분석과 중의성 제거(13)
미등록어 추정(3)

미등록어 범주 추정


위치 팍악된 미등록어가 고유명사인지를 추정
미등록어와 결합한 조사, 접미사, 명사 정보 이용 범
주 추정


역명사 사전 이용
인명, 지명, 외래어 다이그램과 범주 추정용 사전 이
용

결합한 형태소를 통한 범주 추정이 실패할 경우
35
규칙에 의한
형태소 분석과 중의성 제거(14)
미등록어 추정(4)

미등록어 중의성 제거

일반 적용 규칙





특정 범주의 미등록어가 일반 미등록어보다 우선
인명의 경우 3음절 인명이 우선(2음절 성씨는 예외)
지명의 경우 3음절 지명이 우선
분리한 조사와 이다(+어미)의 길이가 긴 일반 미등록어가
우선
분리한 명사의 경우 비도가 높은 미등록어가 우선
36
규칙에 의한
형태소 분석과 중의성 제거(15)
띄어쓰기 오류 어절 형태소 분석(1)

개요


실용적 시스템 개발을 위한 선결 과제
처리 방법



빈번한 띄어쓰기 오류 유형을 분류, 규칙화
30여 개는 형태소 분석 과정에서 처리
그 외는 형태소 분석에 실패한 어절에 적용 시도
37
규칙에 의한
형태소 분석과 중의성 제거(16)
띄어쓰기 오류 어절 형태소 분석(2)

형태소 분석 과정에서 처리되는 오류

지시관형사에 의한 띄어쓰기 오류


의존 명사를 포함한 관용적 표현의 띄어쓰기 오류


안찾다 => 안_찾다
일부 관형사와 명사 간의 띄어쓰기 오류


~ㄹ수있다 => ㄹ_수_있다
일부 부사와 용언 간의 띄어쓰기 오류


저사람 => 저_사람
새옷 => 새_옷
의존 명사 ‘것’을 포함하는 띄어쓰기 오류

예쁜것 => 예쁜_것
38
규칙에 의한
형태소 분석과 중의성 제거(17)
띄어쓰기 오류 어절 형태소 분석(3)

형태소 분석에 실패한 어절에 적용하는 띄어쓰
기 오류


띄어 써야 할 두 어절의 결합된 위치를 형태소 분석
에서 실패한 위치로 가정하고 다시 형태소 분석
빈번한 오류에 대한 유형화를 통한 접근






부사, 용언
용언의 관형형, 의존명사
용언의 관형형, 명사
관형사, 의존명사
관형사, 명사
조사, 용언
39
규칙에 의한
형태소 분석과 중의성 제거(18)
중의성 제거(1)

한국어 중의성 유형

형태소를 분리하는 과정에서 발생하는 중의성


형태소 간의 복원 과정에서 어형 변형에 의해 발생하는 중의성


전문가수
 전문(명사) + 가수(명사)
 전문가(명사) + 수(명사)
들어
 들다(동사) + 어(어미)
 듣다(동사) + 어(어미)
형태소의 분리 위치는 동일하나 형태소의 품사가 다르기 때문
에 발생하는 중의성

우리
 우리(명사)
 우리(대명사)
40
규칙에 의한
형태소 분석과 중의성 제거(19)
중의성 제거(2)

한국어 중의성 제거에 이용된 연관 관계

가중치 적용



긍정적 관계
부정적 관계
한국어 중의성을 제거하는 과정에서의 중심 어절 정의



중의성 있는 어절이 중심 어절일 경우 좌우 어절에 의해 중심
어절 중의성 해소
중의성 없는 어절이 중심 어절이 경우 좌우 어절 중의성 해소
중의성 있는 어절이 중심 어절일 경우 문맥에 따라 좌우 어절
과 중심 어절의 중의성 동시에 해소
41
규칙에 의한
형태소 분석과 중의성 제거(20)
중의성 제거(3)

한국어 중의성 제거 규칙




중의성 발생 빈도가 높은 형태소에 대한 규칙
구문적 제약 규칙
단어 간 연어 정보 이용
중의성 제거를 위한 데몬 프로그래밍


형태소 분석 전에 중의성 제거 규칙이 적용될 가능
성이 있는 어휘는 플래그를 설정
형태소 분석 후에 중의성 제거 규칙 적용
42
규칙에 의한
형태소 분석과 중의성 제거(21)
중의성 제거(4)

규칙 간 충돌시 적용 원칙


부정적 규칙 우선 원칙
통계 정보에 의한 보완
43