음절 정보만 이용한 복합명사 분리

Download Report

Transcript 음절 정보만 이용한 복합명사 분리

음절 정보만 이용한
한국어 복합 명사 분해
제 15회 한글 및 한국어 정보처리 학술대회
서울대학교 컴퓨터공학부 바이오 지능연구실
박성배,장병탁
2007년 10월 4일 목요일
NLP Lab. Seminar
발표 : 이주호
목
차
 요점 요약
 기존 연구
 GECORAM 알고리즘
 GECORAM과 RIPPER 및 TBL, AdaBoost의 비교
 실험 결과
요점 요약
 한국어는 복합 명사 생성이 매우 자유스럽다.
 독립된 명사를 연속으로 붙여 쓰는 것이 가능.
 복합 명사는 단일 명사에 비해 더 많은 문맥 정보를 가진다.
n 1
 n개의 음절로 이루어진 어절을 분해할 수 있는 경우의수 2
 규칙 학습 + 기억기반 학습
 규칙학습 알고리즘
생성된 학습 결과를 사람이 쉽게 이해.
 다른 지도 학습 알고리즘에 비해 성능이 떨어진다.


규칙학습 과 기억기반 학습을 결합할 경우 높은 성능을 보인다.
기존 연구(통계를 이용한 방법)
 합성된 상호 정보를 이용한 복합 명사 분리(심광섭)
 110만 어절의 말뭉치로 부터 학습된 상호정보를 이용하여 복합
명사를 분해

상호정보는 4가지 유형의 음절간 상호 정보를 합성한 것.
 긍정적 상호정보 Ip(Si,Si+1)
 부정적 상호정보 In(Si,Si+1)
 머리 상호정보 Ih(Si,Si+1)
 꼬리 상호정보 It(Si,Si+1)
 Compound Noun Decomposition using a Markov
Model(Lee JW, Zhang BT, Kim YT)

복합명사 분해를 품사 태깅과 같은 문제로 보고 마코프 모델을
적용
기존 연구(규칙을 이용한 방법)
 한국어 복합명사 분해 알고리즘(강승식)
 네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해
후보들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보
를 선택하는 알고리즘. [1/2]
분해규칙1: 사전에 수록된 sequence를 우선으로 분해 후보를 생성.
 분해규칙2: 복합 명사의 음절 패턴을 이용하여 빈도가 높은 유형을
우선으로 생성.
 분해규칙3: 분해되는 명사는 2음절 이상으로 한다.
 1음절은 접두사 혹은 접미사로 간주
 1음절 명사를 분해하면 잘못 분해할 확률이 높아짐

기존 연구 (규칙을 이용한 방법)
 한국어 복합명사 분해 알고리즘(강승식)

네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해 후보
들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보를 선택하
는 알고리즘. [2/2]
분해규칙4: 2음절 단위명사가 분해되면 2+x유형과 함께 다음 1 음절을
접미사로 간주한 3+y 유형에 대한 분해 후보를 생성한다.
 예외규칙1: 사전에 수록되어 있는 4~5 음절 단위명사는 우선적으로 분
리한다.
 예외규칙2: 사전 탐색과 접미사에 의하여 단위명사가 분리되지 않으면
한 음절씩 건너 뛴다.


미등록 단위 명사가 포함된 복합 명사를 분해할 수 있다.
 통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤
보현,조민정,임해창)


통계 정보와 우선 적용 규칙을 사용.
미등록어를 포함한 복합명사는 휴리스틱을 이용하여 분할.
GECORAM 알고리즘[1/4]
 한국어 복합 명사 분해 문제
 주어진 음절wi의 어디를 띄울 것이냐를 결정하는 이진 분류 문
제
 wi의 문맥정보 hi의를 사용 소개 논문에서는 문맥 정보로 좌우 n
개의 음절을 사용한다.
 GECORAM(Generalized Combination of Rule-based
learning And Memory-based learning)

분류 문제를 풀기 위하여 규칙기반 학습과 기억 기반 학습을 효
과적으로 결합하는 일반적인 방법이다.
GECORAM 알고리즘[2/4]
GECORAM 알고리즘[3/4]
 규칙학습
 IREP의 변형된 알고리즘인 MODIFIED_IREP를 사용
MODIFIED_IREP에는 prune모드가 없다.
 IREP알고리즘에서 규칙을 간결화 하는 기능과 확장하는 기능이 있
다.
 prune은 규칙을 간결화하는 기능 MODIFIED_IREP에서는 규칙이
커지기만 하고 간결화 되지 않는다.
 PruneRule의 기능은 기억기반 학습이 대신한다.

 MODIFIED_IREP에서 학습 되지 못한 예제들은 기억
기반 학습으로 학습한다.
GECORAM 알고리즘[3/4]
 기억 기반학습[1/2]
 K-nearest neighbor(k-NN)의 직접적인 후계 알고리즘
 k-NN(k-Nearest
Neighbor)은 훈련용 데이터로부터 가장 가까운
K 개의 근접이웃을 선택하여 다수결의 원칙 또는 근접 정도에 따
른 가중치평균으로 분류 또는 예측 값을 계산해 내는 방법.


기억 기반 학습에서의 학습은 예제를 메모리에 저장 하는 것
예제 x의 클래스는 메모리 내에서 x와 가장 비슷한 k개의 예제들
사이의 가장 빈도수가 높은 클래스로 결정

유사도 계산 방법
m
( x, y)   j ( x j , y j )
j 1
0 if ( x j  y j )
 (x j , y j )  
1 if ( x j  y j )
GECORAM 알고리즘[4/4]
 기억 기반학습[2/2]
 αj가 정보 이득에 의해 결정되면 이 단위를 쓰는 k-NN 알고리즘
을 IB1-IG라고 부르며 GECORAM 알고리즘의 기억 기반 학습으
로 IB1-IG를 사용
 규칙기반 학습과 기억기반 학습을 언제 사용할지 결정
Classify-GECORAM(x,
, RuleSet,θ보다
MBL) 크면 규칙을 적용하지
 function
θ 는 ∆(x,y)의
임계값 이고 ∆(x,y)가
begin
않는다.
c  RuleSet(x)
 θ값은
학습
데이터와는
데이터 집합(Held-out)을 가지
y  the
nearest
instance of x 독립적인
in Err
if (x, y)  분류
 then알고리즘을 다양한 θ값에 대해 적용하여 가
고 GECORAM
c
MBL(x)내는 θ값으로 정한다.
장 좋은
성능을
endif
return c
end
GECORAM 분류 알고리즘.
GECORAM과 RIPPER 및 TBL, AdaBoost의 비교
 GECORAM 과 RIPPER 알고리즘은 IREP을 기반으로 하
고 있다는 점에서 비슷한 알고리즘이다.


RIPPER는 순수히 규칙 기반 학습
GECORAM은 RIPPER의 Optimize기능을 기억 기반 학습이 한다.
 GECORAM은 TBL, AdaBoost와 여러 가지 면에서 비슷한
성질을 가진다.[1/2]


TBL, AdaBoost모두 간단한 규칙을 결합하여 분류기를 만든다.
TBL은 직관적 알고리즘
1.TBL은 학습 데이터에 대해 과도한 학습을 하기 쉽다.
 2.TBL은 노이즈에 민감하다.
 3.[1.2]의 요소들이 응용문제의 성능을 높이는 쪽으로 나아가는지에 대
한 보장이 전혀 없다.


Adaboost는 이론적으로 견고한 알고리즘

속도에서 GECORAM 알고리즘이 우수
실험 결과
 사용된 데이터 집합
 “합성된 상호 정보를 이용한 복합 명사 분리(심광섭)” 에서 사용
된 것.
 “통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤보현,
조민정,임해창)”에서 사용된 것.
 데이터의 통계 정보
데이터 집합
Shim
Yoon
예제의 수
음절의 수
복합 명사의 평균 길이
9,863
562
7.26
15,096
557
4.92
실험 결과
 실험 방법
 학습 데이터 : 전체 데이터 중 80%

held-out : 전체 데이터 중 10%

검증 데이터 : 전체 데이터 중 10%

10-fold cross validation을 실행

RIPPER, SLIPPER, C4.5, TiMBL 과 비교
실험 결과
C4 .5
95
TiMBL
RIPPER
90
SLIPPER
정확도 (%)
GECORAM
85
80
75
70
0
1
2
3
4
문맥 길이
Shim 데이터 집합의 문맥의 길이에 대한 정확도
5
실험 결과
C4 .5
TiMBL
95
RIPPER
SLIPPER
정확도 (%)
90
GECORAM
85
80
75
70
65
0
1
2
3
4
문맥 길이
Yoon 데이터 집합의 문맥의 길이에 대한 정확도
5
실험 결과
100000
10000
C4.5
규칙의 수
RIPPER
1000
SLIPPER
GECORAM
100
10
1
0
1
2
3
4
문맥 길이
Shim 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수
5
실험 결과
1000000
100000
C4.5
규칙의 수
10000
RIPPER
SLIPPER
1000
GECORAM
100
10
1
0
1
2
3
4
문맥 길이
Yoon 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수
5
실험 결과
방법
C4.5
TiMBL
RIPPER
SLIPPER
GECORAM
Shim
81.67%
85.24%
76.36%
77.22%
90.13%
각 학습 방법의 최고 정확도
Yoon
82.37%
85.89%
85.27%
79.23%
92.57%
Q&A
수고 하셨습니다.