음절 정보만 이용한 복합명사 분리
Download
Report
Transcript 음절 정보만 이용한 복합명사 분리
음절 정보만 이용한
한국어 복합 명사 분해
제 15회 한글 및 한국어 정보처리 학술대회
서울대학교 컴퓨터공학부 바이오 지능연구실
박성배,장병탁
2007년 10월 4일 목요일
NLP Lab. Seminar
발표 : 이주호
목
차
요점 요약
기존 연구
GECORAM 알고리즘
GECORAM과 RIPPER 및 TBL, AdaBoost의 비교
실험 결과
요점 요약
한국어는 복합 명사 생성이 매우 자유스럽다.
독립된 명사를 연속으로 붙여 쓰는 것이 가능.
복합 명사는 단일 명사에 비해 더 많은 문맥 정보를 가진다.
n 1
n개의 음절로 이루어진 어절을 분해할 수 있는 경우의수 2
규칙 학습 + 기억기반 학습
규칙학습 알고리즘
생성된 학습 결과를 사람이 쉽게 이해.
다른 지도 학습 알고리즘에 비해 성능이 떨어진다.
규칙학습 과 기억기반 학습을 결합할 경우 높은 성능을 보인다.
기존 연구(통계를 이용한 방법)
합성된 상호 정보를 이용한 복합 명사 분리(심광섭)
110만 어절의 말뭉치로 부터 학습된 상호정보를 이용하여 복합
명사를 분해
상호정보는 4가지 유형의 음절간 상호 정보를 합성한 것.
긍정적 상호정보 Ip(Si,Si+1)
부정적 상호정보 In(Si,Si+1)
머리 상호정보 Ih(Si,Si+1)
꼬리 상호정보 It(Si,Si+1)
Compound Noun Decomposition using a Markov
Model(Lee JW, Zhang BT, Kim YT)
복합명사 분해를 품사 태깅과 같은 문제로 보고 마코프 모델을
적용
기존 연구(규칙을 이용한 방법)
한국어 복합명사 분해 알고리즘(강승식)
네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해
후보들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보
를 선택하는 알고리즘. [1/2]
분해규칙1: 사전에 수록된 sequence를 우선으로 분해 후보를 생성.
분해규칙2: 복합 명사의 음절 패턴을 이용하여 빈도가 높은 유형을
우선으로 생성.
분해규칙3: 분해되는 명사는 2음절 이상으로 한다.
1음절은 접두사 혹은 접미사로 간주
1음절 명사를 분해하면 잘못 분해할 확률이 높아짐
기존 연구 (규칙을 이용한 방법)
한국어 복합명사 분해 알고리즘(강승식)
네 개의 분해 규칙과 두 가지 예외 규칙을 사용하여 가능한 분해 후보
들을 생성분해 후보들에 대해 가중치를 부여하여 최적 후보를 선택하
는 알고리즘. [2/2]
분해규칙4: 2음절 단위명사가 분해되면 2+x유형과 함께 다음 1 음절을
접미사로 간주한 3+y 유형에 대한 분해 후보를 생성한다.
예외규칙1: 사전에 수록되어 있는 4~5 음절 단위명사는 우선적으로 분
리한다.
예외규칙2: 사전 탐색과 접미사에 의하여 단위명사가 분리되지 않으면
한 음절씩 건너 뛴다.
미등록 단위 명사가 포함된 복합 명사를 분해할 수 있다.
통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤
보현,조민정,임해창)
통계 정보와 우선 적용 규칙을 사용.
미등록어를 포함한 복합명사는 휴리스틱을 이용하여 분할.
GECORAM 알고리즘[1/4]
한국어 복합 명사 분해 문제
주어진 음절wi의 어디를 띄울 것이냐를 결정하는 이진 분류 문
제
wi의 문맥정보 hi의를 사용 소개 논문에서는 문맥 정보로 좌우 n
개의 음절을 사용한다.
GECORAM(Generalized Combination of Rule-based
learning And Memory-based learning)
분류 문제를 풀기 위하여 규칙기반 학습과 기억 기반 학습을 효
과적으로 결합하는 일반적인 방법이다.
GECORAM 알고리즘[2/4]
GECORAM 알고리즘[3/4]
규칙학습
IREP의 변형된 알고리즘인 MODIFIED_IREP를 사용
MODIFIED_IREP에는 prune모드가 없다.
IREP알고리즘에서 규칙을 간결화 하는 기능과 확장하는 기능이 있
다.
prune은 규칙을 간결화하는 기능 MODIFIED_IREP에서는 규칙이
커지기만 하고 간결화 되지 않는다.
PruneRule의 기능은 기억기반 학습이 대신한다.
MODIFIED_IREP에서 학습 되지 못한 예제들은 기억
기반 학습으로 학습한다.
GECORAM 알고리즘[3/4]
기억 기반학습[1/2]
K-nearest neighbor(k-NN)의 직접적인 후계 알고리즘
k-NN(k-Nearest
Neighbor)은 훈련용 데이터로부터 가장 가까운
K 개의 근접이웃을 선택하여 다수결의 원칙 또는 근접 정도에 따
른 가중치평균으로 분류 또는 예측 값을 계산해 내는 방법.
기억 기반 학습에서의 학습은 예제를 메모리에 저장 하는 것
예제 x의 클래스는 메모리 내에서 x와 가장 비슷한 k개의 예제들
사이의 가장 빈도수가 높은 클래스로 결정
유사도 계산 방법
m
( x, y) j ( x j , y j )
j 1
0 if ( x j y j )
(x j , y j )
1 if ( x j y j )
GECORAM 알고리즘[4/4]
기억 기반학습[2/2]
αj가 정보 이득에 의해 결정되면 이 단위를 쓰는 k-NN 알고리즘
을 IB1-IG라고 부르며 GECORAM 알고리즘의 기억 기반 학습으
로 IB1-IG를 사용
규칙기반 학습과 기억기반 학습을 언제 사용할지 결정
Classify-GECORAM(x,
, RuleSet,θ보다
MBL) 크면 규칙을 적용하지
function
θ 는 ∆(x,y)의
임계값 이고 ∆(x,y)가
begin
않는다.
c RuleSet(x)
θ값은
학습
데이터와는
데이터 집합(Held-out)을 가지
y the
nearest
instance of x 독립적인
in Err
if (x, y) 분류
then알고리즘을 다양한 θ값에 대해 적용하여 가
고 GECORAM
c
MBL(x)내는 θ값으로 정한다.
장 좋은
성능을
endif
return c
end
GECORAM 분류 알고리즘.
GECORAM과 RIPPER 및 TBL, AdaBoost의 비교
GECORAM 과 RIPPER 알고리즘은 IREP을 기반으로 하
고 있다는 점에서 비슷한 알고리즘이다.
RIPPER는 순수히 규칙 기반 학습
GECORAM은 RIPPER의 Optimize기능을 기억 기반 학습이 한다.
GECORAM은 TBL, AdaBoost와 여러 가지 면에서 비슷한
성질을 가진다.[1/2]
TBL, AdaBoost모두 간단한 규칙을 결합하여 분류기를 만든다.
TBL은 직관적 알고리즘
1.TBL은 학습 데이터에 대해 과도한 학습을 하기 쉽다.
2.TBL은 노이즈에 민감하다.
3.[1.2]의 요소들이 응용문제의 성능을 높이는 쪽으로 나아가는지에 대
한 보장이 전혀 없다.
Adaboost는 이론적으로 견고한 알고리즘
속도에서 GECORAM 알고리즘이 우수
실험 결과
사용된 데이터 집합
“합성된 상호 정보를 이용한 복합 명사 분리(심광섭)” 에서 사용
된 것.
“통계 정보와 선호 규칙을 이용한 한국어 복합 명사 분해(윤보현,
조민정,임해창)”에서 사용된 것.
데이터의 통계 정보
데이터 집합
Shim
Yoon
예제의 수
음절의 수
복합 명사의 평균 길이
9,863
562
7.26
15,096
557
4.92
실험 결과
실험 방법
학습 데이터 : 전체 데이터 중 80%
held-out : 전체 데이터 중 10%
검증 데이터 : 전체 데이터 중 10%
10-fold cross validation을 실행
RIPPER, SLIPPER, C4.5, TiMBL 과 비교
실험 결과
C4 .5
95
TiMBL
RIPPER
90
SLIPPER
정확도 (%)
GECORAM
85
80
75
70
0
1
2
3
4
문맥 길이
Shim 데이터 집합의 문맥의 길이에 대한 정확도
5
실험 결과
C4 .5
TiMBL
95
RIPPER
SLIPPER
정확도 (%)
90
GECORAM
85
80
75
70
65
0
1
2
3
4
문맥 길이
Yoon 데이터 집합의 문맥의 길이에 대한 정확도
5
실험 결과
100000
10000
C4.5
규칙의 수
RIPPER
1000
SLIPPER
GECORAM
100
10
1
0
1
2
3
4
문맥 길이
Shim 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수
5
실험 결과
1000000
100000
C4.5
규칙의 수
10000
RIPPER
SLIPPER
1000
GECORAM
100
10
1
0
1
2
3
4
문맥 길이
Yoon 데이터 집합의 문맥의 길이에 대한 생성된 규칙의 수
5
실험 결과
방법
C4.5
TiMBL
RIPPER
SLIPPER
GECORAM
Shim
81.67%
85.24%
76.36%
77.22%
90.13%
각 학습 방법의 최고 정확도
Yoon
82.37%
85.89%
85.27%
79.23%
92.57%
Q&A
수고 하셨습니다.