자연어처리 기초

Download Report

Transcript 자연어처리 기초

자연어처리 기초
번역 엔진 연구팀
손성준
1/33
언어의 유한 오토마톤 모델
언어의 수학적 모델 설명

언어는 일종의 골격을 가짐(문법)
문법

인접 단어끼리 가져야 할 제약
Analysis in With community

Analysis : N, in : PREP
With : PREP, community : N
2/33
문맥 자유형 문법
인접 단어의 제약 표현

유한 오토마톤의 한계
정규 문법


인접 단어 제약 가능
떨어져 있는 문자열의 상관관계 표현 불가
영어와 같은 종류 언어 적용 용이
3/33
형태소 해석 개요1/5
문장을 사전에 등록된 최소 단위로 분해
자연어 처리 1단계
음소(phoneme)

인간의 의미(의지) 전달에서 음성을 어떻게 사
용하는가를 기초로 생각한 음의 단위
4/33
형태소 해석 개요2/5
형태소(morpheme)

의미를 가진 최소의 언어 단위, 하나 이상의 음
소로 구성
단어(word)

하나의 의미의 총합을 이루며, 문법상 하나의
기능을 가진 최소의 언어 단위, 하나 이상의 형
태소로 구성
5/33
형태소 해석 개요3/5
문장(sentence)

전달하고자 하는 내용을 가지며, 완결된 언어
단위, 하나 이상의 단어로 구성
문, 텍스트(text)


전달하고자 하는 내용을 표현하기 위하여 문장
이 순서대로 모여진 집합
인접하는 문장 상호간에는 어떤 종류의 관계성
이 존재
6/33
형태소 해석 개요4/5
나는 너를 사랑한다.

나는





너를



나+아는
낳+아는
나+는
날+는
너+를
너르+ㄹ
사랑한다.

사랑+하+ㄴ다+.
7/33
형태소 해석 개요5/5
비텔비(Viterbi) 알고리즘
은둔 마르코프 모델(HMM)
8/33
구문 해석 개요1/3
자연언어의 구조를 문법규칙에 기초하여 복
원 처리하는 것
영어에서는 구문 해석이 중요
한국어 같은 교착어는 구조가 미약
9/33
구문 해석 개요2/3
문맥자유문법(CFG)의 생성
규칙이 아래와 같이 주어질 때
[1] S → NP VP
[4] VP → V
[7] PP → PREP NP
[2] NP → N
[5] VP → V NP
[3] NP → DET N
[6] VP → V NP PP
10/33
구문 해석 개요3/3
Top-Down 알고리즘


S부터 시작하여 차례로 규칙을 적용해서 주어
진 그림을 얻어질 때까지 반복하는 방법
O(kn)
Bottom-Up 알고리즘


입력문(bottom)에서 S를 만들어 가는 방향으
로 해석
O(nk)
11/33
의미 해석1/3
격문법(case grammar)

어와 어 사이의 의미관계를 동사를 중심으로
다룬 것
12/33
의미 해석2/3
의미소에 의한 해석


의미의 기본 단위인 의미소(semantic
premitive)라는 것을 이용하여 의존관계의 제
약(restriction)을 기술하는 방법
의미 속성
용례, 시소러스에 의한 해석

걸다 1(희망, 기대 등을 갖다) :
「그」가 「아들」에 「희망」을...
걸다 2(물건을 걸다) :
「그」가 「벽」에 「그림」을...
13/33
의미 해석3/3
연상관계에 근거한 의미적 애매성 해소



떨어져 있는 단어 사이에도 의미적인 정합관계
가 존재
사전의 정의문
코퍼스
14/33
코퍼스란...1/3
언어 데이터를 대량으로 수집하고 언어 현상
의 조사, 통계처리 등을 목적으로 수집된 언
어 데이터
텍스트 코퍼스
음성 코퍼스
15/33
코퍼스란...2/3
Penn Treebank의 작성 과정
의미 정보는 없음
16/33
코퍼스란...3/3
인간에 의한 언어지식의 기술

COBUILD English Dictionary
컴퓨터 시스템에 의한 자연언어처리


형태소정보, 구문정보가 부가된 코퍼스가 있으
면, 형태소해석, 구문해석을 위한 우선규칙의
파라미터를 계산
코퍼스로부터의 학습에 의해 문법, 격프레임등
의 언어지식을 자동적으로 획득
시스템 처리결과의 평가
17/33
기계 번역1/16
번역(translation)




어떤 언어(원 언어)의 텍스트를 다른 언어(목
적 언어)의 등가의 텍스트로 치환하는 것
단어와 구조의 등가성을 중시하는 번역
의미 내용의 등가성을 중시하는 번역
사회적 이해의 등가성을 중시하는 번역
18/33
기계 번역2/16
번역의 어려움

어휘 대응의 차이



"(옷을) 입다", " (안경을) 쓰다", "(모자를) 쓰다",
"(신발을) 신다
put on
단어와 구의 대응


탕
hot water
19/33
기계 번역3/16

구조의 차이



He wears a black suit
그는 검은 셔츠를 입고 있다
다른 품사간의 대응


자극성 기체 -> 명사 + 명사
stimulative gas -> 형용사 + 명사
20/33
기계 번역4/16

명시적으로 표현하는 정보의 차이


수(단수, 복수)의 정보 (영어O, 한국어X)
번역의 요소 합성에 있어 비단조성


논문 – paper, 박사의 – doctoral
박사의 논문 - doctoral thesis
21/33
기계 번역5/16
기계 번역의 단계

해석, 변환, 생성
기계 번역 시스템



구문 변환 방식
지식형 기계 번역
실례형 기계 번역
22/33
기계 번역6/16
구문 변환 방식




어휘와 문법에 관한 언어적인 지식 활용 해석
표현적인 격구조 생성
목적언어의 구조로 변환
목적 언어의 표층 표현 생성
23/33
기계 번역7/16
해석단계(일영 번역 시스템)










형태소해석
단어의 품사의 애매성 해소
복합어 처리
연용형의 동사 처리
병렬 명사구의 처리
명사내의 구조 해석
단문내의 구조 해석
~は(~은)의 처리
명사구, 동사구 간의 의미적 관계 분석
시제, 양상의 해석
24/33
기계 번역8/16
변환 단계(일영 번역 시스템)


어휘 변환
구조 변환
25/33
기계 번역9/16
생성 단계(일영 번역 시스템)










생성 사전 검색
필수격의 생성과 구구조에서의 위치 결정
임의격의 생성과 구구조에서의 위치 결정
수동 변형, 혹은 대동사의 사용 결정
동사구 처리
it ~ that 변형
병렬 명사구, 동사의 등위 접속의 축약
관계절의 변형, 축약
there 구문의 사용
부사, 전치사의 위치 결정
26/33
기계 번역10/16
지식형 기계 번역(KBMT)




중간 과정에서 개념의 형성이 필요
격구조에서는 언어 종속적 규칙을 적용해서 올
바른 번역이 될 수 없다고 봄
대상 분야의 지식을 개념 체계화 필요
추론을 통한 고품질 번역 가능
27/33
기계 번역11/16
KBMT의 번역 방식
28/33
기계 번역12/16
해석

원언어의 입력문을 해석 모듈로 해석하고 개념
표현으로 사상
변환

얻어진 개념 표현을 목적 언어에 맞는 개념 표
현으로 변환
생성

해석과 역방향 처리를 함으로써 개념 표현에
대응하는 목적 언어의 문 생성
29/33
기계 번역13/16
개념 정의(표현)


통상의 단어가 갖는 뜻을 개념으로 구성
상속, 재정의 가능
개념 변환




개념 표현이 완전히 중립적이지 못해서 개념
표현을 근사적인 다른 개념으로 바꾸는 것
사영 : 특정 슬롯의 삭제
범용화 : 어떤 개념을 그 상위 개념으로 치환
특수화 : 어떤 개념을 그 하위 개념으로 치환
30/33
기계 번역14/16
KBMT의 특징





대상 분야 지식의 이용
지식 표현과 상속
중간 언어적 방식의 개념 표현
추론과의 통합
다언어간 번역
31/33
기계 번역15/16
실례형 기계 번역 방식(EBMT)




어떤 문장과 비슷한 문장은 원래의 문장과 주
로 비슷한 구조나 의미로 번역된다는 기본 원
리에 입각
Swimming is good for you.
Vegetables are good for you. > 야채는 몸에
좋다.
Swimming is good for you. > 수영은 몸에 좋
다.
32/33
기계 번역16/16
자연언어

개개 단어의 개별성과 방대한 다의성
소수의 추상화된 규칙 집합의 한계
풍부한 실례와 용례를 이용하는 것이 유효할
것
33/33