Transcript 자연어처리 기초
자연어처리 기초 번역 엔진 연구팀 손성준 1/33 언어의 유한 오토마톤 모델 언어의 수학적 모델 설명 언어는 일종의 골격을 가짐(문법) 문법 인접 단어끼리 가져야 할 제약 Analysis in With community Analysis : N, in : PREP With : PREP, community : N 2/33 문맥 자유형 문법 인접 단어의 제약 표현 유한 오토마톤의 한계 정규 문법 인접 단어 제약 가능 떨어져 있는 문자열의 상관관계 표현 불가 영어와 같은 종류 언어 적용 용이 3/33 형태소 해석 개요1/5 문장을 사전에 등록된 최소 단위로 분해 자연어 처리 1단계 음소(phoneme) 인간의 의미(의지) 전달에서 음성을 어떻게 사 용하는가를 기초로 생각한 음의 단위 4/33 형태소 해석 개요2/5 형태소(morpheme) 의미를 가진 최소의 언어 단위, 하나 이상의 음 소로 구성 단어(word) 하나의 의미의 총합을 이루며, 문법상 하나의 기능을 가진 최소의 언어 단위, 하나 이상의 형 태소로 구성 5/33 형태소 해석 개요3/5 문장(sentence) 전달하고자 하는 내용을 가지며, 완결된 언어 단위, 하나 이상의 단어로 구성 문, 텍스트(text) 전달하고자 하는 내용을 표현하기 위하여 문장 이 순서대로 모여진 집합 인접하는 문장 상호간에는 어떤 종류의 관계성 이 존재 6/33 형태소 해석 개요4/5 나는 너를 사랑한다. 나는 너를 나+아는 낳+아는 나+는 날+는 너+를 너르+ㄹ 사랑한다. 사랑+하+ㄴ다+. 7/33 형태소 해석 개요5/5 비텔비(Viterbi) 알고리즘 은둔 마르코프 모델(HMM) 8/33 구문 해석 개요1/3 자연언어의 구조를 문법규칙에 기초하여 복 원 처리하는 것 영어에서는 구문 해석이 중요 한국어 같은 교착어는 구조가 미약 9/33 구문 해석 개요2/3 문맥자유문법(CFG)의 생성 규칙이 아래와 같이 주어질 때 [1] S → NP VP [4] VP → V [7] PP → PREP NP [2] NP → N [5] VP → V NP [3] NP → DET N [6] VP → V NP PP 10/33 구문 해석 개요3/3 Top-Down 알고리즘 S부터 시작하여 차례로 규칙을 적용해서 주어 진 그림을 얻어질 때까지 반복하는 방법 O(kn) Bottom-Up 알고리즘 입력문(bottom)에서 S를 만들어 가는 방향으 로 해석 O(nk) 11/33 의미 해석1/3 격문법(case grammar) 어와 어 사이의 의미관계를 동사를 중심으로 다룬 것 12/33 의미 해석2/3 의미소에 의한 해석 의미의 기본 단위인 의미소(semantic premitive)라는 것을 이용하여 의존관계의 제 약(restriction)을 기술하는 방법 의미 속성 용례, 시소러스에 의한 해석 걸다 1(희망, 기대 등을 갖다) : 「그」가 「아들」에 「희망」을... 걸다 2(물건을 걸다) : 「그」가 「벽」에 「그림」을... 13/33 의미 해석3/3 연상관계에 근거한 의미적 애매성 해소 떨어져 있는 단어 사이에도 의미적인 정합관계 가 존재 사전의 정의문 코퍼스 14/33 코퍼스란...1/3 언어 데이터를 대량으로 수집하고 언어 현상 의 조사, 통계처리 등을 목적으로 수집된 언 어 데이터 텍스트 코퍼스 음성 코퍼스 15/33 코퍼스란...2/3 Penn Treebank의 작성 과정 의미 정보는 없음 16/33 코퍼스란...3/3 인간에 의한 언어지식의 기술 COBUILD English Dictionary 컴퓨터 시스템에 의한 자연언어처리 형태소정보, 구문정보가 부가된 코퍼스가 있으 면, 형태소해석, 구문해석을 위한 우선규칙의 파라미터를 계산 코퍼스로부터의 학습에 의해 문법, 격프레임등 의 언어지식을 자동적으로 획득 시스템 처리결과의 평가 17/33 기계 번역1/16 번역(translation) 어떤 언어(원 언어)의 텍스트를 다른 언어(목 적 언어)의 등가의 텍스트로 치환하는 것 단어와 구조의 등가성을 중시하는 번역 의미 내용의 등가성을 중시하는 번역 사회적 이해의 등가성을 중시하는 번역 18/33 기계 번역2/16 번역의 어려움 어휘 대응의 차이 "(옷을) 입다", " (안경을) 쓰다", "(모자를) 쓰다", "(신발을) 신다 put on 단어와 구의 대응 탕 hot water 19/33 기계 번역3/16 구조의 차이 He wears a black suit 그는 검은 셔츠를 입고 있다 다른 품사간의 대응 자극성 기체 -> 명사 + 명사 stimulative gas -> 형용사 + 명사 20/33 기계 번역4/16 명시적으로 표현하는 정보의 차이 수(단수, 복수)의 정보 (영어O, 한국어X) 번역의 요소 합성에 있어 비단조성 논문 – paper, 박사의 – doctoral 박사의 논문 - doctoral thesis 21/33 기계 번역5/16 기계 번역의 단계 해석, 변환, 생성 기계 번역 시스템 구문 변환 방식 지식형 기계 번역 실례형 기계 번역 22/33 기계 번역6/16 구문 변환 방식 어휘와 문법에 관한 언어적인 지식 활용 해석 표현적인 격구조 생성 목적언어의 구조로 변환 목적 언어의 표층 표현 생성 23/33 기계 번역7/16 해석단계(일영 번역 시스템) 형태소해석 단어의 품사의 애매성 해소 복합어 처리 연용형의 동사 처리 병렬 명사구의 처리 명사내의 구조 해석 단문내의 구조 해석 ~は(~은)의 처리 명사구, 동사구 간의 의미적 관계 분석 시제, 양상의 해석 24/33 기계 번역8/16 변환 단계(일영 번역 시스템) 어휘 변환 구조 변환 25/33 기계 번역9/16 생성 단계(일영 번역 시스템) 생성 사전 검색 필수격의 생성과 구구조에서의 위치 결정 임의격의 생성과 구구조에서의 위치 결정 수동 변형, 혹은 대동사의 사용 결정 동사구 처리 it ~ that 변형 병렬 명사구, 동사의 등위 접속의 축약 관계절의 변형, 축약 there 구문의 사용 부사, 전치사의 위치 결정 26/33 기계 번역10/16 지식형 기계 번역(KBMT) 중간 과정에서 개념의 형성이 필요 격구조에서는 언어 종속적 규칙을 적용해서 올 바른 번역이 될 수 없다고 봄 대상 분야의 지식을 개념 체계화 필요 추론을 통한 고품질 번역 가능 27/33 기계 번역11/16 KBMT의 번역 방식 28/33 기계 번역12/16 해석 원언어의 입력문을 해석 모듈로 해석하고 개념 표현으로 사상 변환 얻어진 개념 표현을 목적 언어에 맞는 개념 표 현으로 변환 생성 해석과 역방향 처리를 함으로써 개념 표현에 대응하는 목적 언어의 문 생성 29/33 기계 번역13/16 개념 정의(표현) 통상의 단어가 갖는 뜻을 개념으로 구성 상속, 재정의 가능 개념 변환 개념 표현이 완전히 중립적이지 못해서 개념 표현을 근사적인 다른 개념으로 바꾸는 것 사영 : 특정 슬롯의 삭제 범용화 : 어떤 개념을 그 상위 개념으로 치환 특수화 : 어떤 개념을 그 하위 개념으로 치환 30/33 기계 번역14/16 KBMT의 특징 대상 분야 지식의 이용 지식 표현과 상속 중간 언어적 방식의 개념 표현 추론과의 통합 다언어간 번역 31/33 기계 번역15/16 실례형 기계 번역 방식(EBMT) 어떤 문장과 비슷한 문장은 원래의 문장과 주 로 비슷한 구조나 의미로 번역된다는 기본 원 리에 입각 Swimming is good for you. Vegetables are good for you. > 야채는 몸에 좋다. Swimming is good for you. > 수영은 몸에 좋 다. 32/33 기계 번역16/16 자연언어 개개 단어의 개별성과 방대한 다의성 소수의 추상화된 규칙 집합의 한계 풍부한 실례와 용례를 이용하는 것이 유효할 것 33/33