자연언어처리(60분반 강의 노트)

Download Report

Transcript 자연언어처리(60분반 강의 노트)

자연언어처리
김민호
([email protected])
부산대학교 전자전기컴퓨터공학과
자연언어처리
• 자연언어(natural language)
• 인간이 일상적으로 사용하는 언어
• 한국어, 영어, 일본어, 중국어, 프랑스어 등
• 인공언어(artificial language)와 대비됨
• 자연언어처리(natural language processing)
• 인간이 보통 쓰는 언어를 컴퓨터에 인식시켜서 처리하는 일
• 정보검색, 질의응답 시스템, 기계번역, 음성인식, 음성합성 등
자연언어처리 단계
• 자연언어처리 단계
• 형태소 분석
• 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 받았다(받다/VV+았/EP+다/EF)
• 통사 분석
• 나는(S) 사과를(O) 받았다(V)
• 의미 분석
• 사과 = apple
• 사과 = apology
• 화용 분석
• 나는 사과를 받았다. 그것은 맛있었다.
자연언어처리의 어려움
• 중의성(ambiguity)
• 형태소 중의성
• 나는: 나+는, 날다+는, 나다+는
• 통사 중의성
• 아름다운 영희의 엄마
• 의미 중의성
• 눈이 맑다, 눈이 좋다, 눈이 정확하다, 눈을 의식하다
• 화용 분석
• 실세계와의 연결
• 고양이가 쥐를 쫓는다. 그게 열심히 도망간다.
• 고양이가 쥐를 쫓는다. 그게 열심히 쫓아간다.
의미 분석
• 어의 중의성 해소(Word Sense Disambiguation)
• 중의성 어휘가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업
나는 사과를 받았다.
나는 진정한 사과를 받았다. vs 나는 맛있는 사과를 받았다.
어의 중의성 해소의 필요성
• 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추
출하여 이용하려면 어의 중의성 해소가 필요함
• 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어원,
2002)
• 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함
• 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨
• 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨
어의 중의성 해소 대상
지식기반 WSD: 사전 뜻풀이
• 지식의 유형
• 기계 가독형 사전의 뜻풀이
• 중의성 어휘의 의미 결정 방식
• (a)와 (b) 사이에 중복되는 어휘가 가장 많은 의미
• (a) 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들
• (b) 문장에서 중의성 어휘의 공기 어휘의 사전 뜻풀이에 쓰인 어휘들
그 사람은 수술을 통해 불편한 다리를 고쳤다.
어휘
(a) 중의성
어휘
(b) 공기
어휘
사전 뜻풀이에 쓰인 어휘
다리 01
사람, 동물, 몸통, 신체, ….
다리 02
물, 건너다, 시설물, ….
사람
생각, 언어, 만들다, 쓰다, 사회, 살다, 동물, ….
수술
피부, 점막, 조직, 기계, 병, 고치다, ….
…
지식기반 WSD: 의미 범주
• 지식의 유형
• 시소러스 등의 의미 범주(semantic category)
• 중의성 어휘의 의미 결정 방식
• 중의성 어휘와 공기하는 어휘들이 가장 많이 속한 의미 범주를 가진 의미
• 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정
한다는 가정에 기반을 둔 방법
w1 w2 … bass …wn-1 wn
Word
bass
Sense
Roget’s
Thesaurus
musical senses
MUSIC
fish
ANIMAL
지식기반 WSD: 대응 어휘 쌍
• 지식의 유형
• 2개 국어로 된 사전(bilingual dictionary)에서 대응되는 어휘쌍
• 중의성 어휘의 의미 결정 방식
• 중의성 어휘가 포함된 구절을 이중어 사전을 이용해 각각의 의미에 따
라 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역
구절의 의미를 선택함
사과를 먹다
어휘
사과
의미
영어 번역
apple
eat an apple
apology
eat an apology
말뭉치 기반 WSD: 의미 부착 말뭉치
• 감독(Supervised) WSD
• 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법
• WSD 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습
기법을 적용하여 해결
• Naïve Bayes
• Decsion Tree
• Supprot Vector Machine
Naïve Bayes for WSD
정보검색(Information retrieval)
• Goal = find documents relevant to an information need from
a large document set
Info.
need
Query
Document
collection
Retrieval
IR
system
Answer list
Possible approaches
1.
2.
String matching (linear search in documents)
Slow
Difficult to improve
Indexing (*)
- Fast
- Flexible to further improvement
Indexing-based IR
Document
Query
indexing
Representation
(keywords)
indexing
(Query analysis)
Query
evaluation
Representation
(keywords)
Indexing
• Indexing 단위
• 음절, 형태소, 단어 등
• N-gram
질의어 확장
• 동의어/유의어 확장
• 맞춤법/문법 오류 교정
• 로마자 표기 변환