한국어 구문분석에서 전자사전의 구축과 활용

Download Report

Transcript 한국어 구문분석에서 전자사전의 구축과 활용

한국어 구문분석에서 전자사전의
구축과 활용
정세광
1
목 차
구문분석의 정의
구문분석의 과정
사전의 표제어 정보
사전의 종류
사전 활용 방안




명사구 분석
논항 분석
양태 분석
생략 성분 복원
2
구문분석의 정의
형태소의 통사적 쓰임과 형태소들 사이의 통
사적 관계를 기반하여 문장의 구조와 양태를
분석

양태(modality): 명제에 관련된 것 외에 시제,
상, 서법 등 문장이 갖는 모든 문법 범주
3
구문분석의 과정
인간의 구문 분석


형태소의 목록 및 문법 정보(Lexicon)
문장을 구성하는 규칙(Rule)
컴퓨터 구문 분석


전자 사전
분석 규칙
4
사전의 표제어 정보
정보 종류
음운 정보
형태 정보
통사 정보
의미 정보
하위 정보
예
발음 정보
물고[꼬]기/불고[고]기
음소 배열 정보
잡-(양성 모음, 받침)/먹-(음성 모음, 받침)
형태 범주 정보
먹-(어근)/-고(접사, 어미)
형태 결합 정보
-는(모음으로 끝나는 명사에 결합)
항목 고유 정보
쉽-(ㅂ불규칙)/묻-(ㄷ불규칙)
통사 범주 정보
책(명사)/오르-(동사)
논항 관련 정보
읽-(타동사)/가-(자동사)
의미 부류 정보
책상(일반, -animate)/이순신(고유, +animate)
고유 의미 정보
책(book)/먹-(eat)
5
사전의 종류
형식적 표지(형태)를 기반으로 함
어근 사전
 표제어: 어휘 형태소
 복합명사는 최대한 표제어로 등록
 의미 부류 정보가 중요
접사 사전
 표제어: 문법 형태소
 형태 결합 정보가 중요
 구문 분석보다는 형태소 분석에 유용
관용어 사전
 표제어: 2어절 이상의 관용 표현
6
명사구 분석과 사전 활용(1)
구조에 따른 중의성 발생

명사의 관형격형+용언의 관형사형+명사


영희의 예쁜 손 -> 중의성 미발생
용언의 관형사형+명사의 관형격형+명사

짧은 영희의 치마 -> 중의성 발생!!
[[짧은 영희의] 치마]
[짧은 [영희의 치마]]
=> 의미 부류 정보를 이용한 중의성 해소
7
명사구 분석과 사전 활용(2)
선행 어절에 의한 내적 구조의 변화
[길이가 짧은 [영희의 치마]]
O [[길이가 짧은 영희의] 치마]
X
[머리가 짧은 [영희의 치마]]
X [[머리가 짧은 영희의] 치마]
O
[다리가 짧은 [영희의 친구]]
O [[다리가 짧은 영희의] 친구]
O
후행 어절에 의한 내적 구조의 변화
[[내가 좋아하는 영희의] 친구]
O [내가 좋아하는 [영희의 친구]]
O
[[내가 좋아하는 사람의] 친구]
O [내가 좋아하는 [사람의 친구]]
X
두 명사가 ‘와’로 대등 구성된 명사구
[[끊임없는 변화와] 발전]
O [끊임없는 [변화와 발전]]
O
[[구사하는 언어와] 발전]
O [구사하는 [언어와 발전]]
X
8
논항 분석과 사전 활용(1)
명사구 문법적 기능 추론이 어려운 경우

보조사가 결합된 경우



철수까지 오지 않았다.
(논항)
두 시까지 오셔야 합니다. (부가어)
조사가 생략된 경우

철수 밥 잘 먹니?
=> 명사(의미 부류 정보)와 서술어(논항 정보와
의미 부류 정보)의 문법 정보를 이용하여 중
의성 해소
9
논항 분석과 사전 활용(2)
명사의 의미 부류 정보를 이용한 결합 명사구
의 구조 도출

선, 후행 명사를 고려해야 하는 경우




나는 철수와 극장에 갔다.
나는 식당과 도서관에 갔다.
나는 철수와 영희를 만났다.
주어인 명사와 서술어로 쓰인 용언을 고려해야
하는 경우


나는 철수와 영희를 만났다.
나는 철수와 영희를 좋아한다.
10
양태 분석과 사전 활용(1)
양태는 어미와 공기하는 형태소로 결정



‘-는-’: 현재, 현재 진행
‘-었-’: 과거, 현재 완료
‘-겠-’: 의지, 미래, 추측
공기하는 형태소를 배제한 어미의 양태 추정

‘-는-’: 용언의 의미 부류 정보로 결정



철수는 학교에 간다. (현재 진행)
철수는 학교에 다닌다. (현재)
‘-겠-’: 복문에서 연결어미로 결정*

그 걸 먹느니 (차라리) 굶겠다. (의지)
11
양태 분석과 사전 활용(2)
다중 양태

서법의 변이
‘-어 있다’, ‘-고 있다’는 상
태와 진행의 양태를 가짐


철수는 고양이를 잡고 있다.
철수는 영희의 손을 잡고 있다.
철수는 빨간 넥타이를 매고 있다.
의문문에 ‘어서’가 공기하면
명령문으로 분석
명령문에 ‘-어라’ 와 공기하
는 선행 용언에 따라



진행
진행+상태
먹다, 앉다
매다, 두르다
‘피곤하다 + 어라’: 감탄
‘건강하다 + 어라’: 기원
‘행복하다 + 어라’: 감탄, 기
원
잡다, 덮다
12
생략 성분 복원과 사전 활용(1)
생략 성분의 복원은 정도의 문제
체언의 의미 정보, 용언의 논항 정보와 의미
정보 등 구성 성분의 문법 정보를 활용하여
복원




먹이를 먹습니다.
비쌉니다.
철수를 만났겠습니다.
꽃이 예쁘다고 말했다.
13
생략 성분 복원과 사전 활용(2)
이어진 문장의 생략 주어 복원

연결어미의 정보를 활용

‘-느니, -고’: 일반적으로 주어 동일


‘-고 해서’: 일반적으로 주어 다름


밥을 먹고 학교에 갔다.
머리가 아프다고 해서 약을 사 주었다.
‘-을 때’


집에 있을 때 들르세요.
학교에 갈 때 들르세요.
14