연구방법

Download Report

Transcript 연구방법

인지신경기반 한국어 정보처
리모형 개발
남기춘
고려대학교 심리학과
연구 목표
연구최종목표
활용
분야
응용
연구
언어교육시
스템
연구개발의 최종 목표
언어장애
재활보조
시스템
자연언어
처리
시스템
인지 신경기반 한국어 형태,
구문정보처리기
(1) 정상인과 실어증 환자를
대상으로 형태소/구문 정보처리
모형 규명
뇌 정보처리 기반 연어이해 생성모형
기반
연구
- 인지신경과학 연구에 따른 형태소
와 구문정보처리 자료를 기반으로 정상
뇌와 손상 뇌 모형을 구축하고, 교육과 언
어재활을 위한 한국어 형태소 및 구문 분
석/생성 시스템 개발
정상뇌 모형
(2) 언어처리에 관련된 손상 뇌
모형 개발
손상뇌 모형
(3) 대뇌 형태소 및 구문 정보처리
모형에 기초한 전산 모형 개발
정상뇌 연구
- 형태, 구문 지식표상
- 언어정보처리 시스템
구조
- 형태, 구문연구
패러다임 개발
손상뇌 연구
- 언어장애평가모형개발
- 언어장애 DB구축
- Brain Mapping
연차별 연구 목표
구분
연구 개발 목표
연구개발 내용
심성 어휘집의 언어 지식 표상 규명
1차년도
(2001)
언어 이해
/생성 모형
규명
인간의 형태 ᆞ 구문 분석 메커니즘 규명
인간의 형태 ᆞ 구문 생성 메커니즘 규명
형태 ᆞ 구문에 관련된 대뇌 영역 규명
인지신경기반 전자 사전 ᆞ구조 설계 및 개발
2차년도
(2002)
언어 이해/생성
계산주의 모형
시뮬레이션
계산주의 어절 ᆞ 구문 분석 모형 시뮬레이션
계산주의 어절 ᆞ 구문 생성 모형 시뮬레이션
손상 뇌의 계산주의 모형 시뮬레이션
연차별 연구 목표
구분
연구 개발 목표
연구개발 내용
인간의 정보처리 모형에 기반한 전자 사전 구축
3차년도
(2003)
언어 신경 계산
한국어 형태 ᆞ구문
정보처리기 설계
인지신경계산주의 어절 ᆞ 구문 분석기 설계 및 개발
인지신경계산주의 어절 ᆞ 구문 생성기 설계 및 개발
연구 범위 및 연구 방법
연구범위
연구수행방법
(이론적ᆞ실험적 접근방법)
구체적인 내용
심성어휘집의 언어지식 표상
규명
실험 심리학적 접근
• 언어표상 이론 체계화
• 언어처리모형 개발
인간의 형태ᆞ구문분석/
생성 메커니즘 규명
컴퓨터 시뮬레이션
• 형태구문의 DB 구축 및 전산
화
• 컴퓨터 시뮬레이션
형태 ᆞ 구문에 관련된 대뇌 영
역 규명
언어영역과 대뇌영역의 상관연구
•실어증 환자 인터뷰 및 진단
fMRI/MEG 영상획득 및 판독
중의어의 형태소 표상양식(1/3)
미가 활성화 되는가 일부분만
활성화 되는가?
재료
용언
체언
관련
적을-연필
적을-전쟁
무관련
얼굴이-연필
얼굴이-전쟁
결과
*
*
705
700
699
695
반응시간(ms)
실험1 : 어근 또는 전체 어절의 여러의
690
690
체언
용언
685
682
680
679
675
670
665
관련
실험2 : 어근이 중의어 이나 어절전체는 결과
한가지 의미를 가지게 될 때 의미
활성화는 어떻게 일어나는가 ?
체언
관련
쥐어-주먹
쥐어-고양이
무관련
밝어-주먹
실천-고양이
*
660
660
650
반응시간 (ms)
용언
재료
670
무관련
640
630
620
632
630
체언
용언
619
610
600
590
결론 및 논의
관련
무관련
체언과 용언의 의미를 가지는 중의적 어절은 어절전체로 표상되어있음(full-list)
SOA에 따른 차이를 보임(1000ms),실어증 환자들은 서로 다른 결과를 보임
복합어의 형태소 표상양식(2/3)
실험 : 복합어의 의미처리는 어절
전체 인가 하위형태소로
분석 후 각각의 의미에 접
근한 후 이루어 지는가 ?
재료
종류
예
종류
예
대등
종속
논밭
손발
융합
장미꽃
앞길
신조어
콩밥
밤낮
노래방
국민연금
실험3 결과 융합복합어의 의미점화
반응시간(ms)
670
665
666
668
667
660
655
전체
부분
655
실험1 결과 빈도와의 상관
전체단어
빈도
앞단어의
빈도
뒷단어의
빈도
대등
-0.10
-0.15
0.34
종속
0.05
-0.14
0.04
융합
-0.13
0.18
0.00
-0.34
-0.29
신조어
실험2 결과 반복점화 효과
전체(논밭-논)
부분(논-논)
통제(숨통-논)
대등
513(50)
481(58)*
576(82)**
종속
501(29)
468(37)*
579(95)**
융합
515(30)
478(53)*
580(90)**
신조어
526(37)
476(34)*
591(44)**
650
645
관련
결론 및 논의
무관련
* 전체조건과 유의미
** 전체와 부분조건과 각각 유의미
복합어 특히 융합어의 경우 어절전체로 표상되어 처리됨
복합어의 형태소 표상양식(3/3)
실험 : 이전 실험에서는 복합어의 의
미처리는 어절전체 인가 하위형태소로
분석 후 각각의 의미에 접근한 후 이루
어 지는가에 대한 통제 조건이 없었음
통제 조건을 추가하여 실험
추가실험결과 반복점화 효과
재료
종류
예
종류
예
대등
논밭
손발
융합
콩밥
밤낮
종속
장미꽃
앞길
신조어
노래방
국민연금
실험결과
650
반응시간(ms)
600
550
500
576
513
481
501
468
591
580
579
515
478
526
476
450
400
350
300
대등
종속
융합
신조어
결론 및 논의
복합어 특히 융합어의 경우 어절전체로 표상되어 처리됨
전체, 부분, 통제 조건이 유의미하게 차이남.
‘논밭’,’논’을 다른 단어로 인식. 전체목록 가설 지지
부분(논-논)
전체(논밭-논)
통제(숨통-논)
동사 선어말어미의 처리 및 표상(1/3)
연구결과(150SOA, 750SOA)
• 연구목적
- decomposition 가정이라면,
prime의 선어말어미와 target의 선
어말어미가 기능적으로 같은 경우
통제조건에 비해 촉진효과가 있을
것임.
반응시간
615
600
585
570
• 연구방법 – LDT
555
(덜었니-감았다)
(졸았니-감았다)
(달아라-감았다)
(감식초-감았다)
일치
이형태
통제
형태일치
반응시간
실험조건
prime
Target
630
615
선어말어미 일치조건
덜었니
감았다
600
선어말어미 이형태조건
졸았니
감았다
통제조건
달아라
감았다
585
570
555
선어말어미무관,형태일치조건
감식초
감았다
(덜었니-감았다)
(졸았니-감았다)
(달아라-감았다)
(감식초-감았다)
일치
이형태
통제
형태일치
동사 연결어미의 표상 및 처리 (2/3)
연구결과 및 의의
• 연구목적
- 동사의 연결어미와 어간간의 표
상의 유형[decomposition or fulllist]
한국어 동사의 표상 기본 단위에 관한
시사점[어간]+[어미]보다는
[어간+선어말어미] + [어미]
640
• 연구방법
150SOA
750SOA
630
- lexical decision task
620
실험조건
prime
Target
일치조건
덜고
감고
610
이형태조건
졸아
감고
600
통제조건
닫지
감고
590
기능무관,형태일치
장고
감고
580
덜고-감고
졸아-감고
닫지-감고
장고-감고
동사 피동접사 처리 및 표상 (3/3)
•
•
연구결과(150SOA, 750SOA)
연구목적
- 피동사(어근+파생접사)의 경우 선행
연구의 ‘선어말어미’의 결과와 유사한
지 ‘연결어미’의 결과와 유사한지 알아
보고자 함.
연구방법 – LDT
반응시간(1 5 0 S O A)
636
634
632
630
628
•
연구결과: ‘선어말어미’와 유사함.
어간과 접사가 따로 저장되었다기 보
다는 ‘어간+접사”의 형태로 심성어휘
집에 저장되어 있는 것으로 보인다.
626
624
622
(꽂히고-감기다)
(뺏기고-감기다)
이형태
(삶아라-감기다)
통제
(합기도-감기다)
형태일치
반응시간(7 5 0 S O A)
실험조건
prime
Target
640
635
피동접사 일치조건
꽂히고
감기다
피동접사 이형태조건
뺏기고
감기다
630
625
620
615
610
통제조건
삶아라
감기다
605
600
595
피동접사무관,형태일치조건
합기도
감기다
(꽂히고-감기다)
(뺏기고-감기다)
(삶아라-감기다)
(합기도-감기다)
일치
이형태
통제
형태일치
한국어 용언의 형태소 정보처리 특성
연구목적: 한국어 용언은 어떠한 형태로 심성 어휘집에
접근하는가
실험 1 결과>
어절빈도와 어간 빈도, 어휘판단시간간의 상관관계분석
연구방법:
실험 1> - 규칙용언과 불규칙 용언 39개, 통제 단어
40개, 비단어 48개. 어휘판단 과제.
- 정상인 대상
실험 2> - 실험방법은 실험 1과 동일.
- 실어증 및 실행증 환자 YWO, 명칭성
실어증 환자 S
연구결과
•
정상인은 규칙용언은 어간과 어미로 나누어서 인식
하는 과정과 하나로 인식하는 과정이 혼재되어 있으
나 불규칙용언은 어절을 분석하여 개개의 형태소로
분석하지 않고 어절을 통째로 인식
•
실어증 환자는 정상인과 다른 결과 보여줌. 특히 이
해성 실어증 환자는 어간이나 어절빈도와 부적상관
을 보이지 않는 것으로 보아 형태소 분석 단계에 문
제가 있는 것으로 볼 수 있다.
어절
규칙
용언
어절
불규칙
용언
어절
어간
어간
어간
반응시
간
.773
-.441
.773
-.374
.356
.356
-.403
-.040
실험 2 결과>
환자 S
- 규칙용언으 어절, 어간빈도와 반응시간간에 역관계.
어간빈도와 어절빈도의 효과가 유의미.
- 불규칙 용언은 어간빈도와 반응시간간에 역관계, 어간
과 어절빈도의 상관은 0.67. 두 효과가 유의미하지는 않
았지만 경향성은 있었음
환자 YWO
- 어절빈도와 반응시간은 높은 정적 상관관계(.878), 어
간빈도와 반응시간은 낮은 부적상관관계(-.053)
-불규칙 용언은 반응시간과 어절빈도, 어간빈도 역관계
단어 규칙성 효과의 위치
•
•
•
실험 1> 명명과제의 경우 단어규칙성 효과가 심
성 어휘집에 접근할 때 생기는 것인지 명명과제
의 특성상 조음 할 때 생기는 것인지 알아보기
위함.
고빈도
저빈도
음변화 무
475(134)
465(134)
음변화 유
478(130)
480(137)
실험 3> 단어규칙성 효과가 일시적인 것인
지 지속적인 것인지 알기 위해서 단어 반복
효과를 이용한 반복명명실험
점화단어
결과> 아이템별 분석에서 음변화만이 유의미
(F(1,29))=5.4, p< .05).
실험 2> 순수한 점화-어휘 판단과제로 심성어휘집
에 접근시 규칙성 효과 알아봄
저빈도
•
•
반복단어
고빈도
저빈도
고빈도
저빈도
음변화
무
532
(80)
535
(85)
523
(80)
518
(81)
음변화
무
539
(94)
552
(101)
527
(84)
530
(98)
고빈도
관련
무관련
관련
무관련
음변
화무
627
(104)
635
(116)
625
(108)
633
(107)
음변
화무
642
(116)
646
(119)
632
(110)
634
(112)
결과> 피험자 분석에서 빈도 (F(1,46))=7.962,
p< .05), 음변화 (F(1,29))=6.188, p< .05) 유의미. 관
련성과 음변화간의 거의 유의미한 상호작용
(F(1,29))=3.694, p< .05).
•
결과> 점화자극의 경우 피험자별 분석시에
음변화 (F(1,25))=6.990, p< .05) 에서 규칙성
효과, 목표단어의 경우 빈도 (F(1,25))=8.228,
p< .01), 음변화 (F(1,25))=5.030, p< .05) 에
서 유의미한 차이 보임.
•
종합논의> 한국어에서 단어 규칙성 효과는
심성어휘집에 접근할 때나 조음할 때에 모두
나타나며 그 효과는 지속적인 것으로 보임
한국어 단어산출 및 문장 산출에 관한 대뇌 표상 연구
연구 목적 : 한국어 단어 산출과 문장산출
에 관련된 대뇌 영역 확인 및 비교
Stimulus
Picture Naming Task
연구 방법 : Event-related fMRI (과학원
fMRI Center, ISOL forte 3T). SPM99
실험 1 : Picture Naming Task > Control
task(무의미한 도형 보고 의성어 반복하
기)
결과 : left Broca’s area(BA 44)
dorsolateral prefrontal inferior
gyrus(BA 6), bilateral occipital lobe,
superior temporal gyrus
실험 2 : Sentence Production Task >
Control task
결과 : left Broca’s area(BA 44)
dorsolateral prefrontal gyrus(BA 6) are
more activated in sentence production
than in Picture Naming condition
종합 논의 : 단어 산출과 문장 산출에 관
한 대뇌 영역을 확인할 수 있었음.
Stimulus
Sentence Producing Task
한국어 체언과 용언의 표상구조
연구목적
연구결과 및 의의
[정상인을 대상으로 체언과 용언
의 의미표상 차이를 추론.]
체언과 용언의 의미표상 구조의 차이 시사
연구방법
- 설문지 구성
- 실험참가자는 해당 문항을 보았을
때 떠오르는 단어를 순서적으로 작
성하게 함.
120
100
80
빈도(%)
- 연관 연구에 대한 기초 연구
- 컴퓨터 시뮬레이션과의 결과비교
- 체언과 용언의 세부 하위 범주(의
미적, 통사적)의 표상구조 차이
- 연접빈도와 표상구조간의 상관
체언
용언
60
40
20
0
하위
수평(동의어)
상위
표상구조
연접가능성
심성어휘집의 한국어 어절의 표상 구조(1/3)
• 한국어 어절 재인에 관련된 현상
–
–
–
–
한국어 어절의 full-list 표상 구조
길이 효과 : 자소 또는 음절의 길이가 긴 단어일수록 재인 시간이 길어짐.
빈도 효과 : 같은 길이의 어절인 경우 저빈도 단어의 재인 시간이 길어짐.
사람의 경우 특정 접두사로 시작하는 어절의 생산성이 매우 높음
• 한국어 어절 재인 현상을 설명할 수 있는 어절 표상 구조 제안
–
–
–
–
학습자의 학습량에 따른 음절 및 어절 빈도에 따라 정렬된 TRIE 사전 구조
어절의 빈도, 길이 효과, 접두 어절의 생산성의 설명 가능
한국어 학습자의 어절 및 형태소 학습 원리 설명
한국어 어절정보처리의 이중모형 제안
한국어 어절 정보처리 모형 (2/3)
LEXICAL PROCESSING SIMULATION MODEL
WORD
DIC.
input
Pre-processing
Flag
Decomposition
Morphologi
cal DIC.
Licensi
ng
OUT-PUT
심성어휘집의 한국어 어절의 표상 구조 (3/3)
ㅎ
ㄷ
ㅗ
ㄱ
ㄴ
ㅕ
ㄱ
ㅇ
Fil
ㅇ
ㅈ
ㅅ
ㅂ
ㅛ
ㅏ
ㅓ
ㅠ
FIL
ㅁ
ㅏ
ㅁ
ㅅ
ㅏ
….
ㄴ
….
•
ㅇ
ㅗ
ㄱ
Fil
ㅅ
…
ㅏ
ㄴ
ㅇ
….
ㄱ
ㅕ
ㄹ
ㅣ
ㅈ
ㅗ
ㅁ
ㄹ
….
기존 전자 사전구조와 제안된 사전 구조간의 비교
탐색시간
삽입삭제
어절의 생산성
빈도효과
길이효과
B-tree
빠름
용이
X
X
X
Hash
매우 빠름
어려움
X
X
X
FST
매우 빠름
어려움
X
X
X
TRIE
빠름
용이
O
X
O
제안된 TRIE
빠름
용이
O
O
O