Transcript 연구방법
인지신경기반 한국어 정보처 리모형 개발 남기춘 고려대학교 심리학과 연구 목표 연구최종목표 활용 분야 응용 연구 언어교육시 스템 연구개발의 최종 목표 언어장애 재활보조 시스템 자연언어 처리 시스템 인지 신경기반 한국어 형태, 구문정보처리기 (1) 정상인과 실어증 환자를 대상으로 형태소/구문 정보처리 모형 규명 뇌 정보처리 기반 연어이해 생성모형 기반 연구 - 인지신경과학 연구에 따른 형태소 와 구문정보처리 자료를 기반으로 정상 뇌와 손상 뇌 모형을 구축하고, 교육과 언 어재활을 위한 한국어 형태소 및 구문 분 석/생성 시스템 개발 정상뇌 모형 (2) 언어처리에 관련된 손상 뇌 모형 개발 손상뇌 모형 (3) 대뇌 형태소 및 구문 정보처리 모형에 기초한 전산 모형 개발 정상뇌 연구 - 형태, 구문 지식표상 - 언어정보처리 시스템 구조 - 형태, 구문연구 패러다임 개발 손상뇌 연구 - 언어장애평가모형개발 - 언어장애 DB구축 - Brain Mapping 연차별 연구 목표 구분 연구 개발 목표 연구개발 내용 심성 어휘집의 언어 지식 표상 규명 1차년도 (2001) 언어 이해 /생성 모형 규명 인간의 형태 ᆞ 구문 분석 메커니즘 규명 인간의 형태 ᆞ 구문 생성 메커니즘 규명 형태 ᆞ 구문에 관련된 대뇌 영역 규명 인지신경기반 전자 사전 ᆞ구조 설계 및 개발 2차년도 (2002) 언어 이해/생성 계산주의 모형 시뮬레이션 계산주의 어절 ᆞ 구문 분석 모형 시뮬레이션 계산주의 어절 ᆞ 구문 생성 모형 시뮬레이션 손상 뇌의 계산주의 모형 시뮬레이션 연차별 연구 목표 구분 연구 개발 목표 연구개발 내용 인간의 정보처리 모형에 기반한 전자 사전 구축 3차년도 (2003) 언어 신경 계산 한국어 형태 ᆞ구문 정보처리기 설계 인지신경계산주의 어절 ᆞ 구문 분석기 설계 및 개발 인지신경계산주의 어절 ᆞ 구문 생성기 설계 및 개발 연구 범위 및 연구 방법 연구범위 연구수행방법 (이론적ᆞ실험적 접근방법) 구체적인 내용 심성어휘집의 언어지식 표상 규명 실험 심리학적 접근 • 언어표상 이론 체계화 • 언어처리모형 개발 인간의 형태ᆞ구문분석/ 생성 메커니즘 규명 컴퓨터 시뮬레이션 • 형태구문의 DB 구축 및 전산 화 • 컴퓨터 시뮬레이션 형태 ᆞ 구문에 관련된 대뇌 영 역 규명 언어영역과 대뇌영역의 상관연구 •실어증 환자 인터뷰 및 진단 fMRI/MEG 영상획득 및 판독 중의어의 형태소 표상양식(1/3) 미가 활성화 되는가 일부분만 활성화 되는가? 재료 용언 체언 관련 적을-연필 적을-전쟁 무관련 얼굴이-연필 얼굴이-전쟁 결과 * * 705 700 699 695 반응시간(ms) 실험1 : 어근 또는 전체 어절의 여러의 690 690 체언 용언 685 682 680 679 675 670 665 관련 실험2 : 어근이 중의어 이나 어절전체는 결과 한가지 의미를 가지게 될 때 의미 활성화는 어떻게 일어나는가 ? 체언 관련 쥐어-주먹 쥐어-고양이 무관련 밝어-주먹 실천-고양이 * 660 660 650 반응시간 (ms) 용언 재료 670 무관련 640 630 620 632 630 체언 용언 619 610 600 590 결론 및 논의 관련 무관련 체언과 용언의 의미를 가지는 중의적 어절은 어절전체로 표상되어있음(full-list) SOA에 따른 차이를 보임(1000ms),실어증 환자들은 서로 다른 결과를 보임 복합어의 형태소 표상양식(2/3) 실험 : 복합어의 의미처리는 어절 전체 인가 하위형태소로 분석 후 각각의 의미에 접 근한 후 이루어 지는가 ? 재료 종류 예 종류 예 대등 종속 논밭 손발 융합 장미꽃 앞길 신조어 콩밥 밤낮 노래방 국민연금 실험3 결과 융합복합어의 의미점화 반응시간(ms) 670 665 666 668 667 660 655 전체 부분 655 실험1 결과 빈도와의 상관 전체단어 빈도 앞단어의 빈도 뒷단어의 빈도 대등 -0.10 -0.15 0.34 종속 0.05 -0.14 0.04 융합 -0.13 0.18 0.00 -0.34 -0.29 신조어 실험2 결과 반복점화 효과 전체(논밭-논) 부분(논-논) 통제(숨통-논) 대등 513(50) 481(58)* 576(82)** 종속 501(29) 468(37)* 579(95)** 융합 515(30) 478(53)* 580(90)** 신조어 526(37) 476(34)* 591(44)** 650 645 관련 결론 및 논의 무관련 * 전체조건과 유의미 ** 전체와 부분조건과 각각 유의미 복합어 특히 융합어의 경우 어절전체로 표상되어 처리됨 복합어의 형태소 표상양식(3/3) 실험 : 이전 실험에서는 복합어의 의 미처리는 어절전체 인가 하위형태소로 분석 후 각각의 의미에 접근한 후 이루 어 지는가에 대한 통제 조건이 없었음 통제 조건을 추가하여 실험 추가실험결과 반복점화 효과 재료 종류 예 종류 예 대등 논밭 손발 융합 콩밥 밤낮 종속 장미꽃 앞길 신조어 노래방 국민연금 실험결과 650 반응시간(ms) 600 550 500 576 513 481 501 468 591 580 579 515 478 526 476 450 400 350 300 대등 종속 융합 신조어 결론 및 논의 복합어 특히 융합어의 경우 어절전체로 표상되어 처리됨 전체, 부분, 통제 조건이 유의미하게 차이남. ‘논밭’,’논’을 다른 단어로 인식. 전체목록 가설 지지 부분(논-논) 전체(논밭-논) 통제(숨통-논) 동사 선어말어미의 처리 및 표상(1/3) 연구결과(150SOA, 750SOA) • 연구목적 - decomposition 가정이라면, prime의 선어말어미와 target의 선 어말어미가 기능적으로 같은 경우 통제조건에 비해 촉진효과가 있을 것임. 반응시간 615 600 585 570 • 연구방법 – LDT 555 (덜었니-감았다) (졸았니-감았다) (달아라-감았다) (감식초-감았다) 일치 이형태 통제 형태일치 반응시간 실험조건 prime Target 630 615 선어말어미 일치조건 덜었니 감았다 600 선어말어미 이형태조건 졸았니 감았다 통제조건 달아라 감았다 585 570 555 선어말어미무관,형태일치조건 감식초 감았다 (덜었니-감았다) (졸았니-감았다) (달아라-감았다) (감식초-감았다) 일치 이형태 통제 형태일치 동사 연결어미의 표상 및 처리 (2/3) 연구결과 및 의의 • 연구목적 - 동사의 연결어미와 어간간의 표 상의 유형[decomposition or fulllist] 한국어 동사의 표상 기본 단위에 관한 시사점[어간]+[어미]보다는 [어간+선어말어미] + [어미] 640 • 연구방법 150SOA 750SOA 630 - lexical decision task 620 실험조건 prime Target 일치조건 덜고 감고 610 이형태조건 졸아 감고 600 통제조건 닫지 감고 590 기능무관,형태일치 장고 감고 580 덜고-감고 졸아-감고 닫지-감고 장고-감고 동사 피동접사 처리 및 표상 (3/3) • • 연구결과(150SOA, 750SOA) 연구목적 - 피동사(어근+파생접사)의 경우 선행 연구의 ‘선어말어미’의 결과와 유사한 지 ‘연결어미’의 결과와 유사한지 알아 보고자 함. 연구방법 – LDT 반응시간(1 5 0 S O A) 636 634 632 630 628 • 연구결과: ‘선어말어미’와 유사함. 어간과 접사가 따로 저장되었다기 보 다는 ‘어간+접사”의 형태로 심성어휘 집에 저장되어 있는 것으로 보인다. 626 624 622 (꽂히고-감기다) (뺏기고-감기다) 이형태 (삶아라-감기다) 통제 (합기도-감기다) 형태일치 반응시간(7 5 0 S O A) 실험조건 prime Target 640 635 피동접사 일치조건 꽂히고 감기다 피동접사 이형태조건 뺏기고 감기다 630 625 620 615 610 통제조건 삶아라 감기다 605 600 595 피동접사무관,형태일치조건 합기도 감기다 (꽂히고-감기다) (뺏기고-감기다) (삶아라-감기다) (합기도-감기다) 일치 이형태 통제 형태일치 한국어 용언의 형태소 정보처리 특성 연구목적: 한국어 용언은 어떠한 형태로 심성 어휘집에 접근하는가 실험 1 결과> 어절빈도와 어간 빈도, 어휘판단시간간의 상관관계분석 연구방법: 실험 1> - 규칙용언과 불규칙 용언 39개, 통제 단어 40개, 비단어 48개. 어휘판단 과제. - 정상인 대상 실험 2> - 실험방법은 실험 1과 동일. - 실어증 및 실행증 환자 YWO, 명칭성 실어증 환자 S 연구결과 • 정상인은 규칙용언은 어간과 어미로 나누어서 인식 하는 과정과 하나로 인식하는 과정이 혼재되어 있으 나 불규칙용언은 어절을 분석하여 개개의 형태소로 분석하지 않고 어절을 통째로 인식 • 실어증 환자는 정상인과 다른 결과 보여줌. 특히 이 해성 실어증 환자는 어간이나 어절빈도와 부적상관 을 보이지 않는 것으로 보아 형태소 분석 단계에 문 제가 있는 것으로 볼 수 있다. 어절 규칙 용언 어절 불규칙 용언 어절 어간 어간 어간 반응시 간 .773 -.441 .773 -.374 .356 .356 -.403 -.040 실험 2 결과> 환자 S - 규칙용언으 어절, 어간빈도와 반응시간간에 역관계. 어간빈도와 어절빈도의 효과가 유의미. - 불규칙 용언은 어간빈도와 반응시간간에 역관계, 어간 과 어절빈도의 상관은 0.67. 두 효과가 유의미하지는 않 았지만 경향성은 있었음 환자 YWO - 어절빈도와 반응시간은 높은 정적 상관관계(.878), 어 간빈도와 반응시간은 낮은 부적상관관계(-.053) -불규칙 용언은 반응시간과 어절빈도, 어간빈도 역관계 단어 규칙성 효과의 위치 • • • 실험 1> 명명과제의 경우 단어규칙성 효과가 심 성 어휘집에 접근할 때 생기는 것인지 명명과제 의 특성상 조음 할 때 생기는 것인지 알아보기 위함. 고빈도 저빈도 음변화 무 475(134) 465(134) 음변화 유 478(130) 480(137) 실험 3> 단어규칙성 효과가 일시적인 것인 지 지속적인 것인지 알기 위해서 단어 반복 효과를 이용한 반복명명실험 점화단어 결과> 아이템별 분석에서 음변화만이 유의미 (F(1,29))=5.4, p< .05). 실험 2> 순수한 점화-어휘 판단과제로 심성어휘집 에 접근시 규칙성 효과 알아봄 저빈도 • • 반복단어 고빈도 저빈도 고빈도 저빈도 음변화 무 532 (80) 535 (85) 523 (80) 518 (81) 음변화 무 539 (94) 552 (101) 527 (84) 530 (98) 고빈도 관련 무관련 관련 무관련 음변 화무 627 (104) 635 (116) 625 (108) 633 (107) 음변 화무 642 (116) 646 (119) 632 (110) 634 (112) 결과> 피험자 분석에서 빈도 (F(1,46))=7.962, p< .05), 음변화 (F(1,29))=6.188, p< .05) 유의미. 관 련성과 음변화간의 거의 유의미한 상호작용 (F(1,29))=3.694, p< .05). • 결과> 점화자극의 경우 피험자별 분석시에 음변화 (F(1,25))=6.990, p< .05) 에서 규칙성 효과, 목표단어의 경우 빈도 (F(1,25))=8.228, p< .01), 음변화 (F(1,25))=5.030, p< .05) 에 서 유의미한 차이 보임. • 종합논의> 한국어에서 단어 규칙성 효과는 심성어휘집에 접근할 때나 조음할 때에 모두 나타나며 그 효과는 지속적인 것으로 보임 한국어 단어산출 및 문장 산출에 관한 대뇌 표상 연구 연구 목적 : 한국어 단어 산출과 문장산출 에 관련된 대뇌 영역 확인 및 비교 Stimulus Picture Naming Task 연구 방법 : Event-related fMRI (과학원 fMRI Center, ISOL forte 3T). SPM99 실험 1 : Picture Naming Task > Control task(무의미한 도형 보고 의성어 반복하 기) 결과 : left Broca’s area(BA 44) dorsolateral prefrontal inferior gyrus(BA 6), bilateral occipital lobe, superior temporal gyrus 실험 2 : Sentence Production Task > Control task 결과 : left Broca’s area(BA 44) dorsolateral prefrontal gyrus(BA 6) are more activated in sentence production than in Picture Naming condition 종합 논의 : 단어 산출과 문장 산출에 관 한 대뇌 영역을 확인할 수 있었음. Stimulus Sentence Producing Task 한국어 체언과 용언의 표상구조 연구목적 연구결과 및 의의 [정상인을 대상으로 체언과 용언 의 의미표상 차이를 추론.] 체언과 용언의 의미표상 구조의 차이 시사 연구방법 - 설문지 구성 - 실험참가자는 해당 문항을 보았을 때 떠오르는 단어를 순서적으로 작 성하게 함. 120 100 80 빈도(%) - 연관 연구에 대한 기초 연구 - 컴퓨터 시뮬레이션과의 결과비교 - 체언과 용언의 세부 하위 범주(의 미적, 통사적)의 표상구조 차이 - 연접빈도와 표상구조간의 상관 체언 용언 60 40 20 0 하위 수평(동의어) 상위 표상구조 연접가능성 심성어휘집의 한국어 어절의 표상 구조(1/3) • 한국어 어절 재인에 관련된 현상 – – – – 한국어 어절의 full-list 표상 구조 길이 효과 : 자소 또는 음절의 길이가 긴 단어일수록 재인 시간이 길어짐. 빈도 효과 : 같은 길이의 어절인 경우 저빈도 단어의 재인 시간이 길어짐. 사람의 경우 특정 접두사로 시작하는 어절의 생산성이 매우 높음 • 한국어 어절 재인 현상을 설명할 수 있는 어절 표상 구조 제안 – – – – 학습자의 학습량에 따른 음절 및 어절 빈도에 따라 정렬된 TRIE 사전 구조 어절의 빈도, 길이 효과, 접두 어절의 생산성의 설명 가능 한국어 학습자의 어절 및 형태소 학습 원리 설명 한국어 어절정보처리의 이중모형 제안 한국어 어절 정보처리 모형 (2/3) LEXICAL PROCESSING SIMULATION MODEL WORD DIC. input Pre-processing Flag Decomposition Morphologi cal DIC. Licensi ng OUT-PUT 심성어휘집의 한국어 어절의 표상 구조 (3/3) ㅎ ㄷ ㅗ ㄱ ㄴ ㅕ ㄱ ㅇ Fil ㅇ ㅈ ㅅ ㅂ ㅛ ㅏ ㅓ ㅠ FIL ㅁ ㅏ ㅁ ㅅ ㅏ …. ㄴ …. • ㅇ ㅗ ㄱ Fil ㅅ … ㅏ ㄴ ㅇ …. ㄱ ㅕ ㄹ ㅣ ㅈ ㅗ ㅁ ㄹ …. 기존 전자 사전구조와 제안된 사전 구조간의 비교 탐색시간 삽입삭제 어절의 생산성 빈도효과 길이효과 B-tree 빠름 용이 X X X Hash 매우 빠름 어려움 X X X FST 매우 빠름 어려움 X X X TRIE 빠름 용이 O X O 제안된 TRIE 빠름 용이 O O O