3D Object Recognition

Download Report

Transcript 3D Object Recognition

한국연구재단 학제간 융합연구팀 주최
세미나
음성인식 기술을 이용한
일본 드라마 감성 분석
(Analysis of Japanese Drama
using Emotional Speech Recognition)
2011. 6. 10(금).
김성호
영남대학교 전자공학과
Outline



Introduction of emotional speech recognition
Related works and current status
Standard emotional recognition system




MFCC feature
Classification by SVM
Experimental results
Concusions
2
Introduction

Speech


Information in speech


A sequence of elementary acoustic symbols
Gender information, age, accent, speaker’s identity, health, and
emotion
Application of emotional speech recognition





Recently, increased attention in this area
융합과제: 반한 감정에 대한 정량적 분석에 도움.
Human-Robot interaction
Smart call-centers
Computer tutoring system
3
Related Works (2007-2008)

[J. Sidorova, 2007]





Feature: pitch, intensity, formant, harmonicity  116 dim.
Classifier: MLP (neural-network)
Number of emotions: 7 types (neutral, angry, disgusted, fear, joy,
surprise, sad)
Test DB: EMO-DB (Deutch)  80.67%
[T. Danisman, 2008]




Feature: MFCC, energy
Classifier: SVM (Support Vector Machine)
Number of emotions: 5 types (angry, happy, neutral, sad, surprise)
Test DB: DES-DB (Denmark)  67.6%
4
Related Works (2009-2011)

[M. Vondra, 2009]





[M. El Ayadi, 2011] Survey



Feature: F0, Intensity, MFCC
Classifier: GMM (Gaussian Mixture Model)
Number of emotions: 7 types
Test DB: EMO-DB (Deutch)  71.63%
Feature
 Best feature is unknown.
Classifier
• HMM, GMM
• SVM, Neural Net, k-NN
Current performance


Speaker independent: around 50%
Speaker dependent: over 90%
5
Standard Method of Emotional Speech Recognition

Key algorithm


Feature extractor: MFCC
Classifier: SVM
Testing
acoustic files
MFCC
Recognized
emotions
Training
acoustic files
MFCC
SVM or
Nearest class mean classifier
6
Feature for Emotional Speech Recognition

Mel Frequency Cepstral Coefficients (MFCC)

Convey information of short time energy in frequency domain
Signal
Fourier transform
(frequency domain)
Mel Scale
Mapping the power spectrum
onto the mel scale
Take Log of powers at
each mel frequency
Hertz Scale
Take discrete Cosine transform
Final MFCC:
Amplitude of resulting spectrum
Mel scale: 사람이 차이를 느끼는
주파수 간격
7
Classifier: Support Vector Machine


Original SVM  basically binary class classifier
Multiclass SVM  use multiple SVMs and voting
Feature space
Learning:
Finding optimal classifier
Ex. y=ax+b
Recognition:
Performed by the learned
classifier
8
Classifier: Nearest Class Mean
Feature space
Recognition:
Finding nearest class
Learning:
Finding class means
9
Exp.1 on EMO Database

EMO DB




7 types (happy, angry, anxious, fearful, bored, disgusted, neutral)
10 kinds of sentences
10 people (male 5, female 5)
Language: Deutch
anger
happy
boredom
10
Recognition using Nearest Class Mean Classifier

Learning: 150 (randomly selected), test: 150
Recognition rate: 47.0%
11
Recognition using SVM

Recognition rate: 38.0%
SVM 보다 Nearest
Class Mean
Classifier가 우수함.
12
Exp2. 독일어로 학습  일본어 테스트

놀람


슬픔
기쁨
 독일어와 일본어의 차이로
인해 인식이 불안정함.
13
Exp3. 일본어로 학습  일본어로 테스트

DB구성: 5개 감정, 57개 음성클립
(언덕 위의 구름 4화만 활용)
'neutral
'anger’
'happy’
‘surprise’
'sad'
14
인식결과: Nearest Class Mean Classifier 이용
56.7%
neutral
anger
happy
surprise
sad
15
인식결과: SVM 이용
neutral
86.6%
anger
happy
 SVM 인식 기법이
더 우수함.
surprise
sad
16
Exp.4 확장 실험


학습: 158 음성 클립(1-4화, 2초/클립) 26,635x20dim
10회 반복(cross-validation, random sampling, 5000개
feature, 16ms/feature)

평균인식률: 92.85
neutral
anger
happy
surprise
sad
17
제1화 전체 음성 파일 분석 결과
불꽃놀이
헤어짐
neutral
anger
happy
surprise
sad
영어수업
순양함
감탄



세 주인공의 유년시절
나레이션 많음.
배경 음악 자주 있음.
18
surprise
제2화 전체 음성 파일 분석 결과
해군 훈련



세 주인공의 학창시절
나레이션 많음.
배경 음악 자주 있음.
19
surprise
제3화 전체 음성 파일 분석 결과
부친상, 회상,
나레이션



조선군대 파병
관련 관료 대화
청일전쟁 직전
나레이션 많음.
배경 음악 자주 있음.
20
surprise
제4화 전체 음성 파일 분석 결과
나레이션



육상전쟁
해상전쟁
종군기자
청일전쟁
나레이션 많음.
배경 음악 자주 있음.
21
제5화 전체 음성 파일 분석 결과
민비시해사건
소개(놀람)



미국 무도회
나이아가라폭포
관광(놀람)
청일전 승리 얘기
미국 방문
나레이션 많음.
22
제6화 전체 음성 파일 분석 결과
23
제7화 전체 음성 파일 분석 결과
해군교육
(anger)
문학인죽음
(sad)
장례식
(sad)
24
제8화 전체 음성 파일 분석 결과
25
제9화 전체 음성 파일 분석 결과
출항, 헤어짐
(sad)
전투
(anger)
전투
(anger)
26
결론

감성 언어 인식 기법 결론





MFCC 특징량 추출 및 인식기(SVM, Nearest mean class
classifier) 개발
독일어 7종 감정 인식 성능은 최대 47%임.
독일어 학습  일본어 감정 인식 성능은 매우 안좋음.
일본어 5종 감정 학습  일본어 감정 인식 최대 성능은 92.85%임.
‘언덕위의 구름’ 전체 음성 분석 결과


1-9화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서
감정이 일부 상관 관계가 있었지만, 배경 음악, 나레이션 등에 의해
무의미한 부분이 많음.
반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음.
27