3D Object Recognition
Download
Report
Transcript 3D Object Recognition
한국연구재단 학제간 융합연구팀 주최
세미나
음성인식 기술을 이용한
일본 드라마 감성 분석
(Analysis of Japanese Drama
using Emotional Speech Recognition)
2011. 6. 10(금).
김성호
영남대학교 전자공학과
Outline
Introduction of emotional speech recognition
Related works and current status
Standard emotional recognition system
MFCC feature
Classification by SVM
Experimental results
Concusions
2
Introduction
Speech
Information in speech
A sequence of elementary acoustic symbols
Gender information, age, accent, speaker’s identity, health, and
emotion
Application of emotional speech recognition
Recently, increased attention in this area
융합과제: 반한 감정에 대한 정량적 분석에 도움.
Human-Robot interaction
Smart call-centers
Computer tutoring system
3
Related Works (2007-2008)
[J. Sidorova, 2007]
Feature: pitch, intensity, formant, harmonicity 116 dim.
Classifier: MLP (neural-network)
Number of emotions: 7 types (neutral, angry, disgusted, fear, joy,
surprise, sad)
Test DB: EMO-DB (Deutch) 80.67%
[T. Danisman, 2008]
Feature: MFCC, energy
Classifier: SVM (Support Vector Machine)
Number of emotions: 5 types (angry, happy, neutral, sad, surprise)
Test DB: DES-DB (Denmark) 67.6%
4
Related Works (2009-2011)
[M. Vondra, 2009]
[M. El Ayadi, 2011] Survey
Feature: F0, Intensity, MFCC
Classifier: GMM (Gaussian Mixture Model)
Number of emotions: 7 types
Test DB: EMO-DB (Deutch) 71.63%
Feature
Best feature is unknown.
Classifier
• HMM, GMM
• SVM, Neural Net, k-NN
Current performance
Speaker independent: around 50%
Speaker dependent: over 90%
5
Standard Method of Emotional Speech Recognition
Key algorithm
Feature extractor: MFCC
Classifier: SVM
Testing
acoustic files
MFCC
Recognized
emotions
Training
acoustic files
MFCC
SVM or
Nearest class mean classifier
6
Feature for Emotional Speech Recognition
Mel Frequency Cepstral Coefficients (MFCC)
Convey information of short time energy in frequency domain
Signal
Fourier transform
(frequency domain)
Mel Scale
Mapping the power spectrum
onto the mel scale
Take Log of powers at
each mel frequency
Hertz Scale
Take discrete Cosine transform
Final MFCC:
Amplitude of resulting spectrum
Mel scale: 사람이 차이를 느끼는
주파수 간격
7
Classifier: Support Vector Machine
Original SVM basically binary class classifier
Multiclass SVM use multiple SVMs and voting
Feature space
Learning:
Finding optimal classifier
Ex. y=ax+b
Recognition:
Performed by the learned
classifier
8
Classifier: Nearest Class Mean
Feature space
Recognition:
Finding nearest class
Learning:
Finding class means
9
Exp.1 on EMO Database
EMO DB
7 types (happy, angry, anxious, fearful, bored, disgusted, neutral)
10 kinds of sentences
10 people (male 5, female 5)
Language: Deutch
anger
happy
boredom
10
Recognition using Nearest Class Mean Classifier
Learning: 150 (randomly selected), test: 150
Recognition rate: 47.0%
11
Recognition using SVM
Recognition rate: 38.0%
SVM 보다 Nearest
Class Mean
Classifier가 우수함.
12
Exp2. 독일어로 학습 일본어 테스트
놀람
슬픔
기쁨
독일어와 일본어의 차이로
인해 인식이 불안정함.
13
Exp3. 일본어로 학습 일본어로 테스트
DB구성: 5개 감정, 57개 음성클립
(언덕 위의 구름 4화만 활용)
'neutral
'anger’
'happy’
‘surprise’
'sad'
14
인식결과: Nearest Class Mean Classifier 이용
56.7%
neutral
anger
happy
surprise
sad
15
인식결과: SVM 이용
neutral
86.6%
anger
happy
SVM 인식 기법이
더 우수함.
surprise
sad
16
Exp.4 확장 실험
학습: 158 음성 클립(1-4화, 2초/클립) 26,635x20dim
10회 반복(cross-validation, random sampling, 5000개
feature, 16ms/feature)
평균인식률: 92.85
neutral
anger
happy
surprise
sad
17
제1화 전체 음성 파일 분석 결과
불꽃놀이
헤어짐
neutral
anger
happy
surprise
sad
영어수업
순양함
감탄
세 주인공의 유년시절
나레이션 많음.
배경 음악 자주 있음.
18
surprise
제2화 전체 음성 파일 분석 결과
해군 훈련
세 주인공의 학창시절
나레이션 많음.
배경 음악 자주 있음.
19
surprise
제3화 전체 음성 파일 분석 결과
부친상, 회상,
나레이션
조선군대 파병
관련 관료 대화
청일전쟁 직전
나레이션 많음.
배경 음악 자주 있음.
20
surprise
제4화 전체 음성 파일 분석 결과
나레이션
육상전쟁
해상전쟁
종군기자
청일전쟁
나레이션 많음.
배경 음악 자주 있음.
21
제5화 전체 음성 파일 분석 결과
민비시해사건
소개(놀람)
미국 무도회
나이아가라폭포
관광(놀람)
청일전 승리 얘기
미국 방문
나레이션 많음.
22
제6화 전체 음성 파일 분석 결과
23
제7화 전체 음성 파일 분석 결과
해군교육
(anger)
문학인죽음
(sad)
장례식
(sad)
24
제8화 전체 음성 파일 분석 결과
25
제9화 전체 음성 파일 분석 결과
출항, 헤어짐
(sad)
전투
(anger)
전투
(anger)
26
결론
감성 언어 인식 기법 결론
MFCC 특징량 추출 및 인식기(SVM, Nearest mean class
classifier) 개발
독일어 7종 감정 인식 성능은 최대 47%임.
독일어 학습 일본어 감정 인식 성능은 매우 안좋음.
일본어 5종 감정 학습 일본어 감정 인식 최대 성능은 92.85%임.
‘언덕위의 구름’ 전체 음성 분석 결과
1-9화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서
감정이 일부 상관 관계가 있었지만, 배경 음악, 나레이션 등에 의해
무의미한 부분이 많음.
반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음.
27