Node detection

Download Report

Transcript Node detection

A.I.Lab
형아영

기존의 산토끼 악보

WaveForm(산토끼_Male)

Mel-filterbank Coefficient

Preprocessing
◦ 끝점 검출(End-Point Detection) : STE, ZCR

Syllable Segmentation
◦ 음절에는 하나의 모음이 반드시 들어있고, 모음은 큰 에너지를 유지
◦ 에너지 곡선 : 음절의 수(단어)에 따른 에너지 펄스를 나타냄
◦ 모음 (formant) 부분 검출 : 지속시간이 60msec를 넘지않으면 잡음
(예: 에너지의 값이 40dB를 넘는 점이 생기면 모음부분의 시작으로 여기고
다시 40dB를 내려가는 점이 나오면 음절의 모음부분 찾게 됨)
- 모음의 시작과 끝 부분에 150msec 의 구간을 자음위치로 추정

Syllable Segmentation
◦ Fixed frame : 에너지 윤곽선 추출 → smoothing
◦ Pitch간격에서 최대값을 이용 : 음성의 최대값을 연결하여, deep을 경계로 예측

12음계의 어떤 음에 해당하는가? (옥타브)

Pitch Detection
◦ Peak spectrum : 피크 성분 추출(audio spectrum – smoothed spectrum)
◦ Pitch candidate selection : peak index 생성 → 해당 오디오 프레임 후보 피치
◦ Comb filtering : 후보 피치 들 중에서 대표 피치 값 결정(주파수 영역)
◦ 주파수 인덱스 : 12음계 단위(한 옥타브에 12개의 음을 배치)
◦ 인접한 두 개의 음은 일정한 비율의 주파수를 나타냄
α12 = 2, α=10log2/12 = 1.05943

Autocorrelation function 이용한 Pitch Detection

SIDE 알고리즘 이용(iteration = 200)
솔
미
도
레
파
높은 도

옥타브의 주파수와 음높이
◦ 실험 데이터 : 134~160(도), 142~151(레), 160~169(미), 174(파)
184~207(솔), 251~60(높은 도)

Intensity : 음성신호의 각 시간점의 값의 제곱
0.01 초 마다 데이터 추출(dB단위)
• 꼬마눈사람 Intensity
• 프로그램 수행 결과(30dB, 0.3초)
2
1
• 애국가 악보
• 애국가 Intensity
• 애국가 Intensity
• 프로그램 수행 결과(60dB, 0.3초)
4
3
5
1
7
2
6
↓
④
③
↓
⑤
①
⑦
②
↓
↓
⑥
②
⑤
③
④
①
↓
↓
③
④
②
①
④
③
①
↓
②
↓

절대음정
◦ 1옥타브 : 반음은 두 음 사이의 주파수라 가정(단위 Hz)
◦ SIDE 적용 후 주파수 표(남녀 각 1명)
성별
도
레
미
파
솔
라
시
도
남
126
143
161
173
195
216
244
264
여
260
299
333
350
393
439
494
523

절대음정 근사(approximation)
◦ 남성의 음정 모델을 이용
 산토끼 인식률(반음을 고려치 않음)
 25음절 중 5개 오류(80% 인식)
◦ 여성의 음정 모델을 이용
 꼬마눈사람 인식률(반음을 고려치 않음)
 42음절 중 8개 오류(80% 인식)

상대음정
◦ 앞 음과의 상대적인 변화를 측정하여 변화정도로
음정을 결정함
◦ 음역이 다름으로 인해 생기는 개인차를 고려하지 않음
◦ 첫 음의 음정을 알고 있어야 함
 제안 : 표준음표 혹은 남성 모델에서 첫 음을 결정

상대음정 근사(approximation)
◦ 남성의 음정 모델을 절대값으로 이용
 첫 음(기준음)이 “ 솔 ” , 200Hz
음정
주파수
비율
도
레
미
파
솔
라
시
도
133
149
167
177
200
211
251
266
1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000
 산토끼 인식률(반음을 고려치 않음)
 25음절 중 5개 오류(80% 인식)

상대음정 근사(approximation)
◦ 꼬마눈사람
◦ 여성의 음정 모델을 이용(기준음 389Hz, “솔”)
음정
주파수
비율
도
레
미
파
솔
라
시
도
259
290
326
345
389
435
488
518
1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000
 42음절 중 13개 오류(70% 인식)
◦ B여성의 음정 모델을 이용(기준음 345Hz, “솔”)
음정
주파수
비율
도
레
미
파
솔
라
시
도
230
258
289
307
345
386
434
460
1.000 1.122 1.260 1.335 1.498 1.682 1.888 2.000
 42음절 중 3개 오류(92.86% 인식)

휴지기 정보를 이용
◦ 마디를 기준으로 근접한 점을 찾아냄
0.25
1.25
0.5
1.5
0.75
1.75
↑

산토끼
마디 정보
↑
↑
↑
↑
↑
↑
↑
기준
31
14
24
4
10
21
1
4.110812
1.120812
2.120812
3.110812
5.110812
6.100812
7.060812

애국가
↑
↑
↑
↑
기준
↑
↑
↑
마디 정보
71
47
55
45
35
66
45
23.993334
6.083333
12.003333
18.093332
30.093332
36.113335
42.133331

애국가
↑
↑
↑
↑
기준
↑
마디 정보
53
11
48
10
12
9.233083
2.333083
4.583083
6.933083
11.513083

애국가
마디 정보
↑
↑
↑
↑
기준
↑
↑
↑
43
11
39
40
3
2
5
5.313390
1.373390
2.673390
4.003390
6.523390
8.063390
9.113390

눈꽃송이(4분의3박자)
↑
↑
 마디 1 : 91(약)/107(강)/5(약)/17(강)/10(약)/86(강)/8(약)
 마디 2 : 42(강)/7(약)/35(강)/13(약)/124(강)/56(약)

반달(8분의 6박자)
↑
 마디 1: 44(약)/362(강)/138(약)
 마디 2: 72(강)/9(약)/26(강)/19(약)
62(강)/17(약)/228(강)/67(약)
↑