Transcript Document

제 2장. 사운드
멀티미디어 시스템
© Kim, Lee and Chung, 2005. All rights are reserved.
© 김명호
목차

사운드의 개념

사운드 데이터 코딩

미디

음성 데이터의 처리

음성을 기반으로 한 사용자 인터페이스

요약 및 참고문헌
멀티미디어 시스템 개론
2/63
2장 – 사운드
사운드의 개념

사운드의 원리
– 정의
» 물체의 진동으로 인해 일어나는 물리적 현상
 예) 바이올린 현을 켜거나 심벌즈를 부딪칠 때 나는 진동
– 물리적 원리
» 물체의 진동이 주변 공기로 퍼지면서 형성된 압력이 가해지면서
생성
– 파형
» 일정 간격으로 같은 패턴을 반복하는 압력의 파동 모양
멀티미디어 시스템 개론
3/63
2장 – 사운드
사운드의 개념 (계속)
공기압
(air pressure)
진폭
(amplitude)
시간의 경과
한 주기 (one period)
공기압에 의해 형성된 파형
멀티미디어 시스템 개론
4/63
2장 – 사운드
사운드의 개념 (계속)
– 주파수 (frequency)
» 1초당 주기 수, 주기 값의 역수
– 주기
» 같은 파형이 한 번 나타나는 데 소요되는 시간
» 주기적인 형태의 사운드(periodic sounds)
 인지할 수 있는 주기성을 갖는 사운드
 악기, 성악, 바람 소리, 새의 지저귐
» 비주기적인 형태의 사운드(non-periodic sounds)
 주기적 사운드의 반대 개념
 기침, 재채기, 노이즈, 물이 흐르는 소리
멀티미디어 시스템 개론
5/63
2장 – 사운드
사운드의 개념 (계속)

사운드 신호의 가청 주파수
– 사람의 대역폭 : 20 Hz ~ 20 kHz
» 음악 사운드 및 음성의 주파수
» 멀티미디어 시스템에서 주로 사용됨
» 가청 주파수의 대역폭은 동물마다 다름 : 예) 박쥐
– 사운드 신호의 변조, 하드웨어 설계 등 사운드 데이터 처리에
이용
» 샘플링
 아날로그 신호를 디지털 데이터로 변환
 샘플링 기법 : 일정한 시간 간격으로 알아낸 아날로그 신호의 크기를
디지털 데이터의 형태로 저장
 원래의 아날로그 신호가 갖는 주기보다 2 배 이상 빠른 주기로
샘플링 하면 원래 신호와 거의 차이가 없는 사운드 정보를 얻게 됨
 예) CD : 1 초에 44.1 k 번(44.1 kHz) 샘플링
멀티미디어 시스템 개론
6/63
2장 – 사운드
사운드의 개념 (계속)

주파수와 사운드의 강도
– 주파수
» 초당 주기 수(Hz) 또는 초당 사이클(cycle) 수(cps)
표 2 - 1 주파수 영역의 구분
해당 범위
구분
초 저주파(infrasonic)
0 ~ 20 Hz
인간의 가청 영역(audiosonic)
20 Hz ~ 20 kHz
초음파(ultrasonic)
20 kHz ~ 1 GHz
극 초음파(hypersonic)
1 GHz ~ 10 THz
멀티미디어 시스템 개론
7/63
2장 – 사운드
사운드의 개념 (계속)
– 사운드의 강도(intensity)
» 심리적인 요인을 배제한 물리적인 사운드의 크기
 cf. 세기(loudness) : 심리적으로 느끼는 사운드의 크기
» 데시벨(decibel)
 사운드의 강도를 표현하는 기준 단위
dB = 20 log10(A / B)
 고통 임계값 (threshold of pain) : 100 dB ~ 120 dB
 사운드 매체를 표현하고자 할 때 처리할 사운드의 강도를 어느 정도의
범위로 잡느냐 하는 결정에 유용하게 사용될 수 있음
멀티미디어 시스템 개론
8/63
2장 – 사운드
사운드의 개념 (계속)

스펙트럼
진폭
(amplitude)
– 파형
» 푸리에 (Fourier) 분석을
이용해 여러 개의 다양한
주파수와 진폭을 갖는
스펙트럼 인자로 분해하여
표현 가능
시간의 경과
(a) 아날로그 파형
진폭
(amplitude)
주파수의 크기
(b) 푸리에 분석된 결과
아날로그 신호에 푸리에 분석을 적용한 예
멀티미디어 시스템 개론
9/63
2장 – 사운드
사운드의 개념 (계속)
» 각 스펙트럼 인자들을 중첩(superimpose)시키면 분석되기
이전의 원래의 파형 모양에 근사하게 됨
 스펙트럼 인자들의 개수를 증가시키거나 더 큰 주파수
범위에서 스펙트럼 인자들을 구하면 더 정확한 파형 모양을
얻을 수 있음
» 고 차원의 사운드 처리 기법들을 다룰 수 있으므로, 다양한
응용 분야에 이용되고 있음
멀티미디어 시스템 개론
10/63
2장 – 사운드
사운드의 개념 (계속)
☞ 푸리에 분석
=> 아무리 복잡한 형태의 파형 이라도 진동수와 진폭이 다른 여러
개의 사인파들의 합으로 나타낼 수 있음
f(t) = A sin at + B sin bt + C sin ct + D sin dt + E sin et
+...
[ f(t) : 시간 t에 따른 기압, 기체 밀도 등의 변화를 나타낸 함수
A, B, C, D, E, … : 진폭을 나타내는 상수
a, b, c, d, e, … : 진동수를 나타내는 상수 ]
멀티미디어 시스템 개론
11/63
2장 – 사운드
사운드 데이터 코딩

사운드 데이터 코딩(coding)
– 인코딩 (encoding)
» 아날로그 사운드 신호를 디지털 신호로 변환한 후 전송 선로를
통하여 전송하거나 기억 장소에 저장하기 전에 압축하는 과정
– 디코딩 (decoding)
» 전송되거나 기억 장소에 저장된 디지털 신호를 원래의 아날로그
사운드 신호로 복원하는 과정
– 코딩 기법
» 파형 코딩
» 음원 코딩
» 혼성 코딩
멀티미디어 시스템 개론
12/63
2장 – 사운드
사운드 데이터 코딩 (계속)
음질 매우
(MOS) 좋음
혼성 코딩
좋음
파형 코딩
보통
나쁨
음원 코딩
매우
나쁨
2
4
8
16
32
46
전송률 (Bit Rate)
음성의 코딩 방법에 따른 음질 비교
멀티미디어 시스템 개론
13/63
2장 – 사운드
사운드 데이터 코딩 (계속)

파형 코딩 (waveform coding)
– 사운드를 1 차원 시 계열(time-series) 데이터로 규정하여
사운드의 파형 자체를 복원 가능하도록 코딩하는 방법
– PCM, DPCM, ADPCM 방법 존재
» 4장에서 더 자세히 다룸
멀티미디어 시스템 개론
14/63
2장 – 사운드
사운드 데이터 코딩 (계속)
– PCM
» 연속적으로 변화하는 아날로그 신호의 강도를 주기적으로
샘플링 하는 방법
» 양자화 잡음 (quantization noise)
 표현된 신호 값과 원래 신호 값과의 차이
 원래 아날로그 신호가 갖고 있는 강도의 변화 폭이 작거나
디지털 데이터의 단위당 비트 수가 클수록 그 크기가 감소
멀티미디어 시스템 개론
15/63
2장 – 사운드
사운드 데이터 코딩 (계속)
신호의
강도
7
6
5
4
3
2
1
0
s1
s2
s3
s4
s5
s6
시간의 경과
아날로그 신호를 PCM 방식을 통해 코딩하는 예
멀티미디어 시스템 개론
16/63
2장 – 사운드
사운드 데이터 코딩 (계속)
– DPCM
» 바로 이전에 샘플링 되었던 신호 값과의 차이를 코딩하는 방법
 아날로그 신호는 인접한 범위 내에서 그 크기 변화가 심하지 않기
때문에 DPCM이 가능
– ADPCM
» 미리 예상한 신호 값과 원래의 신호 값의 차이에 따라
스케일(scale)을 다르게 하여 코딩하는 방법
 압축 알고리즘의 단순성과 뛰어난 음질로 여러 분야에서 응용 되고
있음
멀티미디어 시스템 개론
17/63
2장 – 사운드
사운드 데이터 코딩 (계속)
– 예) 사람의 음성
» 대역폭: 약 4 kHz, 샘플링: 8 kHz(16 kHz)
» 샘플 당 사용되는 데이터 최소 비트 수 : 2 bits
» 코딩에 필요한 최소 전송률 : 8 kHz * 2 bits = 16 Kbps
» 16 Kbps 이상의 전송률을 사용하면, 원음과 가깝게 재현할
수 있음
멀티미디어 시스템 개론
18/63
2장 – 사운드
사운드 데이터 코딩 (계속)
– SBC (Sub-band coding)
» 아날로그 신호를 주파수 대역 상에서 다수 개의 주파수 대역으로
분리하고, 그 후에 각 아날로그 신호에 대해 코딩 방법을 적용
 예. 1) 아날로그 신호의 주파수 대역을 5개로 분할
2) 각 주파수 대역에서만 성분을 갖도록 하는 대역 통과 필터를
통과시킴
3) 5개의 새로운 신호를 얻게 됨
4) 각각의 새로운 신호에 대해 PCM, DPCM, ADPCM 등의
기존에 사용되고 있는 음성 코딩 방법을 적용
» 장점
 인간의 청각 특성을 이용한 처리가 용이
 특정 주파수 대역에 대한 코딩 과정에서 일어날 수 있는 양자화
에러는 다른 주파수 대역의 코딩에 영향을 미치지 않음
멀티미디어 시스템 개론
19/63
2장 – 사운드
사운드 데이터 코딩 (계속)

음원 코딩 (source coding)
– 인간의 음성 생성 과정을 기본 모델로 하는 음성 코딩 기법
– 장점
» 음성을 몇 개의 파라미터로 코딩 하므로, 정보량이 작음
– 단점
» 기존에 개발된 음성 생성 모델이 인간의 음성 생성 과정에 비해
매우 단순함
» 원음으로부터 여기 신호 추출 과정이 어려우므로, 고품질 합성음
코딩에 적절치 않음
– 적용 사례
» 미국 표준 부호기인 LPC-10(linear predictive coding),
MELP(mixed excitation linear prediction)
 암호와 방어를 요구하는 군(military) 용 시스템 등 비상용
시스템에서 많이 사용됨
멀티미디어 시스템 개론
20/63
2장 – 사운드
사운드 데이터 코딩 (계속)
– 혼성 코딩 (hybrid coding)
» 파형 코딩을 이용하여 여기 신호를 생성하고, 음원 코딩을
사용하여 조음 기관의 공명 특성을 반영하는 정보를 재현
» 적용 사례
 RELP(Residual Excited Linear Prediction),
 MBE(Multi-Band Excitation)
 MP-LPC(Multi Pulse LPC)
 CELP(Codebook Linear Excited Prediction)
멀티미디어 시스템 개론
21/63
2장 – 사운드
사운드 데이터 코딩 (계속)

사운드 데이터 저장
– 사운드 카드
» Analog-to-Digital / Digital-to-Analog Converter 역할
– 오디오 화일 포맷
■
waveform
 MS와 IBM에 의해서 지원 받고 있는 포맷 (wav)
 압축 없이 사운드 데이터를 저장
■
CD-Audio
 필립스 사와 소니 사의 공동 연구 결과로 등장한 CD의 사운드
정보를 담기 위해 사용하고 있는 포맷 (cda)
■
Creative Voice
 Creative Lab의 Sound Blaster와 Sound Blaster Pro 오디오
카드에서 사운드 정보를 저장하는데 사용하고 있는 포맷 (voc)
멀티미디어 시스템 개론
22/63
2장 – 사운드
사운드 데이터 코딩 (계속)
■
MP3
 MPEG-1 Audio Layer-3의 줄임말로, 효과적인 오디오 신호의
사용을 위해 고안된 압축 방식
 지각 코딩(Perceptual Coding) 기법 사용
 인간의 감각적인 특성(청각 심리 모델)을 사용하여 감도가 낮은 세부의
정보를 생략하여 코딩량을 절감하는 방법
 디지털 사운드를 미리 분석해서 인간의 두뇌가 걸러낼 사운드를
미리 잘라내는 방식으로 압축을 수행
 압축 과정
1. 인간의 가청 주파수를 32 개의 밴드로 분해
2. 분해된 각각의 신호를 서브밴드 코딩, 변형 이산 코사인 변환, 허프만 코딩을 통해
다시 코딩 (각각이 18 개의 밴드로 또 다시 분해되므로, 총 576 밴드)
3. 각 밴드에서 가장 강한 음의 성분에 대한 정보만을 선택하고, 나머지 음에 대한
정보를 삭제
4. MP3 화일 완성
멀티미디어 시스템 개론
23/63
2장 – 사운드
사운드 데이터 코딩 (계속)
■
Real Audio
 네트워크로 데이터를 전송하는 실시간 스트리밍 기술에 의해
만들어진 화일 포맷 (ra, ram, rm)
■
WMA, WMV
 MS사가 만들었으며, 스트리밍을 지원하고 데이터 용량이 MP3의
절반 수준인 화일 포맷 (wma, wmv)
■
VQF
 NTT에 의해서 개발된 오디오 압축 기술(TwinVQ) 로 만들어진
디지털 화일 포맷 (vqf)
 원음을 12:1 ~ 96:1 까지 압축할 수 있으며, 스트리밍을 지원
멀티미디어 시스템 개론
24/63
2장 – 사운드
사운드 데이터 코딩 (계속)
■
A2b
 AT&T가 개발한 오디오 화일 포맷으로서, 특허 낸 압축
알고리즘으로 20:1까지 압축 가능 (a2b)
 CryptoLib라는 보안 라이브러리를 사용해 저작권 문제를 해결
■
OGG
 MP3에 대항하기 위해 만들어진 무료 음악 화일 포맷 (ogg)
 5:1~18:1에 이르기 까지 높은 압축율을 자랑하며, 다양한
음질을 설정할 수 있음
멀티미디어 시스템 개론
25/63
2장 – 사운드
미디 (Musical Instrument Digital Interface)

미디
– 각 악기들이 일관된 표준 인터페이스를 따름으로써, 서로
다른 회사의 악기들을 연결하여 연주할 수 있도록 함
– 구성요소
» 하드웨어 연결(connect)
 미디 장치 사이의 연결이나 전자 신호를 다루는 미디 케이블
» 데이터 포맷
 음악 연주 정보의 코딩과 미디 메시지
멀티미디어 시스템 개론
26/63
2장 – 사운드
미디 (계속)

미디 장치 (device)
– 미디 표준(하드웨어 연결 및 데이터 포맷)을 만족시키며
채널을 통해 미디 표준을 만족하는 다른 기기(악기)들과
통신할 수 있는 기기(악기)들을 총칭
» 신디사이저(synthesizer)
 일반적으로 키보드(건반) 인터페이스를 통해 음을 합성하는
하드웨어
 최근에는 키보드와 음원 모듈이 분리된 형태로 제공됨
 포터블 키보드 v.s. 마스터 키보드 (미디 제어 기능이 탁월)
» 샘플러
 임의의 자연 사운드를 파형으로 받아, 미디 악기의 음원으로
사용하는 기기
멀티미디어 시스템 개론
27/63
2장 – 사운드
미디 (계속)
» 미디 인터페이스
 PC, 마스터 키보드, 미디 음원 모듈을 연결시켜 주는 미디 장치
 컴퓨터 주변 장치 변화에 따라 USB포트용 미디 인터페이스, 블루투스를
기반으로 한 무선 미디 인터페이스 등이 개발 또는 출시 중에 있음
» 시퀀서
 신디사이저가 컴퓨터로 보낸 음악 데이터를 편집할 수 있는 미디 프로그램
 요즘은 단순 미디 만을 연출하지 않고 오디오 및 비디오를 합성 접목하고 있음
» 소프트 신디 사이저
 컴퓨터에 내장되어 있는 소프트 신디 사이저
 Microsoft® 의 GS Wavetable
 사운드 카드에 내장되어 있는 소프트 신디 사이저
 가상 소프트웨어 신디사이저 : CPU를 이용해 PCM 데이터를 디코딩 함
멀티미디어 시스템 개론
28/63
2장 – 사운드
미디 (계속)

미디 네트워크 구성
– 커넥터에 의한 하드웨어 연결
» 신디사이저, 미디 인터페이스, 컴퓨터, 미디 음원 모듈, 스피커,
믹서, 이펙터 등
» 연결 방법
 “In”, “Out”, “Thru”
멀티미디어 시스템 개론
29/63
2장 – 사운드
미디 (계속)
미디 연결의 전형적인 형태
멀티미디어 시스템 개론
30/63
2장 – 사운드
미디 (계속)

미디 규약 (protocol)
– 미디 메시지 전송 방법과 미디 메시지의 의미를 규정
– 미디 코드(code) : 미디 메시지를 처리하는 Byte 단위
» 상태 Byte와 데이터 Byte로 구성 : MSB로 구분
 미디 메시지 = 1 개의 상태 Byte + 0~2 개의 데이터 Byte로 구성
 상태 Byte는 상위 4 bits(채널 메시지) 와 하위 4bits(채널)로 나뉨
 데이터 Byte는 상태 Byte에 따라 설정됨
 10bits = 전송 시의 동기화를 위한 2 bits + 미디 코드 Byte (8bits)
» 31.250 KBaud(bps)로 미디 네트워크에 방송(broadcast)
멀티미디어 시스템 개론
31/63
2장 – 사운드
미디 (계속)
Status Byte
Data Byte
1001
0000
00111100
00100000
9 = note on
0 = 1ch
3c = 60 (C4음)
20 = 32
Note on 이벤트
(건반 누름)
채널 표시
(1 채널은 피아노)
Note Number
(건반의 위치)
음의 강도
(건반을 누른 속도)
A 신디사이저에서 B 신디사이저로 전달되는 미디 메시지 예
멀티미디어 시스템 개론
32/63
2장 – 사운드
미디 (계속)
Status Byte(hex)
Data Byte 1
Data Byte 2
Meaning
8n
0k
0v
Note off
9n
0k
0v
Note on
An
0k
0v
Polyphonic key pressure
(건반에 관련)
Bn
0c
0v
Control change
Cn
0p
Program Change
Dn
0v
Channel pressure
En
0v
0v
Pitch bender changes
n : 사운드 채널 번호 - 각 악기에 할당된 채널 번호를 나타낸다.
k : 음조(note) 번호 - 음표 선택에 관련된 것이다.
v : 속도(velocity) - 건반을 치는 속도나 세기에 관련된 것이다.
c : 제어기(controller) – pedal의 세기를 표현한 것이다.
p : 프로그램 번호 – 지정되어 있는 128 가지의 voice 중 하나를 지정하는 데 쓰인다.
Note off : 128 개의 건반 중 하나를 눌렀다가 떼는 것을 표시한다.
Note on : 한 건반이 눌려졌다는 것을 의미한다.
Polyphonic key pressure – 건반 1 개가 눌려진 후, 그 압력(pressure)에 얼마나 반응하느
냐와 관련된 메시지이다.
Program change – 음색 버튼을 누르거나 음색 번호 증감키로 음색을 변화시킬 때 생성되
는 메시지이다.
Channel pressure – 한 개의 건반에 대한 압력 신호가 그 사운드의 모든 음에서 적용되게
하는 메시지이다.
Control change – 컨트롤러들의 움직임을 나타낸다.
Pitch bender changes – 피치 벤더(pitch bender)가 움직인 것을 표시한다. 피치 벤더란
신디사이저에서 손잡이 또는 바퀴 모양으로 생긴 것인데, 건반 옆
에 위치해 있다. 건반을 눌러 사운드가 나는 상태로 피치 벤더를
움직이면 미세한 단위로 음높이의 변화를 일으킬 수 있다.
멀티미디어 시스템 개론
33/63
여러 가지 미디 메시지들의 예
2장 – 사운드
미디 (계속)

미디 규약 발전
– GM 1(General MIDI Level 1)
» 미디 장비 제조업자와 컨텐츠 제공업자 사이의 호환성을 위한 플랫폼을
지원하기 위해 Yamaha® 제안한 국제적인 표준 규약(1991)
– GM 2(General MIDI Level 2)
» GM1을 확장했으며, GS, XG를 포함하는 국제적인 표준 규약(1999)
» 2003년 9월에 버전 1.1로 업데이트
– GM Lite
» GM 1에 정의된 풀셋을 지원할 수 없는 장비들을 위해서 만들어진 규약
» 모바일 애플리케이션에서 사용 가능 (2001)
– XMidi (eXtended MIDI)
» 기존 미디 문제점을 극복한 새로운 미디 시스템으로서 제안된 프로젝트
» 벨기에의 Eric Lukac-Kuruc이 창시(1999)
멀티미디어 시스템 개론
34/63
2장 – 사운드
음성 데이터 처리

음성 인식
– 음성에 포함된 언어적인 정보를 추출하여 컴퓨터가
이해할 수 있는 표현 방법으로 변환하는 과정
» 패턴 정합법
 참조 패턴과 주어진 입력 패턴을 비교하여 둘 간의 유사성
정도를 측정
 예) 동적 정합법 (dynamic time warping) : 인식 대상 어휘가
작은 고립 단어 인식에 사용됨
» 지식에 기반을 둔 방법
 사람의 음성 인식 과정을 규칙(rule)의 형태로 저장한 후
입력되는 음성에 대하여 저장된 규칙을 적용하여 인식하는
방법
 예) Spectrogram Reading Expert 시스템
멀티미디어 시스템 개론
35/63
2장 – 사운드
음성 데이터 처리 (계속)
» 벡터 양자화를 이용한 방법
 입력 패턴과 양자화 코드북 내에 있는 코드워드라고 불리는 일종의
표준 패턴들 사이의 거리를 측정하여 거리가 가장 가까운
코드워드에 입력 패턴을 매칭하는 방법
벡터 양자화 과정
멀티미디어 시스템 개론
36/63
2장 – 사운드
음성 데이터 처리 (계속)
» 통계학적 방법
 은닉 마르코프 모델(Hidden Markov Model) : 가장 널리 쓰이는 방법
 HTK(HMM ToolKit)
 HMM을 이용한 음성 인식 시스템 중에 최근의 연구에 많이 쓰임
 HMM을 만들고 조작하는 데 사용되는 포터블 툴킷
 C 소스로 된 라이브러리 모듈과 툴로 구성되어 있음
 예) SPHINX, SONIC
» 신경 회로망 (Neural Network)
 뇌의 정보처리 과정을 공학적으로 모델링 한 방법
 고립 단어, 음소 인식에 뛰어난 성능을 보임
» HMM/NN 혼성 네트워크
 기존의 신경 망 모델에 HMM 방법을 첨가 하는 방법
멀티미디어 시스템 개론
37/63
2장 – 사운드
음성 데이터 처리 (계속)
 HMM의 통계적 방법의 범주 안에서 신경망을 도입하는 방법
 HMM 인식 방법을 신경 회로망의 형태로 재구성하여 음성 인식을
수행하는 방법
 예) Viterbi-net, Alpha-net
멀티미디어 시스템 개론
38/63
2장 – 사운드
음성 데이터 처리 (계속)
– 음성 인식 과정 : 화자에 의해 발성된 음성이 여러 단계를 거쳐
최종적으로 컴퓨터에 의해 인식되는 것
» 전처리 (preprocessing)
 음성 신호로부터 의미 있는 음성 구간을 검출하고, 음향학적인
파라미터로 변환
» 분할 (segmentation)
 인식을 위해 정의된 인식 단위로 입력된 음성을 잘라내는 것
» 인식 (recognition)
 분할된 음성 단위들을 인식하는 것
멀티미디어 시스템 개론
39/63
2장 – 사운드
음성 데이터 처리 (계속)
음성 인식기 훈련 과정
훈련 과정
표준패턴
생성
음성 입력
전처리
(특징 추출)
인식 과정
분할
인식 결과
음성 인식 과정
멀티미디어 시스템 개론
40/63
2장 – 사운드
음성 데이터 처리 (계속)
음성 인식의 분류
기준
분류
내용
화자 독립
불특정 다수의 화자의 음성 만을 인식
화자 종속
특정한 화자의 음성을 인식
고립 단어 인식
하나의 단어 만이 발성되었음을 인식
연결 단어 인식
여러 개의 단어가 짧은 휴지 기간을 가지고 서로 연결
되어 있음을 인식
연속 음성 인식
일상적인 대화체처럼 여러 단어를 연속적으로 발음한
것을 인식
핵심어 인식
일상 대화체에서 핵심 단어만 인식
인식 대상
인식 대상의 어휘
멀티미디어 시스템 개론
41/63
2장 – 사운드
음성 데이터 처리 (계속)

화자 인식
– 음성에 포함되어 있는 화자 정보를 추출하여 개인을
확인하는 기술
– 인식 대상에 따라 분류
» 화자 식별
 입력된 미지의 음성이 등록된 여러 화자 중 어떤 화자에 의해
발성된 음성인 지를 판정
 예) 자동 회의록 작성
» 화자 확인(검증)
 입력된 음성이 지정된 화자의 것인지 여부 판정
 예) 신분 확인, 출입 통제
멀티미디어 시스템 개론
42/63
2장 – 사운드
음성 데이터 처리 (계속)
화자 식별과 화자 인식 비교
방
법
항목
화자 식별
화자 확인
대상 패턴
화자 수(N)
1개
결정 방법
특정 화자
승인(accept) / 거부(reject)
비교 횟수
N회
1회
오류 확률
화자 수에 비례
화자 수와 무관
멀티미디어 시스템 개론
43/63
2장 – 사운드
음성 데이터 처리 (계속)
음성 입력
특징 추출
유사도 비교
결정
인식 화자
화자 정보
화자 인식 과정
멀티미디어 시스템 개론
44/63
2장 – 사운드
음성 데이터 처리 (계속)
– 음성 인식과의 비교
» 음성 인식
 발성된 음성의 언어적 측면에 초점
» 화자 인식
 발성된 음성에 포함된 화자의 개인성 정보에 초점
멀티미디어 시스템 개론
45/63
2장 – 사운드
음성 데이터 처리 (계속)

음성 합성
– 기계를 이용하여 사람의 음성을 인공적으로 생성해 내는 것
» 합성된 음성 신호를 실제로 말할 때 나타나는 발음 현상을
적용하여 일상 대화에서 듣게 되는 음성 신호와 같게 만들어
주어야 함
– 고려해야 할 사항
» 음향학적 측면
 인간의 실제 음성에 더 가까운 사운드를 내기 위함
» 언어학(음운학)적 측면
 동일한 단어가 문맥에 따라 다른 발음되는 현상을 고려함
 예) “신을 신고 신고하러 간다”, “양복 한 벌” v.s. “옷 한 벌”
멀티미디어 시스템 개론
46/63
2장 – 사운드
음성 데이터 처리 (계속)
– 분류
» 제한 어휘 합성 기법
 미리 정해진 수의 어휘를 저장하고, 조합하여 음성 신호 생성
 구현은 쉽지만 어휘를 단순 연결하므로, 나오는 사운드가
부자연스럽고 어색함
 예) 자동 응답 시스템, 지하철 등의 안내 방송
» 무제한 어휘 합성 기법
 임의의 문장을 입력 받아 무제한으로 음성을 합성
 예) TTS(Text-to-Speech)
멀티미디어 시스템 개론
47/63
2장 – 사운드
음성 데이터 처리 (계속)

TTS(Text-to-Speech)
– 정의
» 임의의 문장을 입력 받아 해당하는 음성 신호로 변환하는 음성
합성 장치
– 종류
» 코퍼스(Corpus) 기반 TTS, 감정(Emotion) 기반 TTS
 기계적인 음성 합성에서 탈피하여, 자연스러운 음성 합성을 만드는
방법으로서 제안된 기법
멀티미디어 시스템 개론
48/63
2장 – 사운드
음성 데이터 처리 (계속)
– 코퍼스 기반 TTS의 음성 합성 과정
» 전처리
 입력 받은 문장을 분석하여, 일반적인 문자 이외의 글자에 대해서
어떻게 발음할 것인지를 결정
» 언어 처리부
 구문 분석 단계로서, 문장 내의 각 단어들이 어떤 품사로 쓰이고 있는
지를 결정하고, 문장의 운율 정보를 합성음에 반영하기 위해 정확한
문장 구조를 파악하는 부분
 형태소 분석부 : 입력된 문장의 품사들을 분류
 구문 분석부 : 분류된 품사들을 가지고 운율 정보를 생성
 발음 변환부 : 입력된 문장을 소리 나는 대로 변환
» 합성부
 실제로 사람의 목소리에 가까운 합성음을 생성해 내는 단계
멀티미디어 시스템 개론
49/63
2장 – 사운드
음성 데이터 처리 (계속)
음성 분석부
Corpus
대용량 음성
데이터베이스
음성 입력
문장 입력
전처리
언어 처리부
단위 음성
데이터베이스
합성부
합성음
코퍼스 기반 TTS 시스템의 음성 합성 과정
멀티미디어 시스템 개론
50/63
2장 – 사운드
음성 데이터 처리 (계속)
– 활용 예제 (표 2 – 4 참고)
» TTS 가 사용중인 국정 알림터
 http://www.allim.go.kr/warp/webapp/speech/list?meta_id=syn_sp
eech
» VoiceWare
 http://www.voiceware.co.kr/demo/demo_text.html
» CoreVoice 웹 사이트
 http://www.corevoice.com
» 동아닷컴 뉴스 듣기 서비스
 http://www.donga.com
» ARS 텔레뱅킹 및 전화 주문을 위한 TTS
» 자동차 네비게이션 시스템에 TTS가 도입됨
멀티미디어 시스템 개론
51/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스

음성 데이터의 활용
– 정보통신 분야
» 휴대폰 음성인식
 음성 작동 다이얼, 통화자 확인
 Sanyo®, Toshiba ®, Innovative Devices ® 의 음성 작동 전화 개발
 잡음 환경에서 동작 가능한 잡음 처리 알고리즘 개발
» 대화형 음성인식
 연속된 다량의 어휘의 처리가 가능한 음성 인식기 개발
 의미 분석 및 대화 흐름 처리가 가능한 대화형 음성 인식기 개발
» 말하는 웹 브라우저 : IBM Home Page Reader for Low Vision
Users
 음성 명령 만으로 인터넷에 접속해 필요한 정보 검색
 사용자와 대화하면서 인터넷을 검색한 후 내용을 낭독
 TTS가 탑재된 ViaVoice 음성 인식 엔진을 사용
멀티미디어 시스템 개론
52/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)
– 운송 분야
» 자동차 네비게이션 시스템
 내장형 음성 작동 시스템을 탑재
 네비게이션 목적지 지정을 위한 음성 인식 모듈 개발
– 교육 분야
» IBM SpeechViewer™
» 인간의 언어 습관을 교정
– 재활 분야
» 음성으로 작동하는 휠체어
» 음성 인식 프로세서를 통한 문서 작성
– 보안 분야
» 사용자 출입을 위한 신원 확인과 조회
멀티미디어 시스템 개론
53/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)

VoiceXML
– 음성 응답 애플리케이션 개발을 위한 음성 대화형 마크업 언어
– 전화로 음성을 통해 인터넷 정보를 검색할 수 있는 기능을
지원 (전화 + 인터넷)
– 장점
» 기존 웹 기반 서비스를 활용하여 음성 정보 시스템을 구축할 수 있게 됨
 웹 기반 서비스 = 비즈니스 로직 + 사용자 인터페이스(HTML -> VoiceXML)
» 음성 합성 및 음성 인식 기술을 기반으로 한 음성 정보 시스템으로의
다양한 입출력이 가능하게 됨
» 인터넷을 사용하므로, 국내외 음성 정보 서비스가 가능하게 됨
– 스펙(specification)
» VoiceXML 2.0 Recommendation : 2004년 3월 16일 발표
» VoiceXML 2.1 Working Draft : 2004년 3월 23일 ~ 현재
멀티미디어 시스템 개론
54/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)
– 전체 구조
VoiceXML 기반 시스템 구조와 VoiceXML 문서 처리 과정
멀티미디어 시스템 개론
55/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)
<?xml version="1.0"? encoding=”euc-kr” ?>
<vxml version="1.0">
<menu>
<prompt>
<emp> 날씨, 스포츠, 경제, 정치 중에 원하시는 서비스를 말씀해 주세요.
<enumerate /></emp>
</prompt>
<choice next=”weather.vxml”>날씨</choice>
<choice next=”sports.vxml”>스포츠 </choice>
<choice next=”economy.vxml”>경제</choice>
<choice next=”politics.vxml”>정치 </choice>
<nomatch> 죄송합니다. 다시 한 번 말씀해 주세요.
<enumerate /></nomatch>
<noinput> 한 가지만 말씀해 주십시오. </noinput>
</menu>
</vxml>
VoiceXML 문서 예제
멀티미디어 시스템 개론
56/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)
<vxml>: VoiceXML 문서의 시작을 나타내는 엘리먼트이다.
<menu>: 여러 가지 선택할 수 있는 메뉴를 사용자에게 제시하고 그 중에
하나만을 선택할 수 있도록 설계된 다이얼로그를 나타내는 엘리먼트이다.
<choose>: <menu>에서 선택할 수 있는 각각의 아이템을 나타내는
엘리먼트이다.
<enumerate>: 사용자가 선택할 수 있는 모든 선택 메뉴를 자동적으로
생성하는 엘리먼트이다.
<emp>: 강조해서 말해야 할 텍스트의 영역을 설정하는 엘리먼트이다.
<prompt>: 미리 녹음된 오디오 화일과 함께 음성 합성될 텍스트 데이터를
들려 준 후, 사용자의 입력을 기다리는 엘리먼트이다.
<nomatch>: 사용자가 입력한 내용이 음성 및 DTMF 문법과 매치되지 않을
경우에 생기는 이벤트를 처리하는 엘리먼트이다.
<noinput>: 사용자의 입력이 없을 경우에 생기는 이벤트를 처리하는
엘리먼트이다.
VoiceXML 엘리먼트에 대한 설명
멀티미디어 시스템 개론
57/63
2장 – 사운드
음성을 기반으로 하는 사용자 인터페이스 (계속)
음성 정보 시스템: 날씨, 스포츠, 경제, 정치 중에 원하시는 서비스를 말씀해 주세요.
시스템 사용자: 과학
음성 정보 시스템: 죄송합니다. 다시 한 번 말씀해 주세요.
시스템 사용자: 날씨
음성 정보 시스템: weather.vxml로 이동
음성 정보 시스템과 시스템 사용자의 대화
멀티미디어 시스템 개론
58/63
2장 – 사운드
요약





사운드의 특성에는 주파수, 강도, 스펙트럼이 있다
사운드 데이터 코딩에는 파형 코딩, 음원 코딩,
혼성 코딩, 사운드 데이터 저장의 방법이 있다
미디는 전자 음악을 생성하고 편집하는데 널리
사용되고 있는 전자 악기들의 연결 표준이다
음성 인식, 화자 인식, 음성 합성, TTS 등의 기법을
통해 음성 데이터를 처리한다
VoiceXML은 음성을 기반으로 한 사용자
인터페이스이다
멀티미디어 시스템 개론
59/63
2장 – 사운드
참고문헌








Buford, John F. K., ”Multimedia Systems,” New York: AddisionWesley Pub. Company, 1994.
Rosenborg, V. et al., ”A Guide To Multimedia,” Indiana: New Riders
Pub. Company, 1993.
Andleigh, P. K. and Kiran Thakrar, “Multimedia Systems Design,”
Prentice Hall, 1996.
Steinmetz, R. and Klara Nahrstedt, “Multimedia: computing,
communications and applications,” Prentice Hall, 1995.
Rabiner, L. and Biing-Hwang Juang, “Fundamentals of Speech
Recognition,” Prentice Hall, 1993.
Saito, S. and Kazuo Nakata, “Fundamentals of Speech Signal
Processing,” Academic Press, 1981.
Furui, S., “Digital Speech Processing, Synthesis and Recognition,”
Dekker, 1991.
Kondoz, A. M., “Digital Speech,” John Wiley & Sons Ltd., 1994.
멀티미디어 시스템 개론
60/63
2장 – 사운드
참고문헌 (계속)

Rabiner, L. R. and B. H. Juang, “An Introduction to Hidden Markov
Models,” IEEE ASSP Magazine, January 1986.

Burton, D. K., “Text-Dependent Speaker Verification Using Vector
Quantization Source Coding,” IEEE Transactions on Acoustic,
Speech, and Signal Processing, Vol. ASSP-35, No. 2, February
1987.

T. Kawaharam M.Araki and S. Doshta, “Reducing Syntactic
Perplexity of User Utternaces with Automaton Dialogue Model,”
Proc. Of International Symposium on Spoken Dialogue, pp.65~67,
Kyoto, 1993.

Y. Sobashima, “Local Context analysis of Dialogues using Bilingual
Corpus,” Proc. of International Symposium on Spoken Dialogue, pp
61 ~ 64, Kyoto, 1993

M.T. Vo, A. Waibel, “Multimodal Human-Computer Interaction,”
Proceedings ISSD-93, pp.95 ~ 101, 1993
멀티미디어 시스템 개론
61/63
2장 – 사운드
참고문헌 (계속)






Lindblom, J. and P. Hedelin, “Packet loss concealment based on
sinusoidal extrapolation,” Acoustics, Speech, and Signal
Processing, IEEE International Conference on Vol.1, pp.173∼176,
2002
Gunduzhan, E. and K. Momtahan, “Linear prediction based packet
loss concealment algorithm for PCM coded speech, Speech and
Audio Processing,” IEEE Transactions on Vol.9, Nov, pp.778∼785,
2001
오영환, 음성 언어 정보 처리, 홍릉과학 출판사, 1998
장경애, 정민화, 김재인, 구명완, “코퍼스기반 음성 합성기의
데이터베이스 감축 방안,” 말소리 44호
Ferencz, A., S. Choi, H. Song, and M. Koo, “Corpus-based
implementation of the Korean Hansori Text-to-speech synthesis,”
Eurospeech, 2001
Kim Silverman et. al., “Design and collection of a corpus of
polyphones and prosodic contexts for speech synthesis research
and development,” Eurospeech, 1999
멀티미디어 시스템 개론
62/63
2장 – 사운드
참고문헌 (계속)



Ralf Steinmetz, Klara Nahrstedt, “Multimedia Fundamentals,”
Volume 1
박섭형, “음성 웹 애플리케이션 구축을 위한 VoiceXML,” 한빛미디어,
2001
웹 문서
–
–
–
–
–
–
–
–
–
–
미디:http://www.hongmidi.com/main.html
http://www.midi.org/about-midi/gm/gminfo.shtml
http://www.borg.com/~jglatt/index.htm
http://www.interq.or.jp/japan/se-inoue/e_pic7_1_h.htm#4
오디오 압축 포맷: http://www.sericyb.com.au/sc/audio.html
http://sound.media.mit.edu/mpeg4/audio/#mpeg2
음성 인식: http://htk.eng.cam.ac.uk/
http://cslr.colorado.edu/beginweb/speech_recognition/sonic.html
TTS: http://tcts.fpms.ac.be/synthesis/introtts.html
VoiceXML Spec: http://www.w3.org/TR/2004/REC-voicexml2020040316/
멀티미디어 시스템 개론
63/63
2장 – 사운드