멀티미디어2-2장

Download Report

Transcript 멀티미디어2-2장

2장 사운드
2.4.3 디지털 사운드의 압축 방식
 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함
 ADPCM
• 앞에서 언급한 바와 같이 ADPCM은 이론적으로 표준화어 있지만 각
방식간의 호환성은 없음
• ITU-T(International Telecommunication Union-Telecommunication)
에서 ADPCM 방식으로 32Kbps에서 음성을 전송할 수 있는 방식으로
G.721 제정
• 각 표본화 값의 차이를 4bit로 표현하고 표본화율(Sampling Rate)
은 8KHz를 사용
1
2장 사운드
 A-law, u-law
• 음성 통신을 목적으로 정한 압축 방식
• 두 방식 모두 양자화 과정에서 오차를 줄이기 위해 만들었으며 비슷한
방식을 사용
• 사람은 대화시 큰소리의 변화보다는 작은 소리의 변화를 더 잘
감지한다는 사실을 이용한 비균등 코딩(Non-uniform Coding) 방
식
 TrueSpeech
• DSP(Digital Speech Products) 사에서 음성의 실시간 전송을 위해 만든
방식으로 3.7Kbps에서 8.5Kbps까지 전송 가능
• 사람과 사람이 대화할 때 대화 사이의 공백은 디지털 데이터로 전송할
필요가 없다는 사실을 이용하여 최대 40:1까지 압축 가능
2
2장 사운드
 MP3 또는 MPEG Layer 3
• 동화상 압축 표준인 MPEG(Moving Picture Expert Group)에서 오디
오 부분의 압축을 의미
• PCM 관련의 압축 방식과 다른 손실 압축(Lossy Compression)
• MPEG-1의 오디오 부분의 Layer 3를 MP3라는 이름으로 사용
• MPEG-2의 오디오 부분은 AAC(Advanced Audio Coding)라고 하여
사용
• 음성 심리학적인 방법인 마스킹(Masking) 효과를 이용
• 마스킹 효과 : 큰소리와 작은 소리가 동시에 발생하면 작은 소리는 들
리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상
을 의미
• MPEG-1의 오디오 트랙에는 Layer 1(압축률 1:4 정도), Layer 2(압축
률 1:6 - 1:8 정도), Layer3(압축률 1:10 - 1:12 정도)가 있음
3
2장 사운드
 RealAudio
• RealNetwork사에서 실시간으로 음성을 보내기 위해 만든 압축 방식으
로 별도의 서버가 필요
• 스트리밍 기술을 이용, 실시간에 사운드를 전송받으며 재생할 수 있는
사운드 형식
• 네트워크 속도에 따라 선택적으로 전송 가능
4
2장 사운드
2.4.4 디지털 사운드의 파일 포맷
 Wav
•
•
•
•
•
•
•
Microsoft사와 IBM 사가 PC상의 사운드 표준 형식으로 공동 개발
Windows 기반 PC에서 주로 사용
머리(Header)와 몸체(Body)로 구성
머리 : 압축방식, 표본화율 등의 정보를 설정
몸체 : 머리 부분에서 정의한 형식에 맞추어 사운드 데이터를 저장
같은 wav확장을 가져도 구체적인 압축 방식은 상이할 수 있음
일반적으로 ADPCM방식이 많이 사용되고, 그 외에 Truespeech, uLaw등도 많이 사용
5
2장 사운드
 Au
• u-law 방식으로 압축된 형식으로 유닉스 환경에서 사용
• 일반적인 형식이며 다른 형식으로 변환하기 위한 크로스 플랫폼 형식
• Sun이나 NeXT가 표준으로 채택
 MP2, MP3
• 압축효과가 뛰어나고, 음질도 우수
• 인터넷 상에서 음악을 압축하는데 많이 사용
• Layer 2는 .mp2, Layer 3는 .mp3의 확장자를 갖음
6
2장 사운드
 vqf(plug-In)
• 일본 Yamaha사에서 만든 사운드 형식
• 압축율이 MP3보다 뫂고 파일 크기는 작음
• MP3가 사람과 음악 정보에 포괄적으로 적용되는 압축방식을 사용하
고 있으나 VQF는 음악에 대해 특화된 압축 방식을 이용
• 압축률은 MP3에 비해 30%이상 향상되었으나 인코딩과 디코딩은
MP3보다 시간이 많이 걸림
 Real Audio (.ra, .rm)
• 인터넷 상에서 스트리밍 기술을 이용, 실시간에 사운드를 전송받으며
플레이할 수 있는 사운드 형식
• 기존의 방식은 접속시 처음의 대역폭에 따라 음질이 결정
• 대역폭이 동적으로 변함에 따라 음질도 동적으로 변화시키는
SureStreaming이라는 기술을 이용하여 항상 최적의 음질을 재생시켜
줌
7
2장 사운드
 ASF(Advanced Streaming Format)
• 1996년 인텔이 개발한 멀티미디어 파일 형식
• 통합 멀티미디어 파일로 파일 안에는 오디오, 비디오, 이미지, URL, 실
행 프로그램까지 포함 가능
• 스트리밍방식을 지원하며 56K 모뎀 정도면 부드럽게 재생 가능
8
2장 사운드
2.6 미디(MIDI)
2.6.1 개요
 미디(MIDI:Musical Instrument Digital interface)는 1983년 세계
악기 제조업체들이 미국 캘리포니아주 산호세에 모여 제정한 전자
악기와 컴퓨터 간의 상호 정보교환을 위한 규약임
 음의 높이 및 음표의 길이, 음의 강약 등에 대한 정보
 실제 음을 듣기 위해서는 그 음을 발생시켜주는 기계(신디사이저,
Synthesizer)가 필요함
 이전에는 전자 악기 간의 호환이 불가능하였으나 MIDI를 이용하
여 여러 전자 악기들에 대해 일관된 방식의 제어가 가능해졌고, 동
시에 여러 악기들에 대한 제어가 가능해짐
9
2장 사운드
2.6.2 시스템의 구성
미디 시스템의 구성
10
2장 사운드
 MIDI 시스템의 흐름
1. 음의 입력 : 신디사이저에서 음을 발생 => 미디 인터페이스 카드 => 컴
퓨터로 전송
2. 음의 처리 : 컴퓨터에서 미디 프로그램(시퀀서 등)을 이용하여 편집
3. 음의 출력 : 컴퓨터 => 미디 인터페이스 카드 => 신디사이저 등의 미디
장치를 통해 음을 스피커로 출력(앰프를 이용하여 스피커로 출력할 수
도 있음)
 미디 인터페이스와 신디사이저와 같은 미디 장치들은 자료를 입력
받는 MIDI-IN단자, 처리된 자료를 출력하는 MIDI-OUT단자, 자료
를 전달(bypass)시키는 MIDI-THRU단자를 가짐
11
2장 사운드
2.6.3 하드웨어 장비
(1) 신디사이저
 전기적인 신호를 합성하여 음을 생성하는 장치
 소리를 발생시키는 음원부와 음원부를 이용하여 연주하는 건반부
로 구성
 음원모듈은 건반부가 없는 것을 마스터 키보드는 음원부가 없는 것
을 의미
신디사이저
12
2장 사운드
 음을 합성하는 방법
1. FM 방식
sine파의 합성
• sine파를 기본으로 하여 소리를 합성하는 방식
• Yamaha사의 초기의 DX 시리즈와 근래의 TG 시리즈나 MU-80 등
13
2장 사운드
2. PCM 방식
• 소리를 디지털로 변환하여 저장하였다가 사용하는 방식
• 음질은 좋으나 정보의 양이 많고, 소리의 변형이 자류롭지는 않으나
원음 재현이 뛰어남
• Roland사의 SC 시리즈, JV 시리즈, Yamaha사의 AWM(Advanced
Wave Memory) 방식 등이 있음
14
2장 사운드
3. AI 방식
• 여러 음에 걸쳐서 여러 번 샘플링한 결과를 음원 모듈로 사용
• 일반적인 신디사이저에서 사용하는 대표음을 녹음하는 방식은 저음
부와 고음부에서 약간 차이가 있음
• 음을 합성할 경우에도 FM 방식 뿐 아니라 샘플링된 음도 사용하는 방
식
• 향상된 PCM 방식과 FM 방식의 합성이라고 볼 수 있음
(2) 샘플러(Sampler)
 신디사이저가 각 악기 음의 대표적인 음을 갖고 있는데 반해 샘플
러는 악기의 모든 음을 갖고 있음
 실제 소리를 녹음하여 악기로 변환하여 쓰거나 각종 효과음으로
활용할 수 있도록 해주는 장비
 좀더 정교한 음을 사용하고자 할 때나 음원에 없는 새로운 음을 만
들고자 할 때 사용
15
2장 사운드
(3) 믹서(Mixer)
 여러 개의 오디오 출력을 섞어서 하나의 출력으로 만들어 주는 역
할
 각 출력의 균형 등을 맞추어 주는 이퀄라이저(Equalizer)가 장착되
어 있어 음악의 균형을 맞추어 녹음하고 연주하는데 많이 이용
(4) 드럼 모듈
 드럼의 소리들만을 담아둔 모듈
 일반 음원 모듈이나 신디사이저의 드럼 소리보다 훨씬 좋은 소리를
내장
16
2장 사운드
(5) MIDI 인터페이스 카드
 시퀀서 프로그램이 실행되는 컴퓨터와 미디 모듈 간의 신호 체계가
다른데 이를 연결해 주는 기능을 함
 Roland사의 MPU-401은 미디 초창기에 개발되어 거의 표준으로
사용되고 있음
(6) 미디 전용 케이블
(7) 앰프와 스피커
17
2장 사운드
2.6.4 미디의 표준 모드
 미디에는 최소한의 규정만 있을 뿐 악기 번호에 대한 것과 이펙터
(음을 연주할 때 특수한 효과를 주는 것)를 조정하는 방식 등에 관
한 규정이 없음
• 예를 들어 A라는 사람은 악기번호 1번에 바이올린을 할당하여 곡을 만
들었는데 그 곡을 B라는 사람이 듣는데 B라는 사람의 환경은 악기번
호 1번에 피아노가 할당되어 있다면 이상한 소리가 연주 됨
18
2장 사운드
2.6.5 미디의 소프트웨어
(1) 작곡용 프로그램(시퀀서,Sequencer)
 음원 모듈에 어떤 악기를 얼마의 강도로 얼마나 오랫동안 소리를
내라고 명령함
 미디 신호를 입출력할 수 있고, 저장되어 있는 미디 데이터를 연주,
편집하는 기능이 있음
 미디 신호는 미디 메시지로 표현
• 미디 장치간에 음악적인 사건 정보를 전달
• 음악적인 사건 : 악기를 연주하면서 연주자가 취하는 동작
• 건반을 누르거나 건반에서 손을 떼는 등의 행동
• 채널 별로 송수신 되는 메시지와 미디 시스템 전체를 제어하는
시스템 메시지로 구분
19
2장 사운드
 CakeWalk
• PC로 미디 작곡이나 편곡 등을 하는데 가장 널리 사용되고 있는 프로
그램
• 마이크로소프트 ActiveMovie지원, 실시간 음향 효과 지원,
DirecSound 지원 등 강력한 미디 사운드와 웨이브 사운드 편집 기능
지원
• 128 트랙의 오디오를 미디와 함께 레코딩 가능하며, 24 비트의 오디오
및 96KHz 표본화율을 지원
• 오디오 및 미디 트랙과 함께 AVI, MPEG, QuickTime 등의 동화상을
동기화시키는 기능, 믹스 기능 제공
• Cubase
• Logic
20
2장 사운드
(2) 악보용 프로그램(Notation, Scoring 프로그램)
•
•
•
모니터 상에 악보를 그리고(scoring), 프린터로 출력하는 출판용 프로
그램
출판 기능 뿐 아니라 편집 기능을 제공하고 있어서 시퀀서와 더불어
많이 이용
Coda사의 Finale
, Passport Design사의 Encore 등
(3) 음색편집용 프로그램(Voice Editor, Sound Editing 프로그램)
•
소리를 편집, 수정하는 프로그램으로 미디 음원 모듈이나 신디사이저
에 있는 각종 음색과 효과음을 바꾸거나 새로 만들 때 사용하는 프로
그램
•
오딧세이소프트(OdysseySoft)사의 Classic-B, KORG사의 X5DR 등
21
2장 사운드
 음성

음성인식-음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이
해할 수 있는 표현방법으로 변환하는 과정
 음향학, 음운학, 언어학등의 지식 포함
 목적: 컴푸터를 사용하여 입력된 사용자의 음성을 자동으로 인식
할 수 있는 시스템 개발 및 기술개발 목적
22
2장 사운드
 분류:

패턴정합법 - 주어진 입력패턴 비교 하여 유사성 정도 측정 - 동적
정합법
 지식기반 방법 - 음성인식과정을 규칙 형태로 저장한 후에 입력되
는 현상에 애하여 저장된 규칙을 적용 인식 - spectro gram reading
Expert
 은닉 마르코프 모델 - 마르코프 체인 모델을 기반으로 음성데이타
의 확률적 모델간의 유사도를 사용하여 인식 수행-SPHINX
23
2장 사운드
음성인식과정
음성인식기 훈련과정
표준패턴
훈련과정
생성
음성입력
전처리
분할
인식과정
24
인식결과
2장 사운드
 전처리단계
• 휴지 제거
 분할단계
• 음소단위로 분할
 인식단계
• 후처리과정 포함하여 오류 교정
25
2장 사운드
 화자인식




음성에 포함되어 있는 화자정보를 추출하여 개인을 확인하는 기술
효과적인 보안기술의 하나
1962년 Kersta가 성문이라고 명명한 spectrogram에서 비롯
패턴 정합법, 은닉 마르코프 방법, 신경회로망, 벡터양자화
26
2장 사운드
 벡터양자화기법
 입력패턴과 양자화코드북내에있는 코드워드표준패턴들 사이의 거
리를 측정하여 가장 거리가 가까운 코드워드에 입력패턴 매칭
 (그림2-8 참조)
27
2장 사운드
화자식별과 화자 인식
화자식별
화자 확인
대상패턴
화자 수(N)
1개
결정방법
특정화자
승인/거부
비교횟수
N회
1회
오류확률
화자 수에 비례
화자 수와 무관
28