数字音频技术 - 计算机与软件学院

Download Report

Transcript 数字音频技术 - 计算机与软件学院

数字音频
处理技术
2.1 数字音频基础知识
一、声音的基本概念
声音是通过一定介质传播的连续的波。
声波 A
周期
振幅
t
重要 振幅:音量的大小
指标 周期:重复出现的时间间隔
频率:指信号每秒钟变化的次数
2-2
2.1 数字音频基础知识
数字音频
处理技术
声音按频率分类:
次声波
可听声波
20 Hz
超声波
20 kHz
f(Hz)
语音信号频率范围:300 Hz~3 kHz
声音质量的频率范围:
CD-DA
FM广播
AM广播
电话
频带
10 20 50
200
3.4 k
7 k 15 k 20 k
f(Hz)
2-3
数字音频
处理技术
2.1 数字音频基础知识
声音的传播携带了信息,它是人类传播
信息的一种主要媒体。
声音的三种类型:
波形声音:包含了所有声音形式。
语音:不仅是波形声音,而且还有丰富
的语言内涵(抽象→提取特征→意义理解)。
音乐:与语音相比,形式更规范。
音乐是符号化的声音。
2-4
数字音频
处理技术
2.1 数字音频基础知识
二、声音的数字化
1.声音信号的类型
模拟信号(自然界、物理)
数字信号(计算机)
2.声音数字化过程
模拟信号
采样
模拟信号
量化
A/D ADC
D/A DAC
编码
数字信号
数字信号
2-5
数字音频
处理技术
2.1 数字音频基础知识
3.声音数字化过程
连续的模拟声音信号
声音信号的采样
示意
离散的音频信号
2-6
数字音频
处理技术
2.1 数字音频基础知识
4.声音数字化三要素
采样频率
量化位数
声道数
每秒钟抽取声 每个采样点用 使用声音通道的
波幅度样本的 多少二进制位 个数
表示数据范围
次数
采样频率越高
声音质量越好
数据量也越大
11.025 kHz
22.05 kHz
44.1 kHz
量化位数越多 立体声比单声道
音质越好
的表现力丰富,
数据量也越大 但数据量翻倍
8位=256
16位=65 536
单声道
立体声
2-7
数字音频
处理技术
2.1 数字音频基础知识
5.声音数字化的数据量
音频数据量=采样频率×量化位数
×声道数/8(KB/s)
采样频率
(kHz)
11.025
22.05
44.1
数据量(KB/s)
量化位数
(bit)
单声道
立体声
8
10.77
21.53
16
21.53
43.07
8
21.53
43.07
16
43.07
86.13
8
43.07
86.13
16
86.13
172.27
2-8
数字音频
处理技术
2.1 数字音频基础知识
三、音频的文件格式
1.WAV文件
WAV是Microsoft/IBM共同开发的PC波形
文件。因未经压缩,文件数据量很大。
特点:声音层次丰富,还原音质好。
2.MP3文件
MP3(MPEG Audio layer3)是一种按MPEG
标准的音频压缩技术制作的音频文件。
特点:高压缩比(11:1),优美音质。
2-9
数字音频
处理技术
2.1 数字音频基础知识
3.WMA文件
WMA(Windows Media Audio)是Windows
Media格式中的一个子集(音频格式)。
特点:压缩到MP3一半。
4.MIDI文件
MIDI(乐器数字接口)是由一组声音或乐
器符号的集合。
特点:数据量很小,缺乏重现自然音。
2-10
数字音频
处理技术
2.1 数字音频基础知识
四、音频的采集与处理
1.声音的采集或获取
①利用录音软件直接录制
②使用专业录音棚录制
③从唱片或录音带中进行转录
④购买数字音频库
2.音频编辑或处理
①删除无用部分,将需要合并的音轨拼贴起来
②降噪,去除录音时的背景噪音
③调节均衡,使得高中低几个频段听起来更加悦耳
④添加混响、延迟和变速等效果
2-11
数字音频
处理技术
2.2 数字音频压缩标准
一、音频压缩方法概述
输入音频信号
编码器
传输/存储
解码器
输出音频信号
压缩编码技术是指用某种方法使
数字化信息的编码率降低的技术
音频信号能压缩的基本依据:
①声音信号中存在大量的冗余度。
②人的听觉具有强音能抑制同时存在的
弱音现象。
2-12
数字音频
处理技术
2.2 数字音频压缩标准
音频信号压缩编码的分类:
①无损压缩(熵编码)
霍夫曼编码、算术编码、行程编码
②有损压缩
波形编码——PCM、DPCM、ADPCM
子带编码、矢量量化
参数编码——LPC
混合编码——MPLPC、CELP
2-13
数字音频
处理技术
2.2 数字音频压缩标准
二、音频压缩技术标准
分类
电话语
音质量
调幅广
播质量
高保真
立体声
标准
说明
G.711 采样8 kHz,量化8 bit,码率64 kb/s
G.721 采用ADPCM编码,码率32 kb/s
G.723 采用ADPCM有损压缩,码率24 kb/s
G.728 采用LD-CELP压缩技术,码率16 kb/s
G.722 采样16 kHz,量化14 bit,码率224(64) kb/s
MPEG
音频
采样44.1 kHz,量化16 bit,码率705 kb/s
(MPEG三个压缩层次,384~64 kb/s)
2-14
数字音频
处理技术
2.2 数字音频压缩标准
三、音频压缩工具软件
音频编辑软件、MP3Resizer
2-15
数字音频
处理技术
2.3 声卡与电声设备
一、声卡(声音卡、音频卡)
1.声卡的主要功能
声卡是负责录音、播音和声音合成的一
种多媒体板卡。其功能包括:
①录制、编辑和回放数字音频文件。
②控制和混合各声源的音量。
③记录和回放时进行压缩和解压缩。
④语音合成技术(朗读文本)。
⑤具有MIDI接口(乐器数字接口)。
2-16
2.3 声卡与电声设备
数字音频
处理技术
2.声卡的组成原理
声波
A/D
话筒输入
数据处理
D/A
扬声器输出
混音器
线性输入
喇叭
线性输出
A/D和D/A
MIDI接口
CD接口
数字音频处理芯片
音乐合成器
总线接口芯片
计算机总线
2-17
数字音频
处理技术
2.3 声卡与电声设备
3.声卡的性能指标
⑴采样和量化能力
衡量音响器材音质好坏。
采样频率:11.025 kHz
(语音效果)
22.05 kHz
(音乐效果)
44.1 kHz
(高保真效果)
量化等级: 8位/256级
(语音质量)
16位/65536级 (高保真质量)
2-18
数字音频
处理技术
2.3 声卡与电声设备
⑵芯片类型
CODEC芯片(依赖CPU,价格便宜)
数字信号处理器DSP(不依赖CPU)
⑶总线类型
ISA总线、PCI总线、USB接口
⑷输出声道数
2声道(立体声)、2.1/4.1/5.1声道
多通道声卡(营造杜比环绕立体声)
2-19
数字音频
处理技术
2.3 声卡与电声设备
4.声卡的外部接口
2-20
数字音频
处理技术
2.3 声卡与电声设备
线性输入接口 用来连接外部音频设备以便进行录音,如
Line In
录音机、CD唱机和音响等
话筒输入接口 用来连接话筒,直接输入现场的声音信号
Mic In
线性输出接口 用来连接外部音频设备的输入口,也可连
Line Out
接大功率有源音响等
扬声器输入接 用来连接扬声器,从声卡的内置功率放大
口/Spk Out 器向扬声器输出声音
游戏杆
用来连接游戏杆或MIDI设备
MIDI接口
CD音频连接器 用来连接CD-ROM驱动器,可以直接播放CD
音乐,而不占用CPU时间
2-21
数字音频
处理技术
2.3 声卡与电声设备
二、传声器
传声器是一种将声信号转换成相应电信
号的能量转换器件,俗称话筒或麦克风。
1.传声器的分类
①按换能原理分类:电动式、电容式、电磁式、
压电式、炭粒式和光纤式。
②按指向性分类:全指向型(O型)、单向型、双
向型(8字型)、超指向型、半球型、半心型。
③按用途分类:会议传声器、演唱传声器、录音
传声器、测量传声器。
④按有线无线分类:有线传声器、无线传声器。
2-22
数字音频
处理技术
2.3 声卡与电声设备
2.传声器的工作原理
工作原理:一种声与能的转换过程,目
前通用的传声器有电动式传声器、电容式传
声器、驻极体式传声器和无线传声器。
3.传声器的性能指标
①灵敏度
②频率响应
③指向性
④输出阻抗
2-23
数字音频
处理技术
2.3 声卡与电声设备
三、扬声器
扬声器俗称喇叭,它是一种将电信号转
换成声音信号的电声器件。
1.扬声器的工作原理
当音圈中通入按声音
变化的电流时,音圈
会在磁场中磁力的作
用下产生相应的振动。
于是就带动纸盆与之
振动。纸盆将振动通
过空气传播出去,于
是就产生了声音。
2-24
数字音频
处理技术
2.3 声卡与电声设备
2.扬声器的分类
按工作原理分类:电动式扬声器、电磁
式扬声器、静电式扬声器、压电式扬声器。
按放声频率分类:低音扬声器、中音扬
声器、高音扬声器、全频带扬声器。
3.扬声器的性能指标
输出功率、频率特性、信噪比、谐波失
真、灵敏度和额定阻抗等。
2-25
数字音频
处理技术
2.3 声卡与电声设备
四、音箱
1.音箱的工作原理
音箱是一种电声转换的发音设备。
发音过程:声卡输出模拟信号→功率放
大器→电流经音箱中的金属线圈产生磁场→
与永久磁铁相互作用产生吸
引和排斥→带动线圈和簿
膜振动→声波。
2-26
数字音频
处理技术
2.3 声卡与电声设备
2.音箱的分类
功放:有源音箱、无源音箱
声道:2.0→双声道立体声
2.1→双声道+超重低音声道
4.1/5.1/7.1
5.1→五声道+超重低音声道
2-27
数字音频
处理技术
2.3 声卡与电声设备
3.音箱的性能指标
输出功率:额定功能、最大峰值功率。
频率范围:指音箱最低有效回放频率和
最高有效回放频率之间的范围。
信噪比:指音箱回放的有效信号与噪声
信号的比值。信噪比较低时,噪声严重。
信噪比=70~80 dB→普通音箱
信噪比=80~90 dB→高档音箱
信噪比>95 dB
→专业音箱
2-28
数字音频
处理技术
2.3 声卡与电声设备
杜比环绕
立体声技术
2-29
数字音频
处理技术
2.4 电子音乐与MIDI
一、电子音乐的发展
最早出现的电子音乐应是电声音乐,它
是指经过电子设备处理后传达给听众的原声
音乐。
人们并不满足电声乐器对物理声波的简
单放大和处理,于是开始研制电子乐器,随
后产生了电子音乐。电子音乐不以物理振动
为基本发音原理,而是完全通过电子设备和
电子手段生成或处理加工的音乐。
2-30
数字音频
处理技术
2.4 电子音乐与MIDI
二、MIDI音乐技术
1.什么是MIDI
乐器数字接口 (Musical Instrument
Digital Interface,MIDI)是一种利用合成
器产生的音乐技术。
采用数字信号处理技术合成的音效:
①模仿钢琴、小提琴、吉他等音色。
②超越时空的太空音乐。
2-31
数字音频
处理技术
2.4 电子音乐与MIDI
2.MIDI标准
MIDI是各种电子音乐设备之间以及与计
算机之间交换信息的国际标准。
MIDI硬件规范:硬件接口标准和信号传
输机制(I/O通道、连接电缆和插座形式)。
MIDI软件规范:音乐信息数字化编码方
式(音符、音符长短、音调和音量等)。
原声钢琴8分音符的C3音:00
音色Piano编号
00
60
音符C3编号
8分音符编号
2-32
数字音频
处理技术
2.4 电子音乐与MIDI
3.MIDI合成方式
⑴调频合成法——FM
原理:MIDI合成器接收到MIDI音乐信息
后,利用傅里叶级数原理将其分解为若干个
不同频率的正弦波,然后生成MIDI音乐信息
中指定乐器的各个正弦波分量,最后将这些
分量合成起来送至扬声器播放。
特点:①系统开销小,声音清脆。
②声音音色少,音质较差。
2-33
数字音频
处理技术
2.4 电子音乐与MIDI
⑵波形表合成法——WT
原理:在MIDI合成器的ROM中预先存放
各种实际乐器的声音样本,在进行音乐合成
时以查表的方式调用这些样本,使其与MIDI
音乐信息的要求完全相配,然后合成器将这
些分段合成的样本送至扬声器播放。
特点:①音乐真实感强,音色自然。
②硬波形表,软波形表。
2-34
2.4 电子音乐与MIDI
数字音频
处理技术
4.MIDI工作过程
音频卡
MIDI乐器
MIDI接口
合成器
音序器
MIDI文件
扬声器
PC机
音序器是MIDI音乐创作
的核心控制部件。
2-35
数字音频
处理技术
2.4 电子音乐与MIDI
三、计算机音乐系统
系统组成:输入设备、音源、音序器
输入设备:电子琴(MIDI In,MIDI Out)
MIDI键盘(省去音源)
Cakewalk虚拟键盘
音源:声卡(模拟乐器发声的设备)
音序器:硬件音序器、软件音序器
Cakewalk, Logic Audio
2-36
数字音频
处理技术
2.4 电子音乐与MIDI
四、音乐软件的分类
Cakewalk 1.0-9.0→Sonar 1.0-4.x
音乐编曲软件 Cubase VSI 5.x→Cubase SX 2.1
(音序器)
合成器软件 Logic Audio(PC版、Apple版)
(MIDI/音频/合成器一体化)
CoolEdit
录音、混音、
Audition
音频编辑软件
GoldWare
效果器软件
效果器插件
(Syntrillium)
(Adobe)
(GoldWare Inc.)
Waves Native Gold Bundle(20以上)
TC Native Bundle(4)
Ultrafunk Sonltus fx(7)
2-37
数字音频
处理技术
2.5 音频编辑软件
一、Audition概述
1.发展历史和基本功能
Cool Edit Pro 1.1/1.2/2.0/2.1
Adobe Audition 1/2/3:集声音录制、
音频混合和编辑于一身的音频处理软件。
主要功能:
①录音、混音、音频压缩和刻录音乐CD。
②音频编辑:插入、叠加、替换、调制等。
③音效处理:降噪、回音、延迟、杂音等。
④与其他音频软件或视频软件协同工作。
2-38
数字音频
处理技术
2.5 音频编辑软件
2.Audition的启动和退出
开始/所有程序→Adobe Audition 3.0
3.Audition的窗口组成
标题栏
文件/效果列表框
菜单栏
波形显示区
工具栏
控制面板
状态栏
电平指示条
2-39
数字音频
处理技术
2.5 音频编辑软件
二、音频的基本操作
1.导入音频
2.录音
选项/Windows录音控制台
从麦克风中输入
文件/新建→“新建波形”对话框
语音:11 025 Hz、单声道、 8-bit
音乐:44 100 Hz、立体声、16-bit
3.播放音频
2-40
数字音频
处理技术
2.5 音频编辑软件
三、音频的剪辑技术
1.选择波形
2.删除波形
3.复制波形
4.剪切波形
5.粘贴波形
6.混合粘贴
2-41
数字音频
处理技术
2.5 音频编辑软件
四、音频的特殊效果
1.改变波形的振幅
如果一个声音的音量太小或者太大,可
以利用Audition的波形振幅效果器调整音量
的大小,使音量适中。
使用方法是:效果/振幅和压限/放大。
淡入效果:指音频选区的起始音量很小甚至无声,
而最终音量相对效大。
淡出效果:指音频选区的起始音量相对较大,而最
终音量很小甚至无声。
2-42
数字音频
处理技术
2.5 音频编辑软件
2.降低噪音
环境噪音是在语音停顿之处有一种振幅
变化不大的声音,它贯穿于整个录制声音。
消除环境噪音的方法是在语音停顿之处
选择一段环境噪音,让CE记录噪音的特征,
然后自动消除所有的环境噪音。
操作步骤: ①选取噪音样本。
②效果/修复/降噪器。
③获取特性。
④波形全选→确定。
2-43
数字音频
处理技术
2.5 音频编辑软件
3.延迟效果
延迟和回声效果可以将输出信号的一部
分反馈回输入端,使之再进入到延时的循环
中去,得到一种重复的回声效果。
镶边效果器是为原来的声音镶上一种奇
特的声音边缘,让人感到一种回旋,游移的
声音效果。
延迟在现代音乐制作中,可以用于营造空间感和增
加现场感。例如模拟各种房间效果、空中回声以及模拟
科幻、水下等声音感觉。
2-44
数字音频
处理技术
2.5 音频编辑软件
五、多轨音频的制作
1.多轨录音
多轨录音是利用音频软件同时在多个音
轨中录制不同的音频信号。多轨录音可以将
先录制好的部分音频保存在一些音轨中,再
进行其他音轨的录制,最终将它们混合制作
成一个完整的音频作品。
2-45
数字音频
处理技术
2.5 音频编辑软件
2.多轨音频波形处理
在多轨视图模式下,可以对音频剪辑进
行非破坏性的整体编辑与处理,而不会破坏
原音频文件,如音轨的导入导出、音频剪辑
的复制、裁剪、合并等。此外,在该视图模
式下,还可以同时处理MIDI音轨、音频轨和
视频轨等多轨操作。
2-46
数字音频
处理技术
2.5 音频编辑软件
3.多轨混缩工程
在多轨视图中的混音器面板,可以对每
个音轨的音量调整其大小,通过动态EQ处理
目标频率范围。单击“EQ”按钮,打开相应
轨道的“EQ”对话框,以图表的形式设置调
节。EQ可以营造不同乐器的层次感,使得声
音在整体上更加平衡。
多轨视图的添加效果与编辑视图有所不
同,可以在主群组面板、混音器面板和效果
框架中添加、排序或删除效果。
2-47
数字音频
处理技术
2.5 音频编辑软件
六、CD音乐的刻录
Audition除了输出音频文件外,还可以
将音频文件直接输出到CD中,这是音像出版
行业中经常会涉及的流程。
CD视图为整合CD轨道、设置轨道属性和
刻录CD等相关工作提供了友好的界面。可以
一次性整合CD轨道或将编辑完成的音频文件
插入到不同的音频轨道中,还可以对各个轨
道进行排序。
2-48
数字音频
处理技术
2.6 语音识别技术
语音识别:利用计算机自动识别语音的
技术。如①将语音转换成其所对应的文字,
②利用语音信号中所包含的特定人的信息进
行说话人身份辨认的说话人识别技术。
一、语音识别的发展历史
1952年:Bell实验室研制出可识别10个
英文数字的语音识别器(Audry系统)。
1988年:卡内基·梅隆大学研制SPHINX
识别系统(非特定人、大词汇量、连续语音)。
2-49
数字音频
处理技术
2.6 语音识别技术
二、语音识别基本原理
语音识别本质上是一种模式识别过程,
主要包括语音信号预处理、特征提取、特征
建模(建立参考模式库)、相似性度量(模式
匹配)和后处理等几个功能模块。
2-50
数字音频
处理技术
2.6 语音识别技术
三、语音识别系统的分类
1.根据词汇量大小
小词汇量:<100词
中词汇量:100~1 000词
大词汇量:1 000词以上
2.根据对说话人依赖程度
特定人:针对某个用户进行识别工作。
非特定人:针对任何人进行识别工作。
2-51
数字音频
处理技术
2.6 语音识别技术
3.根据对说话人说话方式
孤立词识别:每次只含词汇表中的一个
词条,如一个词、一个词组或一条命令。
连接词识别:每次说词汇表中若干个词
条来进行识别,该若干词条以慢速连续的方
式连续说出,一般指十个数字连接而成的多
位数字的识别。
连续语音识别:指说话人以日常自然的
方式讲述并进行识别。
2-52
数字音频
处理技术
2.6 语音识别技术
四、语音识别软件
中文听写
语音识别软件 语音命令
语音合成
IBM ViaVoice 8.0中文语音识别系统
2-53
数字音频
处理技术
本章小结
☆声音数字化,音乐符号化
☆数字音频三要素,音频的文件格式
☆数字音频压缩标准
音频压缩工具软件的使用
☆声卡和电声设备的工作原理及指标
☆电子音乐合成技术及其规范
☆音频编辑软件,Audition的使用
☆语音识别技术,ViaVoice的使用
2-54