CSE 2340 Lectures

Transcript CSE 2340 Lectures

第六章声音基本概念
一、声音的数字化
什么是声音？
声音是通过一定介质（如空气、水等）传播的连续的波
物理特性
frequency (Hz)
amplitude/power(W,mW)
shape of waveform
心理/生理感觉特性
音调,音高(12音阶)
音量, 响度(Phon, 方)
音色
注意：物理特性与心理/生理感觉有关，但并不是线性关系！
Slide 2
纯音与复音
Slide 3
声音的分类（1）
• 按频率划分：
– 次声(Infra-sound)
0-20Hz
– 可听声 (Audio)
20-20kHz
– 超声 (Ultrasound)
20kHZ-1GHz
• 可听声中，声音分为：
– 语音,言语 ( speech )
– 全频带声音
300-3400Hz
20-20kHz
•
音乐 ( music )
•
其它声音 (effect sound, noise)
Slide 4
声音的分类（2）
• 数字波形声音
– 语音
– 音乐
– 效果声
• 数字合成声音
– 合成语音
– MIDI
Slide 5
3 声音信号的数字化
能够无失真地恢复出原始信号的
最低取样频率称为Nyquist取样
频率。取样定理表明：Nyquist
取样频率为原始信号最高频率的
2倍。
模
拟
声
音
信
号
取样
量化
量化精度既决定了取样值的
动态范围，也决定着所引入
的噪声大小。
数
字
声
01100011001··· 音
编码
Slide 6
Nyquist取样频率
Slide 7
数字波形声音的基本参数
sampling frequency(取样频率)
quantization bits(量化位数)
number of sound channels(声道数目)
encoding method ( compression method )(压缩编码方
法)
bit rate(码率，比特率)，每秒钟的数据量
Slide 8
数字化声音举例
声音
类型
电话
AM
广播
FM
广播
CD
DAT
磁带
带宽
(Hz)
300～
3,400
50～
7,000
20～
15,000
20～
20,000
20～
20,000
取样频率
(kHz)
量化位数
(bits)
声道
数
码率
(kb/s)
8
8
1
64
11.025
8
1
88.2
22.050
16
2
705.6
44.1
16
2
1411.2
48
16
2
1536
Slide 9
信噪比和信号量化噪声比
• 信噪比（Signal-to-Noise Ratio SNR）
SNR  10 log10
2
Vsignal
2
noise
V
 20log
10
Vsignal
Vnoise
• 信号量化噪声比（Signal-to-Quantization-Noise
Ratio SQNR）
SQNR  20log10
Vsignal
Vnoise
 20log10
2 N 1
1
2
 20 N  log 2  6.02N (db)
Slide 10
非线性量化
• 目的 : 适应听觉的非线性特性；
压缩数据。
• 北美和日本等地区
（ μ律压扩算法）
• 欧洲和中国大陆
等地区
（ A律压扩算法）
当 0 =< |x| =< 1/A
当 1/A < |x| =< 1
Slide 11
声音获取设备
联机获取设备
模
拟
声
音
声波转换
为电波
麦克风
（microphone）
取样、量化、
压缩、编码、
声音卡
（sound card）
数
字
声
音
 脱机获取设备：数码录音笔
Slide 12
麦克风
 动圈式麦克风Moving-coil MIC (Dynamic)
利用声波推动震膜，震膜带动线圈，利用磁力线的改
变产生微弱的电压。例
 电容式麦克风Condenser MIC
 丝带式麦克风RIBBON MIC
 压电式麦克风PIEZO-ELECTRONIC MIC
Slide 13
麦克风的指向性(Directional)
• 指向性是指话筒灵敏度随声波入射方向而变化的特性
• 区分：
– 心型指向指向麦克风
– 超心型指向麦克风
– 全指向麦克风
– 8字型球指向麦克风
Slide 14
声卡 (sound card )
用途：
 波形声音的获取、编码；

波形声音的重建、播放；

MIDI声音的输入；

MIDI声音的合成、播放；

(CD-ROM 驱动器的控制，CD-DA声音的播放。)
Slide 15
声卡的性能参数
最高取样频率、量化精度；
输出功率（1~10W）；
是否支持波表合成，波表的容量；
芯片类型：Advance Logic，Aureal，ESS…
支持的API：D3D、A3D、EAX…
CPU占有率
Money
Slide 16
二、语音合成(Speech synthesis)
概述
语音合成：利用适当的方法和手段，从文本、概念或意向通过
合成产生语音的过程。
对合成语音的要求：
– 可理解、自然、低延迟、
– 语速可变
– 声音可变
– 语言可变
应用：
声讯服务，自动应答, 有声电子邮件, 残疾人服务, 自动配音等.
Slide 18
语音基础知识
 音素(phoneme)是语音的最小单位。音素分为：
– 元音(vowel)（浊音），不受声道阻碍的音。
– 辅音(consonant)（浊音或清音），受声道阻碍的音。
Slide 19
英语语音
– 每字(词)一个或几个音节(syllable)（多音节字）
– 音节由一个或几个音素组成
– 英语的音素：
•
元音20个
•
辅音28个
Slide 20
汉语语音
 每字一个音节(syllable)（单音节字）
 音节由一个或几个音素组成
 汉语的音素
 声母(21个，b,p,m,f,d,t,n,l,······)
 韵母(39个，a, e,i, o, u,ao,ou,an,en,eng,ong,)
 音调(4个: 阴平、阳平、上声、去声)
 汉语语音的数目：
 无声调的音节数目：412个
 带声调的音节数目：1282个
Slide 21
汉语语音的特点
（１）音系简单（音节少、音素少）
（２）汉语没有词的自然界限——分词问题
咬死了猎人的狗
下雨天留客天留我不留
今年真好晦气全无财帛进门
熊出没注意！
（３）一字多音：
我们都是同行，我们一路同行，去参加人参培植研讨会。
（4）数字的读音：
南京大学计算机系2002年招收了202名本科生，130
多名硕士生，分成2个专业。
Slide 22
文语转换过程
查找拼写错误，对不规
根据文本的结构、组成和
范或无法发音的字符进行
文本
发音
规则库
文本分析与理解
文本到发音
的转换
韵律分析
语音生成
韵律
规则库
韵律控制参数
发音标注
语音
基元库
标点符号，确定发音时语
过滤。
气的变换以及不同音的轻
分析文本中词或短语的
重方式。
边界，
分析并决定各个音节的声
分析文本中的数字、姓
调、语气和停顿方式，发
氏、特殊字符、专有词语
音的轻重、长短等
等有关词语读音的性质。
韵律控制
一串语音基元
合成语音
Slide 23
文语转换方法
– 参数合成法
– 波形拼接法
Slide 24
参数合成法
发音标注
先从音素库
中选择相应
的声学参数
音素
参数库
声学
参数
根据韵律控
制参数作一
定的修改调
整
“声道―滤波
器”模型
韵律标注
合成的
语音
“声道―滤波器”模
型按照激励源和滤波
器的参数(一般每隔
10ms-30ms一组参
数)，合成出语音。
• 优点：音素参数库比较小，韵律控制能力较强
• 不足：音质难以达到较好的水平
Slide 25
波形拼接法
发音标注
语音基元
波形库
波形
预先存储了大量语音基元(字
或词组)的波形，合成时，按
字(词)读取基元的波形
波形拼接与韵
律修饰
韵律标注
合成的
语音
进行拼接和韵
律修饰，然后
输出连续语流
• 优点:语音基元取自自然语音的词或句子，它隐含了声
调、重音、发音速度变化时的细微特性，合成的语音清
晰自然，其质量普遍高于参数合成法.
• 缺点: 韵律参数修改范围受限, 机器味较浓，其自然度还
不能达到用户可广泛接受的程度
Slide 26
波形拼接法需考虑的问题
语音基元的选择。语音基元是拼接的基本单位。它可能
是音素、半音节（首音、尾音）、音节、词语、语句等。
基元越小，语音数据库越小，拼接越灵活，韵律修饰的
规则就越复杂。
语音基元的样板数。对于同一个基元，由于语境不同和
重音表现不同，其声学特征有很大差别。为了减小韵律
修饰的负担，可以建立多样板语音数据库。
Slide 27
几个TTS系统
• 中国科大讯飞TTS系统
http://www.iflytek.com/
• 微软亚洲研究院的木兰系统
https://research.microsoft.com/speech/tts/TTS.asp
• 贝尔实验室
http://www.bell-labs.com/project/tts/mandarin.html
• IBM的ViaVoice
Slide 28
实例
1.
下雨天留客天留我不留中科大
微软
2. 南京大学计算机系2002年招收了202名本科生，130
多名硕士生，分成2个专业。中科大
微软
3. 我们都是同行，我们一路同行，去参加人参培植研讨
会
中科大
微软
4. SOHO是Small Office Home Office的缩写，亦即
“小型的、家庭的办公室”的含义。中科大
微软
5. 比如“很久没见了”这句话，英文正确的说法应该是
“I haven't seen you for a long time．”，一些人
凑凑合合地说成“Long time no see.”——不合语法，
但意思明白了。中科大微软
Slide 29
进一步的发展方向
 提高合成语音的自然度
 丰富合成语音的表现力
 多语种文语合成(multi-language TTS).
 文本到可视语音的转换(text-to-visual speech，TTVS)，
Slide 30
三、音乐合成与MIDI
1. 音乐的电子合成
什么是音乐？
• 音乐使用乐谱描述，由乐器演奏而成的一段旋律。
• 音乐的基本单元是音符(notes), 音符有如下属性：
– 音调（distinct pitches）所有不同音调的音符<128个
– 音色（different musical instruments）
– 音强（various volumes）
– 持续时间（Note On——Note Off）
Slide 33
什么是MIDI
• 海阔天空
• MIDI是乐器数字化接口(Musical Instrument
Digital Interface)的缩写。所以说MIDI并不是一个
实在的东西，而是一个国际通用的标准接口。通过它，
各种MIDI设备都可以准确传送MIDI信息。
Slide 34
音乐的电子合成
• 输入设备：为了符合人们原有的音乐习惯，人们制造了各
种基于传统乐器形式上的MIDI乐器，如MIDI键盘，
MIDI吹管，MIDI吉它，MIDI小提琴等等，你可以按照
演奏传统乐器的方式去演奏它们，然后你的演奏便通过
MIDI接口被音序器接收并存储为音序内容。
• 音序器：把一首曲子所需的音色，节奏，音符等等按照一
定的序列组织好让音源发声，它实际上是记录了音乐的一
般要素，拍子，音高，节奏，音符时值等。MIDI文件的
本质内容实际上就是音序内容。
• 音源：能模拟乐器生成各种不同音色音符的电子合成器。
Slide 35
MIDI合成器的特性 1
• MIDI合成器相当于一个电子乐队，它划分成16个
Channel（通道），每个通道是1个逻辑合成器, 各个逻辑
合成器可演奏不同的乐器和不同的乐谱。每个通道的
volume, pan及其它特性均可独立设置。
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Slide 36
MIDI合成器的特性
• 每个通道能演奏最多128种不同的乐器(称为音色)。不同乐
器有不同编号（称为Program或Patch号）。每个通道一次
只能演奏一种乐器，但可随时改变；但声部数可以有若干
个。即，每个MIDI 通道在某一时间里可进行一种音色的
独奏、齐奏或合奏。
Slide 37
音源的分类
• 按照工作原理,音源可分2类：
– 调频合成器(FM), 1983
– PCM波形合成器, 1991
Slide 38
数字调频（FM）音乐合成器
乐谱
音符声
学参数
合成的
音乐
不同音色音
符的参数库 (A,Wm,I,Wc)
(声音强度、音长)
Y(t)=A*Sin(Wc*t+I*Sin(Wm*t))
文本
音素的
发音
文标注
“声道―滤波
语音音素声学参数
本
器”模型
参数库
分
析
合成的
语音
韵律标注
Slide 39
波表合成器
波表的制作：
每种乐器的每个音符的数字化波形，选择若干周期，把它们组织成一
张表(波表)，存放在ROM中。
乐器
演奏
录音
低通滤波
采样、量化
波表
存储器
加工处理
波表的使用：合成音乐时根据乐器类型及音符等访问ROM，取出对应的
波形数据,修饰成所要求的音强和时长，进行播放。
波表
存储器
解码
修饰
DAC
播放
合成的
音乐
Slide 40
2. MIDI(乐器数字接口) 规范
MIDI(乐器数字接口) 规范
MIDI是音乐的数字表示方法，包含音符、定时、乐器指派等，也是数
字电子乐器互相连接、互相通信的标准。(1983) 内容包括：
– 设备的互连与通信协议；
– MIDI message(MIDI消息)的规范；
– MIDI 文件(SMF)的格式；
– MIDI 时间代码(MTC)，使音/视频设备与MIDI设备同步;
– MIDI Machine control(MMC),使录音设备与MIDI设备同步
– MIDI Show control(MSC)；使舞台灯光设备与MIDI 设备同步。
Slide 42
MIDI设备的接口
MIDI thru MIDI out MIDI in MIDI in
电源
音频输出
To host
MIDI音源的后面板
• MIDI设备端口（5芯DIN插座，菊花链方式连接）：
– MIDI in (MIDI合成器通过MIDI in接收 MIDI 消息 )
– MIDI out (演奏控制器通过MIDI out 输出MIDI消息 )
– MIDI thru (MIDI合成器通过MIDI thru 转发MIDI消息 )
Slide 43
MIDI 设备的互连
MIDI message
(MIDI out)
(MIDI演奏器)
(MIDI
in) (MIDI音源，MIDI合成器)
•MIDI演奏器（又
称MIDI 发送器，
MIDI键盘）
•MIDI接收器（MIDI
音源）接收MIDI
message，合成出乐曲
的声音.
Slide 44
MIDI Message
• 作用：描述乐曲的乐谱及演奏要求, 控制MIDI合成器进行
演奏。
• 分类：
– Channel message (状态字节8-E)
• Voice messages
• mode messages
– System message(状态字节F)
• Common messages
• Real-time messages
• Exclusive messages
Slide 45
Voice Message
Slide 46
Mode Message
Slide 47
System Message
Slide 48
MIDI标准的发展和补充
• General MIDI (GM) ，对128种电子乐器（音色）的分类
和排列作了规定，每个音色有一个序号，8个相似音效的
音色编为一组，供16组。
• XG标准(YAMAHA)，在音色数量（扩充为480种）、音
色编辑、音响效果控制以及外部音频输入等4个方面对
GM进行了扩充。
Slide 49
MIDI小结
• 优点
– 数据量少（比CD-DA少3个数量级）。
– 易于制作和编辑修改。
– 可以与波形声音同时播放。
• 问题
– 是MIDI控制器与合成器之间的通信协议, 描述的是音
符,而没有描述合成的算法。
– 音质与硬件相关。
Slide 50

CSE 2340 Lectures

Transcript CSE 2340 Lectures

Directory