CSE 2340 Lectures

Download Report

Transcript CSE 2340 Lectures

第六章 声音基本概念
一、声音的数字化
什么是声音?
声音是通过一定介质(如空气、水等)传播的连续的波
物理特性
frequency (Hz)
amplitude/power(W,mW)
shape of waveform
心理/生理感觉特性
音调,音高(12音阶)
音量, 响度(Phon, 方)
音色
注意:物理特性与心理/生理感觉有关,但并不是线性关系!
Slide 2
纯音与复音
Slide 3
声音的分类(1)
• 按频率划分:
– 次声(Infra-sound)
0-20Hz
– 可听声 (Audio)
20-20kHz
– 超声 (Ultrasound)
20kHZ-1GHz
• 可听声中,声音分为:
– 语音,言语 ( speech )
– 全频带声音
300-3400Hz
20-20kHz
•
音乐 ( music )
•
其它声音 (effect sound, noise)
Slide 4
声音的分类(2)
• 数字波形声音
– 语音
– 音乐
– 效果声
• 数字合成声音
– 合成语音
– MIDI
Slide 5
3 声音信号的数字化
能够无失真地恢复出原始信号的
最低取样频率称为Nyquist取样
频率。取样定理表明:Nyquist
取样频率为原始信号最高频率的
2倍。
模
拟
声
音
信
号
取 样
量 化
量化精度既决定了取样值的
动态范围,也决定着所引入
的噪声大小。
数
字
声
01100011001··· 音
编 码
Slide 6
Nyquist取样频率
Slide 7
数字波形声音的基本参数
sampling frequency(取样频率)
quantization bits(量化位数)
number of sound channels(声道数目)
encoding method ( compression method )(压缩编码方
法)
bit rate(码率,比特率),每秒钟的数据量
Slide 8
数字化声音举例
声音
类型
电话
AM
广播
FM
广播
CD
DAT
磁带
带宽
(Hz)
300~
3,400
50~
7,000
20~
15,000
20~
20,000
20~
20,000
取样频率
(kHz)
量化位数
(bits)
声道
数
码率
(kb/s)
8
8
1
64
11.025
8
1
88.2
22.050
16
2
705.6
44.1
16
2
1411.2
48
16
2
1536
Slide 9
信噪比和信号量化噪声比
• 信噪比(Signal-to-Noise Ratio SNR)
SNR  10 log10
2
Vsignal
2
noise
V
 20log
10
Vsignal
Vnoise
• 信号量化噪声比(Signal-to-Quantization-Noise
Ratio SQNR)
SQNR  20log10
Vsignal
Vnoise
 20log10
2 N 1
1
2
 20 N  log 2  6.02N (db)
Slide 10
非线性量化
• 目的 : 适应听觉的非线性特性;
压缩数据。
• 北美和日本等地区
( μ律压扩算法)
• 欧洲和中国大陆
等地区
( A律压扩算法)
当 0 =< |x| =< 1/A
当 1/A < |x| =< 1
Slide 11
声音获取设备
联机获取设备
模
拟
声
音
声波转换
为电波
麦克风
(microphone)
取样、量化、
压缩、编码、
声音卡
(sound card)
数
字
声
音
 脱机获取设备:数码录音笔
Slide 12
麦克风
 动圈式麦克风Moving-coil MIC (Dynamic)
利用声波推动震膜,震膜带动线圈,利用磁力线的改
变产生微弱的电压。例
 电容式麦克风Condenser MIC
 丝带式麦克风RIBBON MIC
 压电式麦克风PIEZO-ELECTRONIC MIC
Slide 13
麦克风的指向性(Directional)
• 指向性是指话筒灵敏度随声波入射方向而变化的特性
• 区分:
– 心型指向指向麦克风
– 超心型指向麦克风
– 全指向麦克风
– 8字型球指向麦克风
Slide 14
声卡 (sound card )
用途:
 波形声音的获取、编码;

波形声音的重建、播放;

MIDI声音的输入;

MIDI声音的合成、播放;

(CD-ROM 驱动器的控制,CD-DA声音的播放。)
Slide 15
声卡的性能参数
最高取样频率、量化精度;
输出功率(1~10W);
是否支持波表合成,波表的容量;
芯片类型:Advance Logic,Aureal,ESS…
支持的API:D3D、A3D、EAX…
CPU占有率
Money
Slide 16
二、语音合成(Speech synthesis)
概述
语音合成:利用适当的方法和手段,从文本、概念或意向通过
合成产生语音的过程。
对合成语音的要求:
– 可理解、自然、低延迟、
– 语速可变
– 声音可变
– 语言可变
应用:
声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等.
Slide 18
语音基础知识
 音素(phoneme)是语音的最小单位。音素分为:
– 元音(vowel)(浊音),不受声道阻碍的音。
– 辅音(consonant)(浊音或清音), 受声道阻碍的音。
Slide 19
英语语音
– 每字(词)一个或几个音节(syllable)(多音节字)
– 音节由一个或几个音素组成
– 英语的音素:
•
元音20个
•
辅音28个
Slide 20
汉语语音
 每字一个音节(syllable)(单音节字)
 音节由一个或几个音素组成
 汉语的音素
 声母(21个,b,p,m,f,d,t,n,l,······)
 韵母(39个,a, e,i, o, u,ao,ou,an,en,eng,ong,)
 音调(4个: 阴平、阳平、上声、去声)
 汉语语音的数目:
 无声调的音节数目:412个
 带声调的音节数目:1282个
Slide 21
汉语语音的特点
(1)音系简单(音节少、音素少)
(2)汉语没有词的自然界限——分词问题
咬死了猎人的狗
下雨天留客天留我不留
今年真好晦气全无财帛进门
熊出没注意!
(3)一字多音:
我们都是同行,我们一路同行,去参加人参培植研讨会。
(4)数字的读音:
南京大学计算机系2002年招收了202名本科生,130
多名硕士生,分成2个专业。
Slide 22
文语转换过程
查找拼写错误,对不规
根据文本的结构、组成和
范或无法发音的字符进行
文本
发音
规则库
文本分析与理解
文本到发音
的转换
韵律分析
语音生成
韵律
规则库
韵律控制参数
发音标注
语音
基元库
标点符号,确定发音时语
过滤。
气的变换以及不同音的轻
分析文本中词或短语的
重方式。
边界,
分析并决定各个音节的声
分析文本中的数字、姓
调、语气和停顿方式,发
氏、特殊字符、专有词语
音的轻重、长短等
等有关词语读音的性质。
韵律控制
一串语音基元
合成语音
Slide 23
文语转换方法
– 参数合成法
– 波形拼接法
Slide 24
参数合成法
发音标注
先从音素库
中选择相应
的声学参数
音素
参数库
声学
参数
根据韵律控
制参数作一
定的修改调
整
“声道―滤波
器”模型
韵律标注
合成的
语音
“声道―滤波器”模
型按照激励源和滤波
器的参数(一般每隔
10ms-30ms一组参
数),合成出语音。
• 优点:音素参数库比较小,韵律控制能力较强
• 不足:音质难以达到较好的水平
Slide 25
波形拼接法
发音标注
语音基元
波形库
波形
预先存储了大量语音基元(字
或词组)的波形,合成时,按
字(词)读取基元的波形
波形拼接与韵
律修饰
韵律标注
合成的
语音
进行拼接和韵
律修饰,然后
输出连续语流
• 优点:语音基元取自自然语音的词或句子,它隐含了声
调、重音、发音速度变化时的细微特性,合成的语音清
晰自然,其质量普遍高于参数合成法.
• 缺点: 韵律参数修改范围受限, 机器味较浓,其自然度还
不能达到用户可广泛接受的程度
Slide 26
波形拼接法需考虑的问题
语音基元的选择。语音基元是拼接的基本单位。它可能
是音素、半音节(首音、尾音)、音节、词语、语句等。
基元越小,语音数据库越小,拼接越灵活,韵律修饰的
规则就越复杂。
语音基元的样板数。对于同一个基元,由于语境不同和
重音表现不同,其声学特征有很大差别。为了减小韵律
修饰的负担,可以建立多样板语音数据库。
Slide 27
几个TTS系统
• 中国科大讯飞TTS系统
http://www.iflytek.com/
• 微软亚洲研究院的木兰系统
https://research.microsoft.com/speech/tts/TTS.asp
• 贝尔实验室
http://www.bell-labs.com/project/tts/mandarin.html
• IBM的ViaVoice
Slide 28
实例
1.
下雨天留客天留我不留 中科大
微软
2. 南京大学计算机系2002年招收了202名本科生,130
多名硕士生,分成2个专业。中科大
微软
3. 我们都是同行,我们一路同行,去参加人参培植研讨
会
中科大
微软
4. SOHO是Small Office Home Office的缩写,亦即
“小型的、家庭的办公室”的含义。中科大
微软
5. 比如“很久没见了”这句话,英文正确的说法应该是
“I haven't seen you for a long time.”,一些人
凑凑合合地说成“Long time no see.”——不合语法,
但意思明白了。中科大 微软
Slide 29
进一步的发展方向
 提高合成语音的自然度
 丰富合成语音的表现力
 多语种文语合成(multi-language TTS).
 文本到可视语音的转换(text-to-visual speech,TTVS),
Slide 30
三、音乐合成与MIDI
1. 音乐的电子合成
什么是音乐?
• 音乐使用乐谱描述,由乐器演奏而成的一段旋律。
• 音乐的基本单元是音符(notes), 音符有如下属性:
– 音调(distinct pitches)所有不同音调的音符<128个
– 音色(different musical instruments)
– 音强(various volumes)
– 持续时间(Note On——Note Off)
Slide 33
什么是MIDI
• 海阔天空
• MIDI是乐器数字化接口(Musical Instrument
Digital Interface)的缩写。所以说MIDI并不是一个
实在的东西,而是一个国际通用的标准接口。通过它,
各种MIDI设备都可以准确传送MIDI信息。
Slide 34
音乐的电子合成
• 输入设备:为了符合人们原有的音乐习惯,人们制造了各
种基于传统乐器形式上的MIDI乐器,如MIDI键盘,
MIDI吹管,MIDI吉它,MIDI小提琴等等,你可以按照
演奏传统乐器的方式去演奏它们,然后你的演奏便通过
MIDI接口被音序器接收并存储为音序内容。
• 音序器:把一首曲子所需的音色,节奏,音符等等按照一
定的序列组织好让音源发声,它实际上是记录了音乐的一
般要素,拍子,音高,节奏,音符时值等。MIDI文件的
本质内容实际上就是音序内容。
• 音源:能模拟乐器生成各种不同音色音符的电子合成器。
Slide 35
MIDI合成器的特性 1
• MIDI合成器相当于一个电子乐队,它划分成16个
Channel(通道),每个通道是1个逻辑合成器, 各个逻辑
合成器可演奏不同的乐器和不同的乐谱。每个通道的
volume, pan及其它特性均可独立设置。
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Slide 36
MIDI合成器的特性
• 每个通道能演奏最多128种不同的乐器(称为音色)。不同乐
器有不同编号(称为Program或Patch号)。每个通道一次
只能演奏一种乐器,但可随时改变;但声部数可以有若干
个。即,每个MIDI 通道在某一时间里可进行一种音色的
独奏、齐奏或合奏。
Slide 37
音源的分类
• 按照工作原理,音源可分2类:
– 调频合成器(FM), 1983
– PCM波形合成器, 1991
Slide 38
数字调频(FM)音乐合成器
乐谱
音符声
学参数
合成的
音乐
不同音色音
符的参数库 (A,Wm,I,Wc)
(声音强度、音长)
Y(t)=A*Sin(Wc*t+I*Sin(Wm*t))
文本
音素的
发音
文 标注
“声道―滤波
语音音素 声学参数
本
器”模型
参数库
分
析
合成的
语音
韵律标注
Slide 39
波表合成器
波表的制作:
每种乐器的每个音符的数字化波形,选择若干周期,把它们组织成一
张表(波表),存放在ROM中。
乐器
演奏
录音
低通滤波
采样、量化
波表
存储器
加工处理
波表的使用:合成音乐时根据乐器类型及音符等访问ROM,取出对应的
波 形数据,修饰成所要求的音强和时长,进行播放。
波表
存储器
解码
修饰
DAC
播放
合成的
音乐
Slide 40
2. MIDI(乐器数字接口) 规范
MIDI(乐器数字接口) 规范
MIDI是音乐的数字表示方法,包含音符、定时、乐器指派等,也是数
字电子乐器互相连接、互相通信的标准。(1983) 内容包括:
– 设备的互连与通信协议;
– MIDI message(MIDI消息)的规范;
– MIDI 文件(SMF)的格式;
– MIDI 时间代码(MTC),使音/视频设备与MIDI设备同步;
– MIDI Machine control(MMC),使录音设备与MIDI设备同步
– MIDI Show control(MSC);使舞台灯光设备与MIDI 设备同步。
Slide 42
MIDI设备的接口
MIDI thru MIDI out MIDI in MIDI in
电源
音频输出
To host
MIDI音源的后面板
• MIDI设备端口(5芯DIN插座,菊花链方式连接):
– MIDI in (MIDI合成器通过MIDI in接收 MIDI 消息 )
– MIDI out (演奏控制器通过MIDI out 输出MIDI消息 )
– MIDI thru (MIDI合成器通过MIDI thru 转发MIDI消息 )
Slide 43
MIDI 设备的互连
MIDI message
(MIDI out)
(MIDI演奏器)
(MIDI
in) (MIDI音源,MIDI合成器)
•MIDI演奏器( 又
称MIDI 发送器,
MIDI键盘)
•MIDI接收器(MIDI
音源)接收MIDI
message, 合成出乐曲
的声音.
Slide 44
MIDI Message
• 作用: 描述乐曲的乐谱及演奏要求, 控制MIDI合成器进行
演奏 。
• 分类:
– Channel message (状态字节8-E)
• Voice messages
• mode messages
– System message(状态字节F)
• Common messages
• Real-time messages
• Exclusive messages
Slide 45
Voice Message
Slide 46
Mode Message
Slide 47
System Message
Slide 48
MIDI标准的发展和补充
• General MIDI (GM) ,对128种电子乐器(音色)的分类
和排列作了规定,每个音色有一个序号,8个相似音效的
音色编为一组,供16组。
• XG标准(YAMAHA),在音色数量(扩充为480种)、音
色编辑、音响效果控制以及外部音频输入等4个方面对
GM进行了扩充。
Slide 49
MIDI小结
• 优点
– 数据量少(比CD-DA少3个数量级)。
– 易于制作和编辑修改。
– 可以与波形声音同时播放。
• 问题
– 是MIDI控制器与合成器之间的通信协议, 描述的是音
符,而没有描述合成的算法。
– 音质与硬件相关。
Slide 50