4. MPEG Audio

Download Report

Transcript 4. MPEG Audio

IP 电话介绍
•
•
•
•
•
•
•
•
IP电话的形式
Voice over IP (VoIP)
Internet 电话
IP电话关键技术
IP电话系统结构
IP电话的质量控制
管理与计费
IP电话的标准
IP 电话 (Voice over IP, VoIP)
• Internet电话的四种形式:
计算机到计算机
计算机到电话
电话到计算机
电话到电话
• Internet电话的优点:
费用低;“Call anywhere; Talk forever; Never pay long
distance.”
安全保密;
选择交谈者。
2015/7/18
第二章 音频信息处理  音频编码标准
2
IP 电话 (Voice over IP, VoIP)
•
•
•
•
•
AT&T:1997年11月在Internet 上进行IP电话试验,
1998年5月,在亚特兰大、波士顿、旧金山推出IP
电话服务。
Bell Atlantic/GTE
VocalTec
Global Exchange Carrier
IP电话经营试验:
中国电信、中国联通、吉通公司、中国网通、(中国
移动互联网)、中铁通信
2015/7/18
第二章 音频信息处理  音频编码标准
3
Internet 电话 (IP phone)
从1999年4月开通IP电话试验网到1999年底,在这9个月中,
IP电话话务量总计达到10387万分钟,其业务量在电信总
业务中的比例为0.192%。
2000年4月,中国IP电话开始正式运营,截止到2000年底,
IP电话业务量增长至307492万分钟。
• 与1999年试验期相比,2000年IP电话业务量在我
国电话业务量中的比例,呈现大幅度增长态势,
比例达到4.5%;
• 中国IP电话国际长途通话时长已经占到国际长途
话务量的20%,分流了大批的国际话务量,这也是
固定电话国际长途话务量和港澳台长途话务量出
现负增长的主要原因。
2015/7/18
第二章 音频信息处理  音频编码标准
4
Internet 电话 (IP phone):
•
信息产业部决定:
从2000年4月1日起开放我国的IP电话业务
采用TCP/IP协议的网络,提供国内长途电话、国际长途
或传真。
•
信息产业部制定:
《IP电话/传真业务总体技术要求》
《IP电话网关设备互通技术规范》
2015/7/18
第二章 音频信息处理  音频编码标准
5
IP 电话产品
中国联通海南分公司采用华为A8010 IP电话设备承建了覆
盖广州、海口、三亚的VoIP实验网,以国标的方式实现网内互
通。华为进行了基于IP电话的新业务IPN和华为设备与思科设
备互通的演示。
华为公司的VoIP设备具有电信级的可靠性,符合国标;设
备容量大,可扩展性好,可根据业务的发展持续平滑扩容;接
通率高,在模拟呼叫器产生的大话务量呼叫的情况下语言和传
真质量良好;能够很好地支持PSTN的各种信令;支持集成建
设,能与IP网关、接入网关、接入服务器统一硬件平台;具有
路由备份转换功能;能在实验环境下通过互通代理设备的方式
实现与思科设备的完全互通;能够灵活方便地提供增值业务;
在网管和话务统计方面功能较好。
2015/7/18
第二章 音频信息处理  音频编码标准
6
IP 电话产品
我国 IP电话网关设备最大的一次出口:三九电脑技
术有限公司自主研发生产的IP电话网关设备最近大规模打入美
国电信市场,出口总金额为1876万美元。
“三网合一”:即数据、语音、图像网统一在单一的
IP网络上,三九电脑技术公司研发的VOIP电话网关设备在商业
上的应用揭开了这一合网的序幕。三九VOIP根据不同用户的需
求推出了电信级、企业级、家用级产品系列。
Farsite
Iphone
SoftFone
VoxPhone
FreeTel
Internet Video
Sound Ideas
Webphone
Internet Call
NetMeeting
Speak Freely
WebTalk
PGPphone
Talk Show
Internet
Conection phone
2015/7/18
第二章 音频信息处理  音频编码标准
7
IP电话产品
CentriQ 1000
Communication Gateway
通信网关
CG3500
Telephony
Cable Modem
支持话音的
电缆调制解调器
2015/7/18
第二章 音频信息处理  音频编码标准
8
IP 电话关键技术
•
•
•
•
•
•
语音流的连续数字化技术
语音流的连续、实时压缩 / 解压缩技术
回声抑制技术
Internet 打包策略
Internet 传输的质量保障
管理和结算
2015/7/18
第二章 音频信息处理  音频编码标准
9
IP 电话系统结构
话音 E1(1对)
Internet 电话 / FAX
网关
话音 E1(1对)
磁盘阵列
服务器双工
曙光1000服务器
客户服务器
网管/目录服务器
FAX /图文/电话E-
mail
以太网交换
机
7#信令网关
10条PCM
STP
E1(2对)
局间交换机
Internet 电话 / FAX
网关
访问服务器
E1(2对)
PSTN
Internet 电话 / FAX
网关
局间交换机
E1(2对)
Internet 电话 / FAX
网关
PSTN
E1(2对)
打印机
工作站
Internet 电话 / FAX
网关
Modem
电话
电话
电话
电话
以太网交换机
个人PC
长话局
Modem
个人PC
DDN线
E1线
同步Modem
Router
同步Modem
其它 WEB
Intranet
2M 出口
电报局
Internet
保险公司 WEB
2015/7/18
证券 WEB
第二章 音频信息处理  音频编码标准
10
IP 电话质量控制
Video
个人PC
Modem
Modem
Video
个人PC
Video
无服务质量控制
Phone
电话
Router
Fax
Ftp
Fax
Internet
电话
Router
有服务质量控制
Fax
工作站
工作站
: 拥塞
2015/7/18
第二章 音频信息处理  音频编码标准
11
IP 电话计费
•
PSTN电话计费方式
链路占用按时间计费
•
Internet计费方式
分组交换按流量计费或按时间计费(ISP)
不适用有服务质量要求的多媒体应用
•
Internet上的电话计费方式
服务质量要求按资源使用状况和服务质量计费
2015/7/18
第二章 音频信息处理  音频编码标准
12
管理与结算
•
•
•
全球各站点的管理
全球各站点之间的互相结算
站点与电话局以及ISP之间的结算
2015/7/18
第二章 音频信息处理  音频编码标准
13
管理与结算
管理、记帐
7
结算中心
...
...
HUB
曙光天潮
SED-08B
SED-08B
中国
.
.
.
Internet
4
3
P
S
T
N
...
6
中国银行
管理、
计费
SED-08B
HUB
...
5
7
.
.
.
8
2
...
P
S
T
N
欧洲
美国
管理
...
前台终端
HUB
...
SED-08B
...
1
PSTN
PSTN
前台终端
2015/7/18
第二章 音频信息处理  音频编码标准
14
IP电话标准
•
•
•
•
国际电信联盟标准化部门(ITU-T):电信标准 H.323
欧洲电信标准协会(ETSI):商业实现
Internet 工程任务组(IETF):IP标准
多媒体远程会议集团(INTC):互操作性
VoIP 相关:H.323
网关标准 G.TIGIN
控制协议 H.248
语音编码:G.723.1 、G.729和G.711
2015/7/18
第二章 音频信息处理  音频编码标准
15
MP3编解码器
2015/7/18
第二章 音频信息处理  音频编码标准
16
语音合成技术
§2.5.1
An Introduction to Text to Speech Technologies





概述
语音合成的历史
计算机言语输出的主要技术
文字-语音转换(TTS)
概念到语音的转换(CTS)
1. 概 述
• 什么是语音合成?
语音合成就是让计算机象人那样讲话。
人们用语言进行交流时,用声音来表达自己的意向、情
感。例如:
如某人问你:你愿意和我一起去看电影吗?
你的回答可能是:
“是的,我很高兴和你一起去看电影。”(肯定,高兴)
“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)
“不去,还是你自己去看吧。”(否定)
这三句话表达了不同的意向和情感。计算机也应该像人
那样来回答。
2015/7/18
第二章 音频信息处理  音频编码标准
18
•
•
语音合成的研究目标是:
可懂 清晰 自然
研究意义
具有表现力
 语音合成技术可以大大改善人机交互环境
 计算机反馈信息的方式是屏幕显示。这种单调的信息输出方式给用户
带来许多不便,特别是长时间地注视显示屏使人疲劳,降低人获取信
息和理解信息的能力。
 网络环境的输出设备多种多样:这种枯燥单一的交互方式影响了计算
机的应用。
 计算机语音输出能提供声文并茂的信息表示方式,可以改变人机交互
“默默无闻”的状况,为计算机的普及应用创造更好的条件。
 将“能看到”、“看不到”的信息变成“可听”的信息
 将“非即时获得的信息”变成“即时可听”的信息
2015/7/18
第二章 音频信息处理  音频编码标准
19
•
•
语音合成是一门跨学科的前沿技术,涉及到下列
相关研究领域:
自然语言理解
语言学
语音学
信号处理
心理学
声学
…
它将上述领域的研究成果结合在一起,使计算机
具备说话的能力。
2015/7/18
第二章 音频信息处理  音频编码标准
20
http://www.iflytek.com/iflytek_technique.htm
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所
必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争
市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈
进,大规模应用指日可待。
语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、
计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何
将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人
一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系
统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论
是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成
则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开
口说话”。
文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖
于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,
这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根
据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套
有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。
因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,
文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
2015/7/18
第二章 音频信息处理  音频编码标准
21
TTS技术构成及处理流程:
http://www.iflytek.com/iflytek_technique.htm
2015/7/18
第二章 音频信息处理  音频编码标准
22
•
语音合成有着广阔的应用前景
它可应用于:
盲人计算机,电话信息查询,文本校对,专家系统的有声
输出、火车站、飞机场的航班信息报告等领域。
① 有限词汇语音合成的应用


语音手表(闹钟)、玩具、教具
仪器/电器(打印机、微波炉)
② 有声信息发布



2015/7/18
车站列车、机场航班信息发布
114的电话号码报出
办公系统中的有声信息
第二章 音频信息处理  音频编码标准
23
有限词汇语音合成:
Kinsoft’s Power Word
利用Microsoft TTS Engine
Microsoft Mary,Sam,Mike
2015/7/18
第二章 音频信息处理  音频编码标准
24
③ 语音合成有着广阔的应用前景




多媒体数据库
电子字典、电子文档、电子图书的有声输出
盲人计算机
PDA等掌上计算机
④ 语音合成与电话结合的应用



2015/7/18
电话银行、邮局、税务、考试/录取信息发布/查询
股市行情查询/交易
168信息台全面更新
第二章 音频信息处理  音频编码标准
25
•
典型应用
① Network based
计算机
Web Server
专
用
服
务
器
数据库
TTS
IVR
电话卡
电话
交换机
2015/7/18
第二章 音频信息处理  音频编码标准
26
•
典型应用
② 电子有声文库
OCR
键盘
电子文档
其他
2015/7/18
电子
文档
预处理
有声
制作
电子文
库管理
语音
合成
制作
工具
文件
管理
TTS系统
第二章 音频信息处理  音频编码标准
27
•
Voice Communication
Uniform Servers
Internet
数据库
服务器
E-Mail
服务器
网关
交换
层
语音
网关
E_mail
网关
短消息
网关
传呼接口
网关
传真
网关
WAP
设备
接口
层
电话交换
系统
语音传真
系统
短消息
系统
传呼系统
ISP
VoIP
电脑
2015/7/18
WEB
服务器
PDA
固定电话
传真
第二章 音频信息处理  音频编码标准
移动电话
传呼机
28
•
Voice Communication
Voice Gateway
文本数据包
从语音网关A
从语音网关B
语音数据包
转发文本数据包
负载平衡
控制
IVR
Interactive Voice Response systems
2015/7/18
主语音网关
Email Gateway
第二章 音频信息处理  音频编码标准
29
•
Voice Communication
Voice Mail
Email gateway
TTS server
Telephone
PSTN
Email sever
Data sever
IVR sever
Account sever
CTI sever
Exchange
Internet
PC
WWW server
2015/7/18
第二章 音频信息处理  音频编码标准
30
2. 语音合成的历史
语音合成技术的研究已有两百多年的历史,但真正
具有实用意义的近代语音合成技术是随着计算机技术和数
字信号处理技术的发展而发展起来的。主要是让计算机能
够产生高清晰度、高自然度的连续语音。在语音合成技术
的发展过程中,早期的研究主要是采用参数合成方法,后
来随着计算机技术的发展又出现了波形拼接的合成方法。
•
1939年 Voder 第一个电子合成器
•
1987年 Klatt 共振峰合成
2015/7/18
第二章 音频信息处理  音频编码标准
31
•
机械式语音合成器
Pneumatic speech synthesiser developed by von Kempelen in 1791.
http://www.ling.mq.edu.au/units/slp807/history_synthesis/
2015/7/18
第二章 音频信息处理  音频编码标准
32
Does it likes
a Piano or an Organ?
http://mambo.ucsc.edu/psl/smus/smus.html
2015/7/18
第二章 音频信息处理  音频编码标准
33
•
第一个电子合成器:Voder
"At the 1939 World's Fair a machine called a Voder was shown . A girl
stroked its keys and it emitted recognizable speech. No human vocal
cords entered into the procedure at any point; the keys simply
combined some electronically produced vibrations and passed these on
to a loud-speaker."
("As We May Think" by Vannevar Bush, 1945. )
http://www.obsolete.com/120_years/machines/vocoder/
2015/7/18
第二章 音频信息处理  音频编码标准
34
3. 计算机言语输出技术
•
语音输出的实现方法
录音/重放
 若采用录音/重放的方法,首先要把模拟语音信号转换成数字
序列,编码后,暂存于存储设备中(录音),需要时,再经解码,
重建声音信号(重放)。录音/重放可获得高音质声音,并能保留
特定人的音色。但所需的存储容量随发音时间线性增长。
语音合成(亦称“文—语转换,Text-to-Speech,TTS”)
 文一语转换(TTS)是基于声音合成技术的一种声音产生技术。
它可用于语音合成和音乐合成。文一语转换是语音合成技术的
延伸,它能把计算机内的文本转换成连续自然的语声流。若采
用这种方法输出语音,应预先建立语音参数数据库、发音规则
库等。需要输出语音时,系统按需求先合成语音单元,再按语
音学规则或语言学规则,连接成自然的语流。
2015/7/18
第二章 音频信息处理  音频编码标准
35
•
语音合成方法
① 发音器官参数语音合成
这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的
相关参数。由这些发音参数估计声道截面积函数,进而计算声波。
这是对人发音过程的直接模拟,有可能产生逼真的语音。但由于人
发音生理过程的复杂性,理论计算与物理模拟之间的差异,合成语
音的质量暂时还不理想。
2015/7/18
第二章 音频信息处理  音频编码标准
36
•
合成方法
② 声道模型参数语音合成
这种方法基于声道截面积函数或声道谐振特性合成语音,
如共振峰合成、线性预测系数(LPC)合成。较为著名的共
振峰合成器是MIT教授D. Klatt设计的串/并联混合型共振峰
合成器。他用串联通道产生元音和浊辅音;并联通道产生轻
辅音。还可以对声源作各种选择和调整,以模拟不同的嗓音。
在此基础上开发的DEC Talk英语文语转换已广泛的应用于各
个方面。
国内外已有不少基于参数合成技术的语音合成系统。这
类系统需要的存储量低,音质适中,易于实现韵律修改。
2015/7/18
第二章 音频信息处理  音频编码标准
37
http://www.ling.mq.edu.au/units/slp807/history_synthesis/figure2.html
2015/7/18
第二章 音频信息处理  音频编码标准
38
什么是“共振峰”
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号
的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振
特性一直是研究的重点。在图1所示的某一语音的频率响应图中,标有Fp1, Fp2,
Fp3, … …处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把
声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布
特性决定着该语音的音色。
2015/7/18
第二章 音频信息处理  音频编码标准
39
•
合成方法
③ 波形编辑语音合成
这是一种非源滤波器的方法。它直接把语音波形数据库中的波形拼接在一起,
输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取
自自然语音的词或句子,它隐含了声调、重音等细微特性,合成的语音清晰自然。
其质量普遍高于参数合成。
80年代末E. Moulines和F. Charpentier提出基于时域波形修改的语音合成算法
PSOLA (Pitch Synchronous Over Lap Add),该方法较好地解决了语音拼接中的问题,
从而推动了波形编辑语音合成技术的发展与应用。
PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连
续的基本前提。该算法按以下三步实施:它以基音周期的整数倍为窗长,对原始波
形进行分析,产生中间的表示;然后对中间表示进行修改;将修改过的中间表示重
新合成为语音信号。由于修改的参数不同,又分为时域TD-PSOLA、频域FDPSOLA和线性预测LP-PSOLA。
这种语音波形编辑技术多用于文-语转换系统中,现已有英、日、德、法、汉
语等多种语言的系统问市。采用这种技术应解决好以下几个问题:语音基元的选取、
波形拼接过程中的平滑滤波;韵律修改以及语言学的分析和处理。
2015/7/18
第二章 音频信息处理  音频编码标准
40
http://www.ircam.fr/equipes/analyse-synthese/peeters/PSOLA/
2015/7/18
第二章 音频信息处理  音频编码标准
41
4. Concept-to-Speech
•
What is it?
输入:建立在格结构和短语模型基础上的概念描述
输出:合成语音
•
关键技术:
自然语言生成
韵律修饰
语音合成
•
实例:
日本大阪大学的SOCS
(Speech Output from Case Structure Representation)
2015/7/18
第二章 音频信息处理  音频编码标准
42
5. 文语转换应用系统介绍
•
•
•
Alive Text to Speech
开发商:AliveMedia, Inc. USA
http://www.alivemedia.net/
InterPhonic C&E Ver2.1语音合成系统
开发商:安徽中科大讯飞信息科技有限公司
http://www.iflytek.com/
其他语音合成系统
2015/7/18
第二章 音频信息处理  音频编码标准
43
•
AliveMedia Inc. TTS
样本文件:
Alive TTS.txt
Grid computing is becoming an
important framework for enabling
applications to utilize widely distributed
collections of computational and data
resources 。。。
Alive TTS应用系统界面
2015/7/18
第二章 音频信息处理  音频编码标准
44
•
科大讯飞语音合成系统

InterPhonic 语音合成系统

InterSpeech语音合成系统

VAP Express

Nuance8.0
http://www.iflytek.com/
2015/7/18
第二章 音频信息处理  音频编码标准
45
应用举例
设有下面一段文字:
语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、
数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿
技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机
器像人一样开口说话。
语音合成后的结果:
以上TTS语音采用科大讯飞语音合成系统 InterPhonic C&E Ver2.1合成。
http://www.iflytek.com/
2015/7/18
第二章 音频信息处理  音频编码标准
46
•
其他Text-to-Speech系统
2nd Speech Center
http://www.text-to-speech-software.com/
2015/7/18
 Configurable Clipboard Options - You decide how
IISC behaves when your computer's clipboard changes.
 Alarm & Reminders - Just as a alarm clock, IISC can
announce time to you every special interval depend on
your settings. And IISC also maintains a reminders list
to remind you of your important business.
 Configurable GLOBAL Hotkeys - IISC allows you
to define your favorite GLOBAL hotkeys to control
IISC even in other program. This feature is very useful
for weak-eyed users.
 Optional MP3 Quality - The "Output Sample
Frequencies" and "Output Bitrates" options allow you
to make a choice between the quality and the size.
 Powerful Command Lines - As a advanced user, you
can use the command lines of IISC to do you want to
do!
 Multiple Output Modes - Output synthesized speech
either to your speakers or to audio files. Choose
between WAV and MP3 audio file formats.
 Support Multiple Languages/Engines - Including
English, Spanish, British English, Dutch, French,
German, Italian, Portuguese, etc.
第二章 音频信息处理  音频编码标准
47
•
其他Text-to-Speech系统
CommPower
CommPower specializes in the
development and deployment of secure
and reliable message handling systems
and gateways as well as unique systems
solutions to real world problems.
It creates solutions for the United States
Defense Department, NATO allies, the
National Weather Service (NWS), the
FAA, the U.S. intelligence community,
European and Canadian prime
government contractors.
http://www.commpower.com/
2015/7/18
第二章 音频信息处理  音频编码标准
48
•
其他Text-to-Speech系统
Acroname
http://www.acroname.com/robotics/parts/
2015/7/18
第二章 音频信息处理  音频编码标准
49
§2.6
语音识别
Speech Recognition
内容提要
语音识别(SR, Speech Recognition),又称之为自动
语音识别(ASR, Automatic Speech Recognition)是指计算
机将人发出的声音、字或短语转换成文字、符号或作
出相应(如执行控制、做出回答)。
本节主要介绍语音识别技术的发展历史、分类、
语音识别系统的工作原理及其应用等方面的内容。
http://www.enjoysmart.com
内容提纲




语音识别技术概述
语音识别的基本方法简介
语音识别系统的结构及工作原理
汉语的语音识别研究进展
 几个著名的语音识别系统
 附录:相关的技术
一、语音识别概述
 语音识别的概念及发展历史
 语音识别系统的分类
 语音识别的关键技术
 语音识别的困难与对策
 语音识别的应用
语音识别的概念
•
•
语音识别(SR, Speech Recognition),又称之为自动
语音识别(ASR, Automatic Speech Recognition)是指
计算机将人发出的声音、字或短语转换成文字、
符号或作出相应(如执行控制、做出回答)。
语音识别以语音为研究对象,它是语音信号处理
的一个重要研究方向,是模式识别的一个分支,
涉及到生理学、心理学、语言学、计算机科学以
及信号处理等诸多领域,甚至还涉及到人的体态
语言(如人在说话时的表情、手势等行为动作可
帮助对方理解),其最终目标是实现人与机器进
行自然语言通信。
2015/7/18
第二章 音频信息处理  音频编码标准
53
语音识别的发展历史
•
语音识别的研究工作大约开始于二十世纪50年代,
当时AT&T的Bell实验室实现了第一个可识别十个
英文数字的语音识别系统——Audry系统。
• 二十世纪60年代,计算机的应用推动了语音识别
的发展。这时期的重要成果是提出了动态规划(DP,
Dynamic Programming)和线性预测分析技术(LP,
Linear Prediction),其中后者较好地解决了语音信
号产生模型的问题,对语音识别的发展产生了深
远影响。
• 二十世纪60年代末,由于在孤立词识别方面的研
究取得了一些较大的成果,因此掀起了语音识别
研究的热潮。第二章 音频信息处理  音频编码标准
2015/7/18
54
语音识别的发展历史(Cond.)
•
二十世纪70年代,语音识别领域取得了突破。在
理论上,LP技术得到进一步发展,动态时间规整
技术(DTW, Dynamic Time Warping,其目标是找出
两个向量之间的最短距离)基本成熟,特别是提出
了矢量量化(VQ, Vector Quantification)和隐马尔可
夫模型(HMM, Hidden Markov Models)理论。在实
践上,实现了基于线性预测倒谱和DTW技术的特
定人孤立语音识别系统。
(DTW, VQ, HMM的概念详见本节PPT的附录)
•
在这一时期,模板匹配(Template Matching)方法基
第二章 音频信息处理  音频编码标准
本成熟,基于模板匹配的孤立词识别取得了较大
2015/7/18
55
语音识别的发展历史(Cond.)
•
二十世纪80年代,语音识别研究进一步走向深入,
其显著特征是HMM模型和人工神经元网络(ANN,
Artificial Neural Networks)在语音识别中的成功应
用。HMM模型的广泛应用应归功于AT&T Bell实
验室L. Rabiner等科学家的努力,他们把原本艰涩
的HMM纯数学模型工程化,从而为更多研究者了
解和认识。ANN和HMM模型建立的语音识别系
统,性能相当。
• 实验室语音识别研究的巨大突破产生于二十世纪
80年代末:人们终于在实验室突破了大词汇量、
连续语音和非特定人这三大障碍,第一次把这三
个特性都集成在一个系统中,比较典型的是卡耐
第二章 音频信息处理  音频编码标准
2015/7/18
56
语音识别的发展历史(Cond.)
•
进入二十世纪90年代,随着多媒体时代的来临,
迫切要求语音识别系统从实验室走向实用。许多
发达国家如美国、日本、韩国以及IBM、Apple、
AT&T、NTT等著名公司都为语音识别系统的实
用化开发研究投以巨资。
• 我国语音识别研究工作一直紧跟国际水平,国家
也很重视,并把大词汇量语音识别的研究列入
“863”计划,由中科院声学所、自动化所及北京大
学等单位研究开发。鉴于中国未来庞大的市场,
国外也非常重视汉语语音识别的研究。美国、新
加坡等地聚集了一批来自大陆、台湾、香港等地
的学者,研究成果已达到相当高水平。因此,国
第二章 音频信息处理  音频编码标准
2015/7/18
57
语音识别系统的分类
•
分类方法
方法1 :按可识别的词汇量分类
 大(>1000个单词)、中(>100个单词)、小(< 100个单词)
方法2:按语音的输入方式
 孤立词(音节连续的词条)、连接词(连呼词)、连续语音(自然语
言)
方法3:按发音人
 特定人(只针对某人专门训练)、限定人(只针对某一群人)、非
特定人(不必经使用者训练就可以识别不同发音者的语音)
•
对说话人的声文进行识别,称之为说话人识别,
研究如何根据语音来辨认说话人、确认说话者。
2015/7/18
第二章 音频信息处理  音频编码标准
58
语音识别的关键技术
•
主要包括如下几个方面的关键技术(基于统计的
方法)
语音识别单元的选取
 选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、
音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词
(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,
原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难
以满足实时性要求。
 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,
而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,
约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语
语音识别系统来说,以音节为识别单元基本是可行的。
2015/7/18
 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉
语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母
(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性
相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,
第二章 音频信息处理  音频编码标准
59
语音识别的关键技术 (Cond.)
•
主要包括如下几个方面的关键技术(基于统计的
方法)
语音信号特征的提取技术
 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信
息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去
除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。
对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,
尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从
信息论角度讲,这是信息压缩的过程。
– 线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,
许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性
预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特
点。
2015/7/18
– Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测
倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳
听觉感知方面的一些研究成果。实验证明,采用这种技术,语音
第二章 音频信息处理  音频编码标准
60
语音识别的关键技术 (Cond.)
•
主要包括如下几个方面的关键技术(基于统计的
方法)
模式匹配准则及模型训练技术
 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本
质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模
型库中的某一个模型获得最佳匹配。
 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术
(DTW)、隐马尔可夫模型(HMM)和人工神经网络(ANN)。
– DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功
解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识
别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,
目前已被HMM模型和ANN替代。
2015/7/18
– HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机
过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有
有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢
量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号
特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号
的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。
模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的
第二章 音频信息处理  音频编码标准
61
语音识别的困难与对策
•
语音识别技术目前存在的问题与面临的困难
语音识别的目的是抽取语音信号携带的信息,而语音
信号本身具有如下特性:时变性、瞬变性。其随机性
和非平稳性给识别工作带来极大的困难。
语音识别系统的适应性差,主要体现在对环境依赖性
强,即在某种环境下采集到的语音训练系统只能在这
种环境下应用,否则系统性能将急剧下降;另外一个
问题是对用户的错误输入不能正确响应,使用不方便。
高噪声环境下语音识别进展困难,因为此时人的发音
变化很大,像声音变高,语速变慢,音调及共振峰变
化等等,这就是所谓Lombard效应,必须寻找新的信号
分析处理方法。
语言学、生理学、心理学方面的研究成果已有不少,
第二章 音频信息处理  音频编码标准
2015/7/18
62
语音识别的困难与对策 (Cond.)
•
语音识别技术目前存在的问题与面临的困难
我们对人类的听觉理解、知识积累和学习机制以及大
脑神经系统的控制机理等分面的认识还很不清楚;其
次,把这方面的现有成果用于语音识别,还有一个艰
难的过程。
语音识别系统从实验室演示系统到商品的转化过程中
还有许多具体问题需要解决,识别速度、拒识问题以
及关键词(句)检测技术(即从连续语音中去除诸如
“啊”、“唉”等语音,获得真正待识别的语音部分)等等
技术细节要解决。
•
对策
为了解决这些问题,研究人员提出了各种各样的方法,
如
2015/7/18
 自适应训练,基于最大互信息准则(MMI)和最小区别信息准
第二章 音频信息处理  音频编码标准
63
语音识别的应用
•
不胜枚举
主要用于可以以语音作为人机交互手段的各种场合,
实现听、写及命令控制功能
 办公自动化是优先应用的应用领域
 电话商业服务领域的应用十分普及
 军事、安全、机密
很多“谍战片、科幻片”中给人们描述了语音识别的美好
前景
MIT和CMU在语音识别的研究和应用方面处于领先地
位
 普适用途:Summit系统
 自然语言理解:TINA系统
2015/7/18
第二章 音频信息处理  音频编码标准
64
二、语音识别方法简介
 相关的概念
 需求分析
 语音识别的基本方法
 模板匹配方法
 随机模型方法
 概率语法分析方法
 人工神经网络方法
相关的概念
•
•
语音(Speech)是声音(Acoustic)和语言(Language)的
组合体,对语音的研究包括两个大的方面
语音中各种音的排列规则及其含义
言学)
(语
语音中各种音的物理特征及其分类
音学)
(语
说话的过程包括着相当复杂的因素,其中有心理
的、生理的、物理的以及个人的和社会的因素。
这里,个人的因素是指讲话的口音和用词造句的
特色以及听话者的听力和理解能力;社会的因素
则是指讲话者和听话者对用于进行交际的手段有
共同的理解的社会基础。
第二章 音频信息处理  音频编码标准
2015/7/18
66
相关的概念 (cond.)
 说话过程的五个阶段
人的说话过程
说听过程的心理与行为反应
http://mit.ocw.universia.net/6.542j/f01/images/fa01-handout1-fig1.gif
2015/7/18
第二章 音频信息处理  音频编码标准
67
相关的概念 (cond.)
•
相关学科
语言学(Linguistics)
 包括构成语言的语素、词、短语、语句等语言构成以及词法、
句法、文脉等语法和语义方面的内容
语音学(Phonetics)
 是研究言语过程的一门科学。它考虑的是语音产生、语音感知
等的过程以及语音中各个音的特征和分类等问题。从某种意义
上讲,语音学与语音信号处理这门学科联系的更紧密。
发音语音学(Articulatory Phonetics)
 发音语音学也称生理语音学,主要研究语音产生机理,借助仪
器观察发音器官,以确定发者部位和发音方法。这一学科在19
世纪中期就已经形成。近年来由于新则仪器设备的发明和改进
又有很大的发展,日前已经相当成孰。
2015/7/18
第二章 音频信息处理  音频编码标准
68
相关的概念 (cond.)
•
相关学科
声学语音学(Acoustic Phonetics)
 研究语音传递阶段的声学特性,它与传统语音学和现代语音分
析手段相结合,用声学和非乎稳信号分析理论来解释各种语音
现象,是近几十年中发展非常迅速的一门新学科。
听觉语音学(Auditory Phonetics)
 听觉语音学也称感知语音学,它研究语音感知阶段的生理和心
理特性,也就是研究耳朵是怎样听音的,大脑是怎样理解这些
语音的,语言信息在大脑中存储的部位和形式。感知语音学与
心理学关系密切,是近几十年才发展起来的新兴学科,目前还
处于探索阶段。
2015/7/18
第二章 音频信息处理  音频编码标准
69
相关的概念 (cond.)
•
语音信号的特征
语音信号的时域波形特性:不同性质的音素存在较大
的差异
浊音段的波形举例
汉语拼音“sou ke”的时间波形
清音段的波形举例
2015/7/18
第二章 音频信息处理  音频编码标准
70
相关的概念 (cond.)
•
语音信号的特征
语音信号的频域特性:语音信号属于短时平稳信号,
一般认为在10—30ms内语音信号特性基本上是不变的,
或者变化很缓慢。于是,可以从中截取一小段进行频
谱分析
凸起的转折点称之为
“共振峰”
浊音段的功率普密度举例
2015/7/18
清音段的功率谱密度举例
第二章 音频信息处理  音频编码标准
71
相关的概念 (cond.)
Windo
w
特征计算、短时处理
2015/7/18
第二章 音频信息处理  音频编码标准
72
相关的概念 (cond.)
•
语音信号的特征
语音信号的语谱(Sonogram)图分析:把和时序相关的
傅里叶分析结果显示的图形称为语谱图(Sonogram,或
者 Spectrogram ),它表示语音频谱随时间变化的三维图
形。
Sonogram
http://www.dfki.de/nite/papers/ICASSP-2003-Sonogram%20Bunt.htm
2015/7/18
Spectrogram : time, frequency, amplitude
第二章 音频信息处理  音频编码标准
73
需求分析
•
语音信号(信息)的变化性与模糊性
随机性:说话人的话语语音输入是不确定的,也是不
可预知的;
多变性:不同的说话人的语音有所差异,同一说话人
对同一个单词的各次发音也不完全相同;
模糊性:同一语音的多义性。如拼音“yi”,对应的中文
单词有:亿, 义、议、…,由于说话人发音的差异,很
难判定“yi wan”到底是“一万”还是“亿万”。
•
语言学、语音学、听觉语音学等方面知识的帮组
根据这些方面的知识,可以系统地建立相关方面的知
识模型
可以帮助在自然语言理解、连续语音识别方面的研究
第二章 音频信息处理  音频编码标准
2015/7/18
74
语音识别的基本方法
•
语音识别的基础——语音分析
在变幻中找出相对不变的因素:区别性特征
在差别中找出相似的成分:最大似然的Bayes判决
在纷繁的信息中找出规律性的特性:语言学、语音
学、…
•
基本方法
理解、建模、匹配
模板匹配法
随机模型法
概率语法分析法
第二章
2015/7/18
音频信息处理  音频编码标准
75
模板匹配方法
•
模板匹配方法的原理
早期的语音识别系统大多是按照简单的模板匹配的原
理构造的特定人、小词汇量、孤立词识别系统。
在训练阶段,用户将词汇表中的每一个词依次地说一
遍,并且将其特征矢量作为模板(Template)存入模板库;
在识别阶段,将输入语音的特征矢量序列依次与模板
库中的每个模板进行相似度比较,将相似度最高者作
为识别结果输出。
About
About the template
the
template
语音识别阶段
语音训练阶段
2015/7/18
第二章 音频信息处理  音频编码标准
76
模板匹配方法 (cond.)
•
模板匹配方法的特点
为每个词条建立一个模板,随着系统用词量的增加,
模板的数量将达天文数字。
当词汇表较小以及各个词条不易于混淆时,这种方法
的识别成功率比较高。
比较适合于孤立词的识别,不适合于连续语音的识别。
由于语音信号有较大的随机性,即使是同一个人在不
同时刻的同一句话所发的同一个音,也不可能具有完
全相同的时间长度,因此时间仲缩处理是必不可少的。
2015/7/18
第二章 音频信息处理  音频编码标准
77
模板匹配方法 (cond.)
•
模板匹配方法的关键
技术
1975年,日本学者板仓
(Itakura)将动态规划(DP,
Dynamic Programming)
算法的概念用于解决孤
立词识别时的说话速度
不均匀的难题,提出了
著名的动态时间规整
“non-linearly
warps the two trajectories
(DTW,
Dynamic
Time
in such a way that similar events are
Warping)算法。
aligned and a minimum distance between
them is obtained”
http://www.models.kvl.dk/matlab/dtw_cow/DTW_info/index.asp
2015/7/18
第二章 音频信息处理  音频编码标准
78
随机模型方法
•
随机模型方法的原理
随机模型法是目前语音识别研究的主流途径。
其突出的代表是隐马尔可夫模型(HMM, Hidden Markov
Models),它使用HMM的概率参数来对似然函数进行估
计与判决,从而得到识别结果。
语音信号可以看成是—种信号过程,它在足够短的时
间段上的信号特性近似于稳定,而总的过程可看成是
依次从相对稳定的某一特性过渡到另一特性。HMM则
用概率统计的方法来描述这样一种时变的过程。
在该模型中,马尔可夫链中的一状态转移到另一状态
取决于该状态的转移概率(状态生成概率)。由于从观察
的角度看状态转移是隐含的,因此这是一个双重随机
过程。
第二章 音频信息处理  音频编码标准
2015/7/18
79
随机模型方法 (Cond.)
•
随机模型方法的关键
技术
HMM
连续语音的自动分段
其它
HMM
 80年代美国在语音识别方面
进行的一些重大研究项目,
第二章 音频信息处理
2015/7/18都采取以HMM为基本的设
http://www-g.eng.cam.ac.uk/enginuity/issue1/article3.html
 音频编码标准
80
概率语法分析方法
•
概率语法分析方法的基本原理
语音学家通过研究不同的语音语谱及其变化发现:
 虽然不同的人说同一些语音时,相应的语谱及其变化有种种差
异,但是总有一些共同的特点足以使它们区分于其他语音,也
即语音学家提出的“区别性持征”。
 而另一万面,人类的语言要受词法、语法、语义等约束,人在
识别语音的过程中充分应用了这些约束以及对话环境的有关信
息。
将语音识别专家提出的“区别性特征”与来自构词、句法、
语义等语用约束相互结合,就可以构成一个“由底向上”
或“白顶向下”的交互作用的知识系统,不同层次的知识
可以用若干规则来描述。
•
这种方法研究的重点在于知识的获取、专家经验
的总结、规则的形成和规则的调用等方面。
第二章 音频信息处理  音频编码标准
2015/7/18
81
人工神经网络方法
•
•
利用人工神经网络的方法是80年代末期提出的一
种新的语音识别方法。人工神经网络(ANN)本质
上是一个自适应非线性动力学系统,模拟了人类
神经活动的原理,具有自适应性、并行性、鲁棒
性、容错性和学习特性,其强的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由
于存在训练、识别时间太长的缺点,目前仍处于
实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特
性,所以常把ANN与传统识别方法结合,分别利
用各自优点来进行语音识别。
2015/7/18
第二章 音频信息处理  音频编码标准
82
三、语音识别系统的
结构及工作原理
 语音识别系统的一般结构
 语音识别系统的工作原理
语音识别系统的一般结构
输入控制
用户设定
话者适应
模型工具
语音模型
A/D转换
话筒和线路适应
端点检测
方法选择
参数分析
抗噪音
计算、存储量的削减
语音识别
编辑工具
字典和语法
动作定义
拒绝识别
动作
应用系统
2015/7/18
第二章 音频信息处理  音频编码标准
API
应用开发工具
84
语音识别系统的工作原理

定




话筒自适应和输入电平设
抗噪声
语音区间的端点检测
连续语音的自动分段
语音参数分析
语音信号的获取与分析
语音识别
语音模型
字典和语法
HMM / ANN



择

计算量和存储量的削减
拒识别处理
识别结果确认,候补选
语音识别
单词词典
文法
语音识别结果的输出
动作控制模块
2015/7/18
第二章 音频信息处理  音频编码标准
85
四、汉语的语音识别
研 究 进 展
 汉语语音本身的特点
 汉语语音识别的难点
 汉语语音识别的研究进展
汉语语音的特点
•
汉语与西方语民例如英语)相比,在语音识别方面
具有如下的一些优势:
汉语是音节性很强的语言,每个字是都是以单音节为
单位的;
汉语音节的构成比较简单和规整,一般是由声母和韵
母组成,个别的仅台有韵母;
汉语是一种有调语言,每个音节发音时间较长,且有
较稳定的有调段,这一点对把握连续语音中的语气有
很大的帮助;
汉语音节的协同发音和音变问题不如英语等其他语种
普遍,相对发音较为稳定,这对于声学层面上的识别
是很有利的。
2015/7/18
第二章 音频信息处理  音频编码标准
87
汉语语音识别的难点
•
与西方语言相比,汉语语音识别具有如下一些难
点:
汉语的同音字太多,常用字为10000个左右,而按照有
调音节为1340左右来计算,平均每个音节拥有同音宇
大约为7至8个;
中国地域辽阔,各地方言发音差异较大,加上同一种
方言中总是存在着许多发音差异很小的声韵母,这就
给声学层识别和语言层纠错带来了不少困难;
汉语是一种内涵语言,实际上下文环境甚至语气和语
调都对意义的理解起决定性的作用;
由于汉语的语义单元是词,构词法的复杂、词的边界
不确定,动词没有明显的时态或单复数变化,对语言
第二章 音频信息处理  音频编码标准
2015/7/18处理缺乏提示等,因而决定了语言模型处理的对象具
88
汉语语音识别的研究进展
•
•
从1987年开始执行国家863计划后,国家863智能
计算机专家组为语音识别技术研究专门立项,每
两年滚动一次。我国语音识别技术的研究水平已
经基本上与国外同步,在汉语语音识别技术上还
有自己的特点与优势,并达到国际先进水平。
中科院自动化所、声学所、清华大学、北京大学、
哈尔滨工业大学、上海交通大学、中国科技大学、
北京邮电大学、华中科技大学等科研机构都有实
验室进行过语音识别方面的研究,其中具有代表
性的研究单位为清华大学电子工程系与中科院自
动化研究所模式识别国家重点实验室。
2015/7/18
第二章 音频信息处理  音频编码标准
89
汉语语音识别的研究进展 (Cond.)
•
清华大学电子工程系语音技术与专用芯片设计课
题组,研发的非特定人汉语数码串连续语音识别
系统的识别精度,达到94.8%(不定长数字符串)
和96.8%(定长数字符串)。在有5%的拒识率
情况下,系统识别率可以达到96.9%(不定长数
字符串)和98.7%(定长数字符串),这是目前
国际最好的识别结果之一,其性能已经接近实用
水平。研发的5000词邮包校核非特定人连续语音
识别系统的识别率达到98.73%,前三选识别率
达99.96%;并且可以识别普通话与四川话两种
语言,达到实用要求。
• 中科院自动化所及其所属模式科技(Pattek)公司
2002年发布了他们共同推出的面向不同计算平台
第二章 音频信息处理  音频编码标准
2015/7/18
90
和应用的“天语”中文语音系列产品——Pattek
ASR,
五、几个著名的语音识别系
统
 IBM的Via Voice
 Microsoft的Whisper
 Dragon System公司的Naturally Speaking
 Nuance公司的Nuance Voice Platform语音
平台
 Sun的Voice Tone等。
WWW资源
IBM 公司的ViaVoice
http://www-3.ibm.com/software/speech/
•
公司的Whisper
http://research.microsoft.com/srg/srproject.aspx
公司的Nuance Voice Platform语音平台
http://www.nuance.com/prodserv/nvp.html
Dragon System公司的Naturally Speaking
2015/7/18
http://www.dragonsys.com/
第二章 音频信息处理  音频编码标准
92
六、附录:相关的技术
 倒谱 (Cepstrum)的概念
 DTW (Dynamic Time Warping)算法
 VQ (Vector Quantization)的基本原理
 HIMM (Hidden Markov Models)简介
附录1:倒谱的概念
•
“倒频谱(Cepstrum)”的概念
Cepstrum是一个新造词,它是Spectrum的前四个字母的
逆序。
语音信号 x(n) 是一个非线性信号,可视为声源信号
g(n)
x(n)  g (n)  v(n)
与声道脉冲响应信号 v(n) 的卷积,
如果要将 g(n) 和 v(n) 进行分离的话,利用同态滤波可
以将卷积关系转换为求和关系(线性)
X ( K )  G( K )  V ( K )
 先对语音信号的频谱作离散傅里叶变换,将语音信号的频谱
X(K)视为声源信号频谱 G(K) 与声道脉冲响应信号频谱 V(K) 的
乘积,有
x ( n)  g ( n)  v ( n)
2015/7/18
 两边取对数,转换为“和”的形式。再对语音信号的频谱进行离
第二章 音频信息处理  音频编码标准
94
倒谱的概念(Cond.)
称 x(n) 为 x(n) 的复对数倒频谱,简称为复倒谱
X ( z)
在大多数信号处理中,X(z), jw
F[ x(n)]  X (e )
园,设
x(n)  F 1[ X (e jw )]
X (e jw )  ln( X (e jw ),
则有关系
X (e jw ) | X (e jw ) | e jarg[ X ( e
的收敛域均包含单位
jw
)]
X (e jw )  ln | X (e jw ) |  j  arg[ X (e jw )]
又设
X (e jw )
1
c(n)  F,则有复倒谱
[ln | X (e jw ) |]
如果只考虑
的实部,令
称 c(n)为倒频谱,简称为倒谱
2015/7/18
第二章 音频信息处理  音频编码标准
,
95
附录2:DTW算法
•
动态时间规整(DTW, Dynamic Time Warping)
 假定一个孤立字(词)语音识别系统,利用模板匹配法进行识别。这
时一般是把整个单词作为识别单元。在训练阶段,用户将词汇表
中的每一个词依次说一遍,并且将其特征矢量时间序列作为模板
(Template)存人模板库;在识别阶段,将输入语音的特征矢量时间
序列依次与模板库中的每个模板进行相似度比较,将相似度最高
者作为识别结果输出。
 然而,实际上不能简单地将输入参数序列和相应的参考模板直接
作比较,因为语音信号具有相当大的随机性,即使是同一个人在
不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相
同的时间长度。在进行模板匹配时,这些时间长度的变化会影响
调度的估计,从而使识别率降低,因此时间伸缩处理是必不可少
的。
•
日本学者板仓(Itakura)将动态规划(DP)算法的概念用于解
决孤立词识别时的说话速度不均匀的难题,提出了著名的
动态时间伸缩算法(DTW,
Dynamic
Time Warping),它是把96
第二章 音频信息处理
 音频编码标准
2015/7/18
DTW 算法 (cond.)
设:测试语音参数共有 I 帧矢量,而参考模板共有 J 帧
矢量,且I ≠J,则动态时间规整就是要寻找一个时间规
整函数 j=ω( i )。它将测试矢量的时间轴 i 非线性地映
I
射到模板的时间轴 j上,并使该函数
ω 满足
D  min  d [T (i ), R( (i ))]
 (i )
i 1
式中,d[ T(i), R(ω(i)) ]表示第 i 帧测试矢量 T(i) 和第 j
帧模板矢量R(j) 之间的距离测度,D 是处于最优状态下
两矢量的距离
由于DTW不断地计算两矢量的距离以寻找最优的匹配
路径,所以得到的两矢量匹配是累积距离最小的规整
函数,这就保证了它们之间存在最大的声学相似特性。
2015/7/18
第二章 音频信息处理  音频编码标准
97
DTW 算法 (cond.)
动态规划算法
动态时间规整示意图
搜索方法
2015/7/18
第二章 音频信息处理  音频编码标准
98
附录3:VQ的基本原理
•
VQ (Vector Quantization)的基本原理
 将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的
特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小
的情况下压缩数据量,这是仙农信息论中“率——失真理论”在信源
编码中的重要运用。矢量量化有效地应用了矢量中各元素之间的
相关性,因此可以比标量量化有更好的压缩效果。
 设有 N 个 K 维特征矢量 X = {X1, X2, …, Xk} (X 在 K维欧几里德空
间 RK中),其中第 i 个矢量可记为 Xi = {x1, x2, …, xK},i = 1, 2, …,
N。它可以被看作是语音信号中某帧参数组成的矢量。
K 无遗漏地划分成 J 个互不相交的子空间R ,
 把 K 维欧几里德空间
R
1
J
R2, …, RJ,满足 R j  R K , Rl Ç Rm   , l  m
j 1
这些子空间称之为Voronoi图的单元(cell),在每一个单元中找出一
第二章Y 音频信息处理
 Y
音频编码标准
2015/7/18个代表矢量 Yj,有
= {Y1, Y2, …,
J},组成了一个矢量量化器 99
VQ的基本原理 (cond.)
•
VQ (Vector Quantization)的基本原理
进行矢量量
化时,矢量量化器首先判断它属于哪个子空间 Rj.然
后输出该子空间Rj的代表矢量 Yj。也就是说,矢量量
化过程就是用 Yj 代表 Xj 的过程,或者说把 Xj 量化成了
Yj 。
3
K
x
Î
R
j
当给矢量量化器输入—个任意矢量
2
4
1
7
5
6
二维矢量量化概念示意图
2015/7/18
第二章 音频信息处理  音频编码标准
100
附录4:HMM
•
隐马尔可夫模型(HMM, Hidden Markov Models)
有连续和离散HMM之分,这里仅介绍离散HMM
HMM是一个输出符号序列的统计模型,具有 N 个状态
Sl, S2, …, SN,它按一定的周期从一个状态转移到另一
个状态,每次转移时,输出一个符号。转移到哪一个
状态,转移时输出什么符号,分别由状态转移概率和
转移时的输出概率来决定。因为只能观测到输出符号
序列,而不能观测到状态转移序列(即模型输出符号序
列时,不能预知是通过了哪些状态路径),所以称为隐
藏的马尔可夫模型。
HMM在孤立词识别中的应用比较普及
以下是一个三状态HMM的简单实例
第二章 音频信息处理  音频编码标准
2015/7/18
101
HMM (cond.)
一个简单的三状态HMM的例子
0.3
a : 0.8
0.4
b : 0.2
0.5
S1
a : 0.3
b : 0.7
a :1.0
b : 0.0
0.6
S2
转移概率 0.2
a :1.0
b : 0.0
a : 0.5
b : 0.5
S3
输出概率
因为从S1到 S3 ,并日输出aab时,从图中可以看出可能的路径只有: S1 → S1 → S2→ S3 、 S1 → S2
→ S2→ S3 、 S1 → S1 → S1→ S3 三条。每一条路径输出 aab 的概率分别是:
第一条: 0.3 × 0.8 × 0.5 × 1.0 × 0.6 × 0.5 = 0.036
第二条: 0.5 × 1.0 × 0.4 × 0.3× 0.6 × 0.5 = 0.018
第三条: 0.3 × 0.8 × 0.3 × 0.8 × 0.2 × 1.0 = 0.01152
因为不切道该HMM输出aab时是通过了哪一条路径,所以,作为计算输出概率的一种力法,是把每一种
可能路径的概率相加得到的总的概率值作为aab输出概率,所以该HMM输出的aab的总概率是:
0.036 + 0.018 + 0.01152 = 0.06552
2015/7/18
第二章 音频信息处理  音频编码标准
102
•
例如“今天是星期三”话音的识别:
jīn
tīan
shì
今
天
是
xīn
g
金
填
视
星
斤
添
式
兴
巾
忝
世
猩
2015/7/18
第二章 音频信息处理  音频编码标准
qī
sān
期
三
企
叁
其
弎
奇
毶
103
HMM (cond.)
2015/7/18
第二章 音频信息处理  音频编码标准
104