Document

Transcript Document

南京大学多媒体研究所
Multimedia Computing
Institute of NJU
基于内容的音频信息检索
武港山
Tel : 83594243
Office: 蒙民伟楼608B
Email : [email protected]
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Contents





概述
查询方式
语音检索
音频检索
音乐检索
2015/7/20
Wu Gangshan: Modern Information Retrieval
2
南京大学多媒体研究所
Multimedia Computing Institute of NJU
1 音频检索概述


音频是多媒体中的一种重要媒体。
我们能够听见的音频频率范围是60Hz～20kHz。





其中语音大约分布在300Hz～4kHz之内，
而音乐和其他自然声响是全范围分布的。
声音经过模拟设备记录或再生，成为模拟音频，
再经数字化成为数字音频。
数字化时的采样率必须高于信号带宽的2倍，才能
正确恢复信号。
样本可用8 位或16位比特表示。
2015/7/20
Wu Gangshan: Modern Information Retrieval
3
南京大学多媒体研究所
Multimedia Computing Institute of NJU
1 音频检索概述

音频是声音信号的表示形式，作为一种信息载体，
音频可以分为三种类型：



波形声音
对模拟声音数字化而得到的数字音频信号。它可以代表
语音、音乐、自然界和合成的声响。
语音
具有字词、语法等语素，是一种高度抽象的概念交流媒
体。语音经过识别可以转换为文本。文本是语音的一种
脚本形式。
音乐
具有节奏、旋律或和声等要素，是人声或/和乐器音响
等配合所构成的一种声音。音乐可以用乐谱来表示。
2015/7/20
Wu Gangshan: Modern Information Retrieval
4
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音频信息的特征

不同类型的声音具有不同的内在内容。


但从整体看，音频内容分为三个级别：




人们感受到的内容不同。
最低层的物理样本级、
中间层的声学特征级和
最高层的语义级，
如下图所示。从低级到高级，其内容逐级
抽象，内容的表示逐级概括。
2015/7/20
Wu Gangshan: Modern Information Retrieval
5
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音频信息的特征
语义特征级
音乐叙事、音频对象描述、
语音识别文本、事件……
模糊匹配
(基于内容的检索)
物理特征级
样本数据级
2015/7/20
感知特征：音调、音高；旋律、节奏
…
声学特征：能量、过零率、LPC系数
…音频结构化表示
采样率、时间刻度
样本、格式、编码……
Wu Gangshan: Modern Information Retrieval
严格匹配
6
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音频信息的特征
级别
特征
物理级取样频率、量化精度、
编码方法、声道数目、
时间刻度信息（时：分：
秒：帧）...
声学级
语义级
2015/7/20
音量、音高、音域、音
色、….
如一段语音的中心思想、
包含的关键词、类型等，
一段音乐的旋律、情绪、
主题等...
显式表示
可否用于检索
是
少部分
否
部分
否
全部
Wu Gangshan: Modern Information Retrieval
7
南京大学多媒体研究所
Multimedia Computing Institute of NJU
1 音频检索概述

基于人工输入的属性和描述来进行音频检索是容
易首先想到的方法。该方法的主要缺点反映在：




当数据量越来越多时，人工的注释强度加大；
人对音频的感知，如音乐的旋律、音调、音质等，难以
用文字注释表达清楚。
这些正是基于内容的音频检索需要研究和解决的
问题。
但同时应该注意到音频检索可以利用的一个优势，
那就是语音是一种特殊类型的音频，它与文本可
以互相转换，因此，可以利用文本检索技术进行
概念检索。
2015/7/20
Wu Gangshan: Modern Information Retrieval
8
南京大学多媒体研究所
Multimedia Computing Institute of NJU
基于内容的音频检索


What? 从声学特征和语义特征进行音频信息的
检索称为基于内容的音频检索。
困难：
1 数字音频是一种不透明的位流，它不显式地包含可识
别或可比较的语义实体；
2 人工输入音频数据的属性和内容描述，工作量极大，
注释的准确性依赖于人的水平、经验和工作态度；
3 人对音频信息（特别是音乐）的感知，如音乐的旋律、
音调、音质等，难以用文字表达清楚。
2015/7/20
Wu Gangshan: Modern Information Retrieval
9
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2、查询方式:需求



检索包含特定内容的一段讲话（计算机，
互连网，多媒体技术...）
检索指定说话人的一段讲话
检索指定类型的一段音频（音乐、歌曲、
报告、谈话...）

检索指定旋律的一段音乐

检索指定乐器演奏的一段音乐
2015/7/20
Wu Gangshan: Modern Information Retrieval
10
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2、查询方式：用户表达


示例方式（ by example）也称为拟声方式
（onomatopoeia）。用户使用一个声音例子表
达其检索要求，查找出与该声音相似的所有声
音。例如：

用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声

检索与飞机的轰鸣声相似的所有声音。
直喻（simile）方式。通过选择一些声学/感知
特性来描述检索要求，如音色、音调等。
2015/7/20
Wu Gangshan: Modern Information Retrieval
11
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2、查询方式：用户表达

主观特征方式。用描述语言来描述声音，如寻
找“欢快”的声音。这需要预先训练系统理解这些
描述语言的含义。

浏览方式。对数据库中所有的声音逐个审听，
寻找所需要的声音。这需要在分类的基础上进
行，最好预先为每一段声音做好摘要。
2015/7/20
Wu Gangshan: Modern Information Retrieval
12
南京大学多媒体研究所
Multimedia Computing Institute of NJU
基于内容的检索过程
用户的查询说明
•示例
•一般性描述
相似性匹配
修改查询说明
从候选结果中选择
一个示例
返回一组
候选结果
N
满意？
Y
结束
2015/7/20
Wu Gangshan: Modern Information Retrieval
13
南京大学多媒体研究所
Multimedia Computing Institute of NJU
基于内容检索的特点

是一种相似检索，得到的是与用户指定要求相
似的一组结果。

检索时可以指定返回结果的数目，或要求检索
结果能满足一定的相似度。

可以强调或忽略某些特征，对指定特征施加
“less”或“more”等模糊运算。
2015/7/20
Wu Gangshan: Modern Information Retrieval
14
南京大学多媒体研究所
Multimedia Computing
Institute of NJU
3 语音检索
南京大学多媒体研究所
Multimedia Computing Institute of NJU
语音检索的对象及应用

检索对象：语音文档 ( broadcast radio, TV
programs, video tapes, lectures, voice memo,
voice mail, voice phonebook, etc.)

查询方式： text and/or speech

技术：语音识别技术，

应用：在电台节目、电话录音、会议录音、教
学录音的数据管理与应用中极为有用。
2015/7/20
Wu Gangshan: Modern Information Retrieval
16
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(1) 利用语音识别技术进行检索


利用自动语音识别技术预先把语音转换为文本
（脚本）：
误识率较高，含噪音数据，
-
-



无格式信息: 标题, 段落, 标点符号.
需添加语音和文本的对齐信息: time-align
含有语音的声学特征信息和感知信息
对脚本进行处理，抽取摘要、关键词等信息，
采用常规的文本检索方法进行检索。
问题：OOV(Out of Vocabulary)问题, 1%是OOV词汇,
2015/7/20
Wu Gangshan: Modern Information Retrieval
17
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(2) 基于说话人辨认进行检索



辨别出说话人语音的特点，来检索出指定
人的录音资料，如某位教授的讲课录音等。
实现：根据说话人语音的变化分割录音，
预先建立录音的结构和索引；
这种技术是简单地辨别出说话人话音的差
别，而不是识别出说的是什么。
2015/7/20
Wu Gangshan: Modern Information Retrieval
18
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(2) 基于说话人辨认进行检索



它在合适的环境中可以做到非常准确。
利用这种技术，可以根据说话人的变化分割录
音，并建立录音索引。
用这种技术检测视频或多媒体资源的声音轨迹
中的说话人的变化，建立索引和确定某种类型
的结构(如对话)。

2015/7/20
例如，分割和分析会议录音，分割的区段对应于不同
的说话人，可以方便地直接浏览长篇的会议资料。
Wu Gangshan: Modern Information Retrieval
19
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 基于关键词发现技术进行检索

“关键词发现”(Spotting)技术：在语音文档中，
自动地检测出指定的词或短语的技术，
（例如通过“进球”这个关键词可以找到体育比赛实况录
音中进球前后的解说）

实现：


预先识别出指定集合中的关键词, 建立索引。
问题：


2015/7/20
关键词集合固定, 数量有限;
语音数据以特征向量序列表示，索引很不方便.
Wu Gangshan: Modern Information Retrieval
20
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Sub-word Lattice Based Word Spotting


子词(Sub-word)单位可以是音素、音节或半音节
等.它是语音分析过程中的产物，与语种无关.
Sub-word Lattice是一种有向无环图.
0.85
0.21
0.73
t-1

0.35
t
查询时使用的关键词，实时生成其子词序列, 子词序列
和Sub-word Lattice的进行相似度匹配(后向搜索).
2015/7/20
Wu Gangshan: Modern Information Retrieval
21
南京大学多媒体研究所
Multimedia Computing Institute of NJU
语音识别技术的应用领域

Growing interest in this area:

Video mail retrieval (Cam, UK)

BBC news retrieval.


2015/7/20
Digital library projects( CMU的Informedia, Michagen
的MSU, Sheffield和Cam的THIRL Project, Maryland
的VoiceGraph, AT&T SCAN).
ARPA broadcast news和TREC6,7,8的SDR Workshop.
Wu Gangshan: Modern Information Retrieval
22
南京大学多媒体研究所
Multimedia Computing
Institute of NJU
4 基于声学特征的音频检索
南京大学多媒体研究所
Multimedia Computing Institute of NJU
4 基于声学特征的音频检索



音频检索是以波形声音为对象的检索，这里的
音频可以是汽车发动机声、雨声、鸟叫声，也
可以是语音和音乐等，这些音频都统一用声学
特征来检索。
虽然ASR可以对语音内容给出有价值的线索，但
是，还有大量其他的音频数据需要处理，从声
音效果到动物叫声以及合成声音等。
因此，对于一般的音频，仅仅有语音技术是不
够的，使用户能从大型音频数据库中或一段长
录音中找到感兴趣的音频内容是音频检索要做
的事。
2015/7/20
Wu Gangshan: Modern Information Retrieval
24
南京大学多媒体研究所
Multimedia Computing Institute of NJU
4 基于声学特征的音频检索


音频数据的训练、分类和分割方便了音频
数据库的浏览和查找，基于听觉特征的检
索为用户提供高级的音频查询接口。
这里指的音频检索就是针对广泛的声音数
据的检索，分析和检索的音频可以包含语
音和音乐，但是采用的是更一般性的声学
特性分析方法。
2015/7/20
Wu Gangshan: Modern Information Retrieval
25
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(1) 声音训练和分类



通过训练来形成一个声音类。
用户选择一些表达某类特性的声音例子
(样本)，如“脚步声”。
对于每个进入数据库中的声音，先计算其
N维声学特征矢量，然后计算这些训练样
本的平均矢量和协方差矩阵，这个均值和
协方差就是用户训练得出的表达某类声音
的类模型。
2015/7/20
Wu Gangshan: Modern Information Retrieval
26
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(1) 声音训练和分类



声音分类是把声音按照预定的类组合。
首先计算被分类声音与以上类模型的距离，
可以利用Euclidean距离等方式度量，然后
距离值与门限(阈值)比较，以确定是否该
声音纳入或不属于比较的声音类。
也有某个声音不属于任何比较的类的情况
发生，这时可以建立新的类，或纳入一个
“其他”类，或归并到距离最近的类中。
2015/7/20
Wu Gangshan: Modern Information Retrieval
27
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(2) 听觉检索


听觉感知特性，如基音和音高等，可以自动提
取并用于听觉感知的检索，也可以提取其他能
够区分不同声音的声学特征，形成特征矢量用
于查询。
例如:



按时间片计算一组听觉感知特征：基音、响度、音调
等。
考虑到声音波形随时间的变化，最终的特征矢量将是
这些特征的统计值，例如用平均值、方差和自相关值
表示。
这种方法适合检索和对声音效果数据进行分类，
如动物声、机器声、乐器声、语音和其他自然
声等。
2015/7/20
Wu Gangshan: Modern Information Retrieval
28
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 音频分割



以上方法适合单体声音的情况，如一小段电话
铃声、汽车鸣笛声等。
但是，一般的情况是一段录音包含许多类型的
声音，由多个部分组成。
更为复杂的情况是，以上各种声音可能会混在
一起，如一个有背景音乐的朗诵、同声翻译等。


这需要在处理单体声音之前先分割长段的音频录音。
另外，还涉及到区分语音、音乐或其他声音。

2015/7/20
例如对电台新闻节目进行分割，分割出语音、静音、音乐、
广告声和音乐背景上的语音等。
Wu Gangshan: Modern Information Retrieval
29
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 音频分割处理



通过信号的声学分析并查找声音的转变点就可
以实现音频的分割。
转变点是度量特征突然改变的地方。
转变点定义信号的区段，然后这些区段就可以
作为单个的声音处理。


例如，对一段音乐会的录音，可通过自动扫描找到鼓
掌声音，以确定音乐片断的边界。
这些技术包括：暂停段检测、说话人改变检测、
男女声辨别，以及其他的声学特征。
2015/7/20
Wu Gangshan: Modern Information Retrieval
30
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 音频分割的好处



音频是时基线性媒体。现在我们看到的典型音
频播放接口是与磁带录音机相似的界面，具有
停止、暂停、播放、快进、倒带等按钮。
为了不丢失其中的重要东西，必须从头到尾听
一遍声音文件，这样要花费很多时间，即使使
用“快进”，也容易丢失重要的片断，不能满足信
息技术的要求。
因此，在分割的基础上，就可以结构化表示音
频的内容，建立超越常规的顺序浏览界面和基
于内容的音频浏览接口。
2015/7/20
Wu Gangshan: Modern Information Retrieval
31
南京大学多媒体研究所
Multimedia Computing Institute of NJU
补充:Audio Features
Features derived in the time domain:
~average energy
~zero crossing rate (ZCR): It indicates the freq of signal amplitude sign change.
~silence ratio: Thresholding may be tricky.
Features derived in the freq domain
~sound spectrum【频谱】
~bandwidth 【带宽】 : Music usually has a higher bandwidth than speech.
~energy distribution 【能量分布】 : Music usually has more high freq components
than speech.
=>spectral centroid/brightness (midpoint of the spectral energy distribution)
~harmonicity【调和性】: Music is usually more harmonic than other sounds.
~pitch【音质】: Only period sounds give rise to a sensation of pitch. Pitch is
subjective, related to but not equivalent to the fundamental freq.
Spectrogram【频谱图】
It shows the relation between freq, time and intensity. Music spectrogram is more
regular.
Subjective features【主观特征】
Pitch【音质】, Timbre【音色】, etc.
2015/7/20
Wu Gangshan: Modern Information Retrieval
32
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
33
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
34
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
35
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
36
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
37
南京大学多媒体研究所
Multimedia Computing Institute of NJU
2015/7/20
Wu Gangshan: Modern Information Retrieval
38
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Audio Classification
Here we consider first speech vs. music. There’re of coz
other types of sound, but their characteristics vary greatly
and are difficult to generalize.
Features
Speech
Music
Bandwidth
0-7kHz
0-20kHz
Spectral Centroid
Low
High
Silence ratio
High
Low
ZCR
More variable
Less variable
Regular beat
Non-existing
Often existing
2015/7/20
Wu Gangshan: Modern Information Retrieval
39
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Audio Classification (cont’d)
Step-by-step classification
(From Lu, 2001)
2015/7/20
Wu Gangshan: Modern Information Retrieval
40
Audio Classification (cont’d)
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Feature-vector-based audio classification
Values of a set of features are calculated and used as a feature
vector.
~During the training stage, the average feature vector (reference
vector) is found for each class of audio.
~During classification, the feature vector of an input is calculated
and the vector distances between the input feature vector and each
of the reference vectors are calculated. The input is classified into
the class from which it has the least vector distance.
Audio Segmentation
A long sound track usually consists of a mixture of speech, music
and other sound types. We can use the above classification methods
to segment a long audio piece into speech and music intervals. The
procedure is: windowing, classification and then grouping.
2015/7/20
Wu Gangshan: Modern Information Retrieval
41
南京大学多媒体研究所
Multimedia Computing Institute of NJU
More Advanced Audio Features
High Zero-Crossing Rate Ratio (HZCRR)
(LSTER)
2015/7/20
Low Short-Time Energy Ratio
Wu Gangshan: Modern Information Retrieval
42
More Advanced Audio Features (cont’d)
Band Periodicity (BP)
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Spectrum Flux (SF)
2015/7/20
Wu Gangshan: Modern Information Retrieval
43
More Advanced Audio Features (cont’d)
Linear Spectral Pair (LSP) Distance Measure
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Noise Frame Ratio (NFR)
Rule: If r i,j(kp)<threshold, then a
frame is considered as a noise
frame.
2015/7/20
Wu Gangshan: Modern Information Retrieval
44
南京大学多媒体研究所
Multimedia Computing Institute of NJU
More Advanced Audio Features (cont’d)
Linear Spectral Pair (LSP) Distance Measure (cont’d)
LSP divergence shape is also a good measure to discriminate between different
speakers. Denote the covariance for pth and qth s speech clip is Cp and Cq. If the
dissimilarity is larger than a threshold, then there two speech clips could be
considered as from two different speakers.
2015/7/20
Wu Gangshan: Modern Information Retrieval
45
南京大学多媒体研究所
Multimedia Computing
Institute of NJU
5 音乐检索
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音乐检索



音乐检索是以音乐为中心的检索，利用音乐的
音符和旋律等音乐特性来检索。如检索乐器、
声乐作品等。
音乐是我们经常接触的媒体，像MIDI、MP3和
各种压缩音乐制品、实时的音乐广播等。
音乐检索虽然可以利用文本注释，但音乐的旋
律和感受并不都是可以用语言讲得清楚的。通
过在查询中出示例子，基于内容的检索技术在
某种程度上可以解决这种问题。
2015/7/20
Wu Gangshan: Modern Information Retrieval
47
南京大学多媒体研究所
Multimedia Computing Institute of NJU
The three basic features of a musical

Pitch


Intensity


which is related to the perception of the fundamental
frequency of a sound; pitch is said to range from low or deep
to high or acute sounds.
which is related to the amplitude, and thus to the energy, of
the vibration; textual labels for intensity range from soft to
loud; the intensity is also defined loudness.
Timbre

2015/7/20
which is defined as the sound characteristics that allow
listeners to perceive as different two sounds with same pitch
and same intensity.
Wu Gangshan: Modern Information Retrieval
48
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Dimensions of the Music Language



Timbre
Orchestration
Acoustics





sound quality, ambience, and style
Rhythm
Melody
Harmony
Structure
2015/7/20
（音色、音质）
（编曲）
（节奏）
（旋律）
（和弦）
（结构）
Wu Gangshan: Modern Information Retrieval
49
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Formats of Musical Documents

Two Forms：



symbolic scores
audio performances
Three Formats



2015/7/20
Symbolic formats
Audio formats
The musical instrument digital interface
Wu Gangshan: Modern Information Retrieval
50
南京大学多媒体研究所
Multimedia Computing Institute of NJU
Music Search



Melodic retrieval based on index terms
Melodic retrieval based on sequence
matching
Melodic retrieval based on geometric
methods
2015/7/20
Wu Gangshan: Modern Information Retrieval
51
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音乐检索




音乐检索利用的是诸如节奏、音符、乐器特征。
节奏是可度量的节拍，是音乐中一种周期特性
和表示。
音乐的乐谱典型地以事件形式描述，如以起始
时间、持续时间和一组声学参数(基音、音高、
颤音等)来描述一个音乐事件。
注意到许多特征是随时间变化的，所以，我们
应该用统计方法来度量音乐的特性。
2015/7/20
Wu Gangshan: Modern Information Retrieval
52
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音乐检索





除了用示例进行音乐查询之外，用户甚至可以
唱或哼出要查找的曲调。
基音抽取算法把这些录音转换成音符形式的表
示，然后用于对音乐数据库的查询。
但是，抽取乐谱这样的属性，哪怕是极其简单
的一段也是非常困难的。
研究人员现在改用MIDI音乐数据格式解决这个
问题。
用户可以给出一个旋律查询，然后搜索 MIDI文
件，就可以找出相似的旋律。
2015/7/20
Wu Gangshan: Modern Information Retrieval
53
南京大学多媒体研究所
Multimedia Computing Institute of NJU
小结



基于内容的音频数据检索(特别是语音检索)具有重
要的应用前景，
基于内容的音频数据检索相当困难
 语音识别还要10年技术才成熟
 一般的音频检索，需要研究有效的、区分度高的
听觉解析特征
声音与其它媒体常常相互伴随、互相印证，如何把
音频检索与文本检索、视频检索技术等互相结合，
使用集成的检索方法来提高检索能力和检索效率。
2015/7/20
Wu Gangshan: Modern Information Retrieval
54
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 音乐检索


检索对象: 演奏的音乐作品
查询方式:


2015/7/20
用音乐特性进行检索(音乐的节奏、旋律、音
符、演奏乐器等)
用示例进行检索(用户哼出或用乐器演奏出要
查找作品的一段曲调，系统把输入的曲调转
换成相应的音乐特性（如对应的乐谱），然
后对音乐数据库进行查询。
Wu Gangshan: Modern Information Retrieval
55
南京大学多媒体研究所
Multimedia Computing Institute of NJU
音乐检索

音乐的声学特性可以基于时间域或者频率域
进行分析和提取。




时间域的分析基于振幅统计，可以得到音乐
中的拍子和节奏的参数，
频谱分析可获得音乐和声的基本频率
若音乐作品是MIDI形式，检索就相当容易;
若音乐作品是压缩的波形形式，检索就相当
困难
2015/7/20
Wu Gangshan: Modern Information Retrieval
56
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(2) 单体声音的分类检索

检索对象:指定类型的单体声音, 如脚步声、汽车声、
钢琴声、狗叫、猫叫等;

查询方式: 文本说明, 示例查询；

实现: 基于声学（听觉）特性进行检索；

确定用于分类的(可测量的)声学特征矢量:



音量，基频，亮度，带宽，谐音.
收集大量的样板数据，利用上述特征进行训练，形
成分类模型；对数据库所有声音进行分类、建索引；
利用分类和索引信息进行检索。
2015/7/20
Wu Gangshan: Modern Information Retrieval
57
南京大学多媒体研究所
Multimedia Computing Institute of NJU
(3) 复杂声音的检索



复杂声音：一段声音包含有多类不同的声音，
甚至各种声音还混合在一起。有背景音乐的朗
诵，多人参与的讨论，比赛现场的播音等。
通过声学信号特征分析，实现音频分段：

查找声音的“转变点”，确定了声音信号的不同区段

区分出语音、音乐或其他{它}声音，并进行分解。
通过音频分段，以结构化形式来组织音频的内
容，建立音频的摘要，实现对音频的检索。
2015/7/20
Wu Gangshan: Modern Information Retrieval
58

Document

Transcript Document

Directory