What is MPEG-4 audio and what can I do with it?

Download Report

Transcript What is MPEG-4 audio and what can I do with it?

多媒体信息检索技术
基于内容的信息检索
2015/7/17
南京大学 1
1
多媒体信息检索技术
内 容
1. 多媒体数据的描述
2. 基于内容的信息检索
3. MPEG7
4. 基于内容的图像检索
5. 人脸识别技术
2015/7/17
南京大学 2
2
多媒体信息检索技术
1、多媒体信息的描述
2015/7/17
南京大学 3
3
多媒体信息检索技术
背景
• 全世界每年产生的纸
介质、光盘介质或者
磁介质的信息内容约
需1.5亿GB左右的存储
容量。
– 平均每个人250M左右。
– 其中大约80亿幅图片,
超过400petabytes。
2015/7/17
南京大学 4
4
多媒体信息检索技术
多媒体信息的基本数字化方法
•
•
•
•
•
•
•
文本:编码,抽象程度高。
图像:取样,抽象程度低。
图形:描述,抽象程度中等。
音频:取样,抽象程度低。
音频:描述,抽象程度中等。
视频:取样,抽象程度低。
其他形态的媒体信息。
2015/7/17
多媒体信息检索
语义概念表示
【0,1】表示
南京大学 5
5
多媒体信息检索技术
从检索角度看多媒体数据
1. 数据量大,且数据长度可变,无法使用定长记
录进行存储;
2. 数据(媒体)类型多样, 数据模型复杂;
3. 音频和视频数据在语义上无结构,是一种无格
式数据(unformatted data),也称为非结构化
数据(unstructured data)。很难以数据的内容
或结构细节作为线索对多媒体信息进行检索;
2015/7/17
南京大学 6
6
多媒体信息检索技术
从检索角度看多媒体数据
4. 对数据操纵有更多更高的要求,除了常规的增、
删、改等操作之外,对视/音频数据还有播放、
暂停、快进、快退、按内容、序号、时间进行
选播等操作,
5. 在数据展现(演播)过程中必须保证音视频数据
传输的等时性 (isochronism)及多种媒体数据之
间的同步(synchronization) 。需要时,还应该具
有不同媒体之间的自动转换功能。
2015/7/17
南京大学 7
7
多媒体信息检索技术
多媒体对象的3种数据
1 原始数据(Raw Data)
一幅压缩或未压缩的图像由许多像素构成。以字节和比
特的形式表示的像素值就是该图像的原始数据。
2 注册数据(Registering Data)
注册数据提供对于原始数据的解释,例如,图像的彩色
空间类型、像素深度、图像分辨率、压缩编码方法等。
没有注册数据,多媒体数据便不能被解释和展现。注
册数据的语义还可以被用来定义一个或多个媒体之间
存在的关系。
2015/7/17
南京大学 8
8
多媒体信息检索技术
多媒体对象的3种数据
3 描述数据(Descriptive Data)
– 描述数据提供了额外的冗余的信息,它为数
据检索提供方便。描述数据本身可以表示为
结构化形式,也可表示为非结构化的形式。
– 媒体的描述数据是有效地管理和使用媒体所
必不可少的,一般称之为“元数据”
(metadata)。在“数字化生存”一书中,
尼葛洛庞帝称为“bits about bits”。
2015/7/17
南京大学 9
9
多媒体信息检索技术
文本,图象,音频和视频的3种数据
文本
图像
原始数据
字符串
像素集
注册数据
采用的编
码(例如
ASCII 码,
GB 码)、文
本长度, 文
本格式等
关键字, 摘
要,分类等
信息
图片的高和宽,颜
色空间, 像素深
度,压缩编码标准
以及其它图象参
数
描述数据
2015/7/17
音频
视频
PCM 编 码 形 式 的 一系列由像素矩阵
数字取样值
所 表 示 的 画 面
(picture)
音频编码的属性, 除了分辨率、编码方
如取样频率,样本 法等信息外,还给出
精度,声道数目, 每秒的图象帧数
压缩编码标准等
图像的作者, 场 说话的时间, 地 场景的描述, 例如
景的时间, 地点, 点, 主题或作词、 发生的时间, 地点,
主题等
作曲、 演唱者等 角色等
南京大学10
10
多媒体信息检索技术
描述数据(元数据)
• 多媒体信息是先有了数据,为了便于理解,
管理和使用,再对它进行描述或解释.这种
描述和解释用的数据是关于数据的数据,
称为“元数据”.
• 元数据有2大类:
– content-independent metadata. 如:数据名,所有
者,创建日期,访问权限等;
– content-dependent metadata. 如:分类, 关键词,...
2015/7/17
南京大学11
11
多媒体信息检索技术
Content-dependent metadata
• 根据元数据的性质,它可以分为2大类:
– 描述媒体的物理属性(媒体的低级特征),一般是
通过对原始数据进行变换和统计得出的,如视觉上
的颜色和纹理、听觉上的音调和音色等,可以由计
算机全自动进行提取;
– 描述媒体的语义属性(媒体的高级特征)。在物理
特征基础之上,利用对象标识技术和知识库而得到,
自动提取往往非常困难。
• 元数据是与应用相关的,不同应用往往需要使
用不同的元数据。
2015/7/17
南京大学12
12
多媒体信息检索技术
2类content-dependent metadata
媒 体
文本
图象
音频
视频
2015/7/17
物理特征
字体、字号、段落、格
式等
颜色,纹理、形状等
音调,音色等
逻辑特征
文章的分类、性质、中心思想
等
图象中物体的数目、类型等
讲话中的关键词、中心思想等
镜头数目、镜头角度、 视频中的角色数目、角色特征、
画面的颜色,纹理、形 场景类型、事件性质等
状等
南京大学13
13
多媒体信息检索技术
元数据举例
• 书目数据的MARC标准.
• 网络信息资源的元数据标准:
– IAFA(Internet Anonymous Ftp Archive),描述各种
FTP文档
– SOIF(Summary Object Interchange Format),描述
Web文档、
– DC(Dublin Core), 由图书馆、网络和数字化图书
馆等领域的专家参与的一项国际研究计划,提供了
一个描述网络信息资源的元数据集(包含15个核心元
素).
2015/7/17
南京大学14
14
多媒体信息检索技术
2015/7/17
南京大学15
15
多媒体信息检索技术
多媒体信息描述框架
内容无关描述数据
元
数
据
语义属性数据
物理属性数据
注册数据
原始数据
2015/7/17
南京大学16
16
多媒体信息检索技术
2、基于内容的信息检索
(Content Based Information Retrieval)
2015/7/17
南京大学17
17
多媒体信息检索技术
(1) 背 景
• 随着信息社会的到来和Internet应用的普及,人们
可以直接访问和使用的信息以指数速度增加.
• 多媒体技术的发展使得数字化的图像和音频/视
频信息越来越丰富,如何有效地对这些信息进行
组织、管理和检索使用便成为迫切需要解决的
问题。
2015/7/17
南京大学18
18
多媒体信息检索技术
(1) 背 景
• 传统的基于数据库的多媒体检索一般采用基于关
键词的检索方式.
• 关键词检索技术的不足:
– 由于图像和视频信息的内容具有丰富的内涵,在
许多情况下仅用几个关键词难以充分描述;
– 关键词的选取是依赖于应用的,很难设计出一组
关键词满足各种不同查询应用的需要;
– 多媒体信息的关键词(特征)的提取有很大的主
观随意性和不精确性。
2015/7/17
南京大学19
19
多媒体信息检索技术
2015/7/17
南京大学20
20
多媒体信息检索技术
2015/7/17
南京大学21
21
多媒体信息检索技术
2015/7/17
南京大学22
22
多媒体信息检索技术
2015/7/17
南京大学23
23
多媒体信息检索技术
(2) 什么是基于内容的检索?
• 所 谓 基 于 内 容 的 检 索 ( Content Based Retrieval,
CBR),就是对多媒体数据的内容进行自动语义分析,
提取其特征,建立结构和索引,以达到便于浏览和
检索的目的。
Multimedia
Data
Feature
Extraction
Indexing
Query and
Feedback
Metadata
Multimedia
Data
Database
interaction
Retrieval
User
• “全文检索”是CBR的一种特例。
2015/7/17
南京大学24
24
多媒体信息检索技术
(3) CBR的技术特点
(1) 从媒体内容中提取信息线索。
基于内容的检索需要对图像、视频、音频的内
容进行分析,抽取其特征和语义,利用这些内
容特征建立索引,并进行检索。
(2) 查询要求不易准确提出。
对多媒体数据的查询要求往往无法准确描述,
这就要求CBR能提供多种多样的查询方法。例
如,示例查询(Query By Example,简称
QBE),自然语音查询等
2015/7/17
南京大学25
25
多媒体信息检索技术
CBR的技术特点
(3) 基于内容的检索是一种近似匹配 。
由于对内容的描述不是一种精确描述,因此,
CBR采用相似性匹配的方法逐步求精,以获得
查询结果,即不断缩小查询结果的范围,直到
定位于所要求的目标,这是一个迭代过程,与
常规数据库检索中的精确匹配方法不同。
(4) CBR需要综合利用图像处理、模式识别、计
算机视觉、图像理解等学科中的一些方法。
2015/7/17
南京大学26
26
多媒体信息检索技术
(4) CBR系统的结构
为用户提供
一种工具,
以全自动或
半自动的方
式对媒体中
感兴趣的区
域进行标识
对音频、视
频、图像等
媒体自动或
半自动地提
取适合检索
要求的特征
2015/7/17
以示例查询
(QBE)和
模糊描述等
可视查询形
式向用户提
供查询接口
通过计算特
征之间的距
离来进行信
息检索,得
到的是一组
大体匹配的
检索结果
对全部数据作过滤,过
滤出的数据再用高维
特征来进行匹配,达到
快速检索的目的
南京大学27
27
多媒体信息检索技术
(5) CBR的查询和检索过程
提取该示例的特
•常用查询方法有3种: 征或把描述映射
•示 例 查 询 ( Query By 为一个特征矢量
Example)
•表格说明(递交一组
特征值)
•浏览检索
•基于内容的查询和检索
是一个逐步求精的过程,
它需要经历一个特征调
整、重新匹配直到用户
满意为止的循环过程。
2015/7/17
将查询特征与特
征库中的特征按
照一定的匹配算
法进行相似匹配
南京大学28
28
多媒体信息检索技术
查询过程举例
用户使用描述性语言
粗略描述目标面部
性别
年龄
头发颜色
匹配描述的特征值的
相似面部组返回给用户
特征修正之后,生成新
的查询,该查询将返回
一组新的相似面部
用户选择一个与目标面部
相似的面部,并且调整某些特
征值使之与目标面部更相似
特征调整
2015/7/17
南京大学29
29
多媒体信息检索技术
初始特征与标准特征的映射
初始特征
说明
性
别:
年
龄:
身
高:
头发长度:
面部轮廓:
眼睛颜色:
。男
。女
。0~15
。15~30
。30~45
。45以上
。5’6以下 。5’6~5’10 。5’10~ 6’2 。6’2以上
。长
。中等
。 短
。宽
。中等
。窄
。兰
。黑
。绿
……
面部轮廓统计表
初始特征值 µ=0.673
δ=0.143
到标准特征
值的映射 面部轮廓映射表
宽→µ+0.5δ
中→µ
窄→µ-0.5δ
2015/7/17
……
……
用户描述:“中等”
初始查询用特征值
面部轮廓=0.673
头发:红=0.0
灰=0.8
鼻子宽度= µ鼻宽
南京大学30
30
多媒体信息检索技术
信息检索的评价
假定文档集D、查询请求q,返回的检索结果集为Q。D中包含的
文档数目为ND,其中与q相关的文档的数为Nrel,不相关文档数为
Nunr;Q中包含的文档数目为NQ,其中与q相关的文档数为NQ,rel,
不相关的数目为NQ,unr,则:
检索精度(precision) = NQ,rel / NQ (信息检索的专一性)
召回率(recall) = NQ,rel / Nrel
作为结果集返回的文档
与查询相关的文档
N Q , rel
未返回的文档
N Q ,rel
总数
Nrel
2015/7/17
(信息检索的完备性)
与查询不相关的文档
总数
NQ,u nr
NQ
NQ ,unr
Nunr
NQ
ND
南京大学31
31
多媒体信息检索技术
(6) CBR的典型应用
1. 文档资料的全文检索
2. 图像数据库的检索
3. 新闻节目的检索
4. 音乐(唱片)数据库的检索
5. 安全监测
2015/7/17
南京大学32
32
多媒体信息检索技术
Query examples, Music
• Play a few notes on a keyboard and get in
return a list of musical pieces containing (or
close to) the required tune or images
somehow matching the notes, e.g. in terms
of emotions.
演奏几个音符,可得到包含该曲调的一系列音
乐作品。
2015/7/17
南京大学33
33
多媒体信息检索技术
Query examples, Graphics
• Draw a few lines on a screen and get in
return a set of images containing similar
graphics, logos, ideograms,...
在屏幕上划一个简单图形,可得到很多包含类
似图形的商标或文字的画面。
2015/7/17
南京大学34
34
多媒体信息检索技术
Query examples, Image
• Define objects, including colour patches or
textures and get in return examples among
which you select the interesting objects to
compose your image.
用户用颜色、纹理等来说明一个“对象”,可
找到包含有类似对象的一组图片。
2015/7/17
南京大学35
35
多媒体信息检索技术
Query examples, Movement
• On a given set of objects, describe
movements and relations between objects
and get in return a list of animations
fulfilling the described temporal and spatial
relations.
对给定的一组物体,描述物体间的运动和相互
关系, 就会得到具有类似时空关系的 一组动画。
2015/7/17
南京大学36
36
多媒体信息检索技术
Query examples, Scenario
• On a given content, describe actions and get
a list of scenarios where similar actions
happen.
在给出的内容中,用户描述所发生的一个 (一
些)actions, 送回给用户的是发生类似action的一
系列的scenarios.
2015/7/17
南京大学37
37
多媒体信息检索技术
Query examples, Voice
• Using an excerpt of Pavarotti’s voice, and
getting a list of Pavarotti’s records, video
clips where Pavarotti is singing or video
clips where Pavarotti is present.
使用一段Pavarotti的声音,可以得到Pavarotti唱
片一览表,以及一组Pavarotti正在唱歌或他在场
的视频片断.
2015/7/17
南京大学38
38
多媒体信息检索技术
基于内容的信息检索的关键问题
• 多媒体对象的描述
– 是匹配的基础
– 不能过于抽象(抽取准确性不高)
– 不能过于简单(个体对象的表征差异性太大)
• 如何抽取描述
– 领域差异、媒体差异、技术保护
• 如何检索
– 相似度计算,高维索引
2015/7/17
南京大学39
39
多媒体信息检索技术
3. MPEG7规范
——多媒体对象的描述
2015/7/17
南京大学40
40
多媒体信息检索技术
MPEG-7
(Multimedia Content Description Interface)
• Context(背景):
– 数字化视听信息越来越多,检索越来越困难.
– 目前,检索文本信息有一些办法,WWW上就有许
多text-based search engines .
– 由于视听材料没有通用的可识别的描述,因此无
法进行识别.
– 寻找内容的问题不仅在数据库检索应用中存在,
在其它领域也存在,如数字广播的频道越来越多,
如何找到感兴趣的频道就是一个例子.
2015/7/17
南京大学41
41
多媒体信息检索技术
What is the MPEG-7 ?
• MPEG-7是一种用于信息检索的内容表示的标准。
• MPEG-7 will be a standardized description of various types of
multimedia information. This description will be associated
with the content itself, to allow fast and efficient searching for
material that is of interest to the user.
MPEG-7将建立各种类型多媒体信息的标准的描述方法。这
种描述与内容关联在一起,支持对用户感兴趣的材料的快速、
高效的检索。
• 所谓“材料”包括:静止的画面、图形、声音、运动视频以
及上述元素如何结合成多媒体信息(“剧情”、合成信息),
还包括上述通用数据类型中的特例,如面部表情、人物特点
等。
南京大学
42
多媒体信息检索技术
Digital
Media Value Chain
(MPEG-7 Metadata Management)
• Content value chain:
– Life-cycle:
Sell
Distribute
• Increase content asset value
through repurposing
– Metadata layer:
Deliver
Package
Adapt
Plan
Index
Metadata
Mgmt.
Search
Annotate
Maintain
Extract
Acquire
Collate
Organize
• First-class role of metadata
(smart bits) throughout digital
media lifecycle
• Central role of metadata
management (XML schemas,
catalog records, ontologies)
• MPEG-7 for content
description
• MPEG-21 for packaging,
rights mgmt, transactions
– Digital media metadata access
functions:
Author
Annotate
Create
Store
Search
Produce
• Create: search, annotate,
extract
• Manage: index, annotate,
collate
• Transact/Distribute: search,
package, adapt
南京大学
43
多媒体信息检索技术
MPEG-7 Multimedia Indexing and Searching
• MPEG-7 Indexing & Searching:
Digital Media Respository
MPE G-7
SC HEM A
M PEG-7 Search Engi ne
(X M L M etad ata)
M odel
Qu ery
Similarity
Search
Sema ntics
Que ry
MPEG-7
Model
D escriptio ns
MPEG-7
D escriptors
MPEG-7
S emantics
D escrip tions
Sounds like ...
Looks like ...
– Semantics-based (people, places, events,
objects, scenes)
– Content-based (color, texture, motion,
melody, timbre)
– Metadata (title, author, dates)
MPEG-7
Search
User
Network
I BM Conte nt M anager
(Library Serve r &
Obje ct S erver)
Pervasive
Usage
Environment
MPEG-7
Metadata
Storage
MPEG-7
Processing
• MPEG-7 Access & Delivery:
– Media personalization
– Adaptation & summarization
– Usage environment (user
preferences, devices, context)
南京大学
44
多媒体信息检索技术
MPEG-7
Overview
(XML for Multimedia Content Description)
• MPEG-7 Normative elements:
Compression
Coding
MPEG-1,-2,-4
Transmission
Retrieval
Streaming
Management
Filtering
Acquisition
Authoring
Editing
– Descriptors and Description Schemes
– DDL for defining Description Schemes
– Extensible for application domains
DDL
MPEG-7
Standard
DS
DS
Searching
Indexing
Time
Axis
MPEG-7
Browsing
Navigation
Segment Tree
Shot1
Segment 1
Sub-segment 1
Shot2
Event Tree
Shot3
• Introduction
• Summary
• Program logo
Sub-segment 2
Sub-segment 3
• Studio
D
DS
D
D
D
Application
domain
D
i.e., Medical
imaging
Remotesensing images
Surveillance
video
Computer
animations and
graphics
• Rich, highly granular multimedia content
description:
– Video segments, moving regions, shots, frames, …
– Audio-visual features: color, texture, shape, …
– Semantics: people, events, objects, scenes, …
• Overview
Sub-segment 4
• News Presenter
segment 2
• News Items
Segment 3
• International
• Clinton Case
• Pope in Cuba
Segment 4
• National
Segment 5
Segment 6
• Twins
• Sports
• Closing
Reference Region
Segment 7
Motion
Reference Region
Reference Region
南京大学
Motion
Motion
45
多媒体信息检索技术
Harmonization of Multimedia Metadata Standards
MPEG-7, SMEF, P/Meta, SMPTE, Dublin Core, TV-Anytime, Indecs
• MPEG-7: Moving Picture Experts Group
– Infrastructure standard for Multimedia Metadata
– Supports interpretation of the information’s meaning
– Supports broad range of applications
Dublin
Core
• SMEF – Standard Media Exchange Framework:
– BBC developed data models for information involved in the
Production, Development, Use, and Management of media
assets
• P/Meta – EBU P/Meta Project:
MPEG-7
Harmonized
Model
– Exchange of program content between high-level business
functions of EBU members: Production, Delivery/Broadcast,
& Archive
• SMPTE – Metadata dictionary & MXF:
– Addresses Program Interchange independent of format
MPEG-7
Descriptors
P/Meta
SMEF
SMPTE
• Dublin Core Metadata Initiative:
– Interoperable online metadata standards supporting broad
range of purposes and business models.
• TV-Anytime – TV-Anytime Metadata:
– Attractors/descriptors used e.g. in Electronic Program Guides
(EPG), or in Web pages to describe content.
• Indecs – Indecs Metadata Framework
– An international initiative of rights owners creating metadata
standards for e-commerce.
TV
Anytime
• MPEG-7 Harmonized Model:
– Harmonized elements with other standards
and existing practices
– Extensible framework
– Registration authority for classification
schemes, controlled terms, ontologies
南京大学
46
多媒体信息检索技术
MPEG-7 MDS: Free Text Annotation
Example
• The following example gives an MPEG-7
description of a car that is depicted in an image:
<Mpeg7>
<Description xsi:type="SemanticDescriptionType">
<Semantics>
<Label>
<Name> Car </Name>
</Label>
<Definition>
<FreeTextAnnotation>
Four wheel motorized vehicle
</FreeTextAnnotation>
</Definition>
<MediaOccurrence>
<MediaLocator>
<MediaUri> image.jpg </MediaUri>
</MediaLocator>
</MediaOccurrence>
</Semantics>
</Description>
</Mpeg7>
南京大学
47
多媒体信息检索技术
MPEG-7 MDS: Event DS Example
•
The following example gives an MPEG-7 description of the event of handshake between
people:
<Mpeg7>
<Description xsi:type="SemanticDescriptionType">
<Semantics>
<Label>
<Name> Shake hands </Name>
</Label>
<SemanticBase xsi:type="AgentObjectType" id="A">
<Label href="urn:example:acs">
<Name> Person A </Name>
</Label>
</SemanticBase>
<SemanticBase xsi:type="AgentObjectType" id="B">
<Label href="urn:example:acs">
<Name> Person B </Name>
</Label>
</SemanticBase>
<SemanticBase xsi:type="EventType">
<Label><Name> Handshake </Name></Label>
<Definition>
<FreeTextAnnotation> Clasping of right hands by two people </FreeTextAnnotation>
</Definition>
<Relation type="urn:mpeg:mpeg7:cs:SemanticRelationCS:2001:agent" target="#A"/>
<Relation type="urn:mpeg:mpeg7:cs:SemanticRelationCS:2001:accompanier“ target="#B"/>
</SemanticBase>
</Semantics>
</Description>
</Mpeg7>
南京大学
48
多媒体信息检索技术
MPEG-7对信息的“描述” 1
• “描述”是依赖于应用的,所以不同用户、不同应用所使用
的描述是不同的。也就是说,同一材料可以使用不同类型的
特征进行描述。例如,
– 视频材料的低级抽象是它的shape, size, texture, colour,
movement (trajectory) and position (‘where in the scene can the
object be found?)等的描述.
– 音频材料的低级抽象是它的key, mood, tempo, tempo changes,
position in sound space等的描述;
– 而高级的描述也许是给出语义信息如: ‘This is a scene with a
barking brown dog on the left and a blue ball that falls down on the
right, with the sound of passing cars in the background.’
2015/7/17
南京大学49
49
多媒体信息检索技术
MPEG-7对信息的“描述” 2
• 除了内容的特征描述之外, 还需要其他类型的有
关多媒体数据的信息,如:
– The form - An example of the form is the coding scheme
used (e.g. JPEG, MPEG-2), or the overall data size. This
information helps determining whether the material can be
‘read’ by the user.
– Conditions for accessing the material - This could
include copyright information, and price;
2015/7/17
南京大学50
50
多媒体信息检索技术
MPEG-7对信息的“描述” 2
– Classification - This could include parental rating, and
content classification into a number of pre-defined
categories;
– Links to other relevant material - The information
may help the user speeding up the search.
– The context - In the case of recorded non-fiction
content, it is very important to know the occasion of the
recording (e.g. Olympic Games 1996, final of 200
meter hurdles, men)
2015/7/17
南京大学51
51
多媒体信息检索技术
MPEG-7对信息的“描述” 3
• 许多情况下使用文本信息(textual information)进行描述,
然而描述的usefulness应尽可能与语言无关. (A very
clear example where text comes in handy is in giving
names of authors, film, places.)
• MPEG-7 的描述数据可以与相关的 AV material在一起
(same data stream or on the same storage system), 也可分
开。在分开的情况下需要有mechanisms 把两者双向link
起来。(目录服务)
2015/7/17
南京大学52
52
多媒体信息检索技术
MPEG-7对信息的“描述” 4
• MPEG-7 描述符不依赖于被描述内容的编码方法或存
储方法, 它也可以为模拟视频或印刷画片建立MPEG-7
描述.
• MPEG-4是MPEG-7的基础。 MPEG-4把 视听材料 作为
具有某种时间关系和空间关系的对象. 使用MPEG-4编
码方法就可以把 descriptions 附加到场景中的elements
(objects) 上.
• MPEG-7 允许描述中有不同的“粒度” granularity, 从
而有可能提供不同级别的辨别力(discrimination).
2015/7/17
南京大学53
53
多媒体信息检索技术
MPEG-7 Terminology 1
• 数据 Data: Data is audio-visual information that will
be described using MPEG-7, regardless of storage,
coding, display, transmission, medium, or technology.
• 特征 Feature: A Feature is a distinctive characteristic
of the data which signifies something to somebody.
• 描述符 Descriptor: A Descriptor (D) is a
representation of a Feature. A Descriptor defines the
syntax and the semantics of the Feature representation.
2015/7/17
南京大学54
54
多媒体信息检索技术
MPEG-7 Terminology 2
• 描述值 Descriptor Value: A Descriptor Value is an
instantiation of a Descriptor for a given data set (or
subset thereof).
• 描述方案 Description Scheme: A Description
Scheme (DS) specifies the structure and semantics of
the relationships between its components, which may
be both Descriptors and Description Schemes.
• 描述 Description: A Description consists of a DS
(structure) and the set of Descriptor Values
(instantiations) that describe the Data.
南京大学55
2015/7/17
55
多媒体信息检索技术
MPEG-7 Terminology 3
• 描述编码 Coded Description: A Coded Description is
a Description that has been encoded to fulfil relevant
requirements such as compression efficiency, error
resilience, random access, etc.
• 描述定义语言 Description Definition Language: The
Description Definition Language (DDL) is a language
that allows the creation of new Description Schemes
and, possibly, Descriptors. It also allows the extension
and modification of existing Description Schemes.
2015/7/17
南京大学56
56
多媒体信息检索技术
DDL的作用
• DDL 提供了构造description scheme 的机
制(mechanism), description scheme则形成
了描述生成的基础。
2015/7/17
南京大学57
57
多媒体信息检索技术
描述符,描述方案与DDL的关系
• 从DDL到DS的箭头表示DS是使用DDL生成的,使用已
有的DS可以构造新的DS.
2015/7/17
南京大学58
58
多媒体信息检索技术
Scope of MPEG-7
automatic extraction of
features (or ‘descriptors’)
search engines
• automatic extraction of features (or ‘descriptors’) 很重要,
但不在标准的范围之内,原因是不需要具有互操作性.
• Search engines也不在标准的范围之内.
2015/7/17
南京大学59
59
多媒体信息检索技术
MPEG-7 Objectives
• MPEG-7 的目标是:
– 规定一组标准的描述符(descriptors), 用来描述各种类型
的多媒体信息,
– 描述符及其相互间的关系称为描述方案(description
schemes). 对预定义的描述方案进行标准化,
– 制定一种用于定义新的(用户自己的)描述方案的标准化
语言 DDL, (Description Definition Language ),
– 把描述 (i.e. a set of instantiated Description Schemes) 与内
容关联在一起,以便用户快速有效地检索感兴趣的材料,
– 把描述进行编码表示,以便有效地进行存储和快速访问 .
2015/7/17
南京大学60
60
多媒体信息检索技术
An abstract representation of possible
applications using MPEG-7
• 上图是使用MPEG-7的各种可能的应用的抽象表示;所
使用的编码器和解码器是可选的;多媒体 Content到用
户的流在图中没有具体表示出来;
2015/7/17
南京大学61
61
多媒体信息检索技术
Areas of Interest
• 许多应用和应用领域都会从MPEG-7 standard得
到好处,例如:
– Digital libraries (image catalogue, musical
dictionary,…)
– Multimedia directory services (e.g. yellow pages)
– Broadcast media selection (radio channel, TV
channel,…)
– Multimedia editing (personalized electronic news
service, media authoring)
2015/7/17
南京大学62
62
多媒体信息检索技术
可能的应用领域
• Education,
• Journalism (e.g. searching speeches of a certain politician using his name, his
voice or his face),
• Tourist information,
• Cultural services (history museums, art galleries, etc.),
• Entertainment (e.g. searching a game, karaoke),
• Investigation services (human characteristics recognition, forensics),
• Geographical information systems,
• Remote sensing (cartography, ecology, natural resources management, etc.),
• Surveillance (traffic control, surface transportation, non-destructive testing in
hostile environments, etc.),
• Bio-medical applications,
• Shopping (e.g. searching for clothes that you like),
• Architecture, real estate, and interior design,
• Social (e.g. dating services), and
• Film, Video and Radio archives.
2015/7/17
南京大学63
63
多媒体信息检索技术
MPEG-7 的内容
• MPEG-7 Systems - the tools that are needed to prepare MPEG-7
Descriptions for efficient transport and storage, and to allow
synchronization between content en descriptions. Tools related to
managing and protecting intellectual property
• MPEG-7 Description Definition Language - the language for
defining new Description Schemes and perhaps eventually also
for new Descriptors.
• MPEG-7 Audio – the Descriptors and Description Schemes
dealing with (only) Audio descriptions
• MPEG-7 Visual – the Descriptors and Description Schemes
dealing with (only) Visual descriptions
2015/7/17
南京大学64
64
多媒体信息检索技术
MPEG-7 的内容
• MPEG-7 Generic entities and Multimedia Description
Schemes - the Descriptors and Description Schemes
dealing with generic features and multimedia descriptions
• MPEG-7 Reference Software - a software implementation
of relevant parts of the MPEG-7 Standard
• MPEG-7 Conformance - guidelines and procedures for
testing conformance of MPEG-7 implementations.
2015/7/17
南京大学65
65
多媒体信息检索技术
Visual Descriptors
•
•
•
•
Color Descriptors
Texture Descriptors
Shape Descriptors
Motion Descriptors for Video
2015/7/17
南京大学66
66
多媒体信息检索技术
Color Descriptors
2015/7/17
南京大学67
67
多媒体信息检索技术
Color Spaces
• Constrained color spaces
– Scalable Color Descriptor uses HSV
– Color Structure Descriptor uses HMMD
• MPEG-7 color spaces:
–
–
–
–
–
2015/7/17
Monochrome
RGB
HSV
YCrCb
HMMD
南京大学68
68
多媒体信息检索技术
Scalable Color Descriptor
• A color histogram in HSV color space
• Encoded by Haar Transform
2015/7/17
南京大学69
69
多媒体信息检索技术
Dominant Color Descriptor
• Clustering colors into a small number of
representative colors
• It can be defined for each object, regions, or the
whole image
• F = { {ci, pi, vi}, s}
•
•
•
•
2015/7/17
ci : Representative colors
pi : Their percentages in the region
vi : Color variances
s : Spatial coherency
南京大学70
70
多媒体信息检索技术
Color Layout Descriptor
•
•
•
•
Clustering the image into 64 (8x8) blocks
Deriving the average color of each block
Applying DCT and encoding
Efficient for
– Sketch-based image retrieval
– Content Filtering using image indexing
2015/7/17
南京大学71
71
多媒体信息检索技术
Example: Color layout
** Image adapted from Smith and Chang : Single Color Extraction and Image Query
南京大学72
2015/7/17
72
多媒体信息检索技术
Color Structure Descriptor
• Scanning the image by an 8x8 pixel block
• Counting the number of blocks containing each
color
• Generating a color histogram (HMMD)
• Main usages:
– Still image retrieval
– Natural images retrieval
2015/7/17
南京大学73
73
多媒体信息检索技术
GoF/GoP Color Descriptor
• Extends Scalable Color Descriptor
• Generates the color histogram for a video
segment or a group of pictures
• Calculation methods:
– Average
– Median
– Intersection
2015/7/17
南京大学74
74
多媒体信息检索技术
Visual Descriptors
•
•
•
•
Color Descriptors
Texture Descriptors
Shape Descriptors
Motion Descriptors for Video
2015/7/17
南京大学75
75
多媒体信息检索技术
Texture Descriptors
• Homogenous Texture Descriptor
• Non-Homogenous Texture Descriptor
(Edge Histogram)
2015/7/17
南京大学76
76
多媒体信息检索技术
Homogenous Texture Descriptor
• Partitioning the frequency domain into 30
channels (modeled by a 2D-Gabor function)
• Computing the energy and energy deviation for
each channel
• Computing mean and standard variation of
frequency coefficients
• F = {fDC, fSD, e1,…, e30, d1,…, d30}
• An efficient implementation:
– Radon transform followed by Fourier transform
2015/7/17
南京大学77
77
多媒体信息检索技术
2D-Gabor Function
• It is a Gaussian
weighted sinusoid
(正弦曲线)
• It is used to model
individual channels
• Each channel filters a
specific type of texture
2015/7/17
南京大学78
78
多媒体信息检索技术
Radon Transform
• Transforms images with lines into a domain of possible
line parameters
• Each line will be transformed to a peak point in the
resulted image
2015/7/17
南京大学79
79
多媒体信息检索技术
Non-Homogenous Texture
Descriptor
• Represents the spatial distribution of five types of
edges
– vertical, horizontal, 45°, 135°, and non-directional
• Dividing the image into 16 (4x4) blocks
• Generating a 5-bin histogram for each block
• It is scale invariant
2015/7/17
南京大学80
80
多媒体信息检索技术
Non-Homogenous Texture
Descriptor (2)
2015/7/17
南京大学81
81
多媒体信息检索技术
Visual Descriptors
•
•
•
•
Color Descriptors
Texture Descriptors
Shape Descriptors
Motion Descriptors for Video
2015/7/17
南京大学82
82
多媒体信息检索技术
Shape Descriptors
•
•
•
•
Region-based Descriptor
Contour-based Shape Descriptor
2D/3D Shape Descriptor
3D Shape Descriptor
2015/7/17
南京大学83
83
多媒体信息检索技术
Region-based Descriptor
• Expresses pixel distribution within a 2-D object
region
• Employs a complex 2D-Angular Radial
Transformation (ART)
• Advantages:
–
–
–
–
2015/7/17
Describes complex shapes with disconnected regions
Robust to segmentation noise
Small size
Fast extraction and matching
南京大学84
84
多媒体信息检索技术
Region-based Descriptor (2)
• Applicable to figures (a) – (e)
• Distinguishes (i) from (g) and (h)
• (j), (k), and (l) are similar
2015/7/17
南京大学85
85
多媒体信息检索技术
Contour-Based Descriptor
• It is based on Curvature Scale-Space
representation(曲率尺度空间)
2015/7/17
南京大学86
86
多媒体信息检索技术
Curvature Scale-Space
• Finds curvature zero
crossing points of the
shape’s contour (key points)
• Reduces the number of key
points step by step, by
applying Gaussian
smoothing
• The position of key points
are expressed relative to the
length of the contour curve
2015/7/17
南京大学87
87
多媒体信息检索技术
Curvature Scale Space (2)
2015/7/17
南京大学88
88
多媒体信息检索技术
Contour-Based Descriptor
• It is based on Curvature Scale-Space
representation
• Advantages:
– Captures the shape very well
– Robust to the noise, scale, and orientation
– It is fast and compact
2015/7/17
南京大学89
89
多媒体信息检索技术
Contour-Based Descriptor (2)
• Applicable to (a)
• Distinguishes
differences in (b)
• Find similarities in (c)
- (e)
2015/7/17
南京大学90
90
多媒体信息检索技术
Comparison
• Blue: Similar shapes by Region-Based
• Yellow: Similar shapes by Contour-Based
2015/7/17
南京大学91
91
多媒体信息检索技术
2D/3D Shape Descriptor
• A 3D object can be roughly described by
snapshots from different angles
• Describes a 3D object by a number of 2D
shape descriptors
• Similarity Matching: matching multiple
pairs of 2D views
2015/7/17
南京大学92
92
多媒体信息检索技术
3D Shape Descriptor
• Based on Shape spectrum
• An extension of Shape Index (A local
measure of 3D Shape to 3D meshes)
• Captures information about local convexity
• Computes the histogram of the shape index
over the whole 3D surface
2015/7/17
南京大学93
93
多媒体信息检索技术
Visual Descriptors
•
•
•
•
Color Descriptors
Texture Descriptors
Shape Descriptors
Motion Descriptors for Video
2015/7/17
南京大学94
94
多媒体信息检索技术
Motion Descriptors
•
•
•
•
Motion Activity Descriptors
Camera Motion Descriptors
Motion Trajectory(轨迹) Descriptors
Parametric Motion Descriptors
2015/7/17
南京大学95
95
多媒体信息检索技术
Motion Activity Descriptor
• Captures ‘intensity of action’ or ‘pace of
action’
• Based on standard deviation of motion
vector magnitudes
• Quantized into a 3-bit integer [1, 5]
2015/7/17
南京大学96
96
多媒体信息检索技术
Camera Motion Descriptor
• Describes the movement of a camera or a
virtual view point
• Supports 7 camera operations
Boom up
Dolly
backward
Track right
Tilt up
Dolly
forward
Track left
Pan right
Boom down
Pan left
Roll
2015/7/17
Tilt down
南京大学97
97
多媒体信息检索技术
Motion Trajectory
• Describes the movement of one representative point of a
specific region
• A set of key-points (x, y, z, t)
• A set of interpolation functions describing the path
2015/7/17
南京大学98
98
多媒体信息检索技术
Parametric Motion
• Characterizes the evolution of regions over
time
• Uses 2D geometric transforms
• Example:
– Rotation/Scaling:
• Dx(x,y) = a + bx + cy
• Dy(x,y) = d – cx + by
2015/7/17
南京大学99
99
多媒体信息检索技术
MPEG-7 Work Plan
Part Title
WD
CD
FCD FDIS
IS
1
Systems
12/99 10/00 02/01 07/01 09/01
2
DDL
12/99 10/00 02/01 07/01 09/01
2
Audio
12/99 10/00 02/01 07/01 09/01
3
Visual
12/99 10/00 02/01 07/01 09/01
4 Generic entities and MMDS 12/99 10/00 02/01 07/01 09/01
5 Reference Software
6 Conformance Testing
2015/7/17
12/99 10/00 02/01 07/01 09/01
-
10/00 02/01 07/01 09/01
南京大学
100
100
多媒体信息检索技术
MPEG-7相关的现有国际标准
1) ISO 8879 SGML, Standardized General Markup Language;
2) ISO 9541 Font Interchange Standard;
3) ISO 10179 DSSSL, Document Style Semantics Specification
Language;
4) ISO 10180 SPDL, Standard Page Description Language;
5) ISO 10744 HyTime, Hypermedia Time based structure
language;
6) ISO xxxxx HTML, Hypertext Markup Language;
7) SMDL, Standardized Music Description Language
8) SMSC, Standardized Multimedia Scripting Language;
9) XML, Extensible Markup Language
南京大学
101