Transcript Document

《数字媒体资产管理》
第3章 素材
刘士军
[email protected]
摘要



2
素材是不同形式和格式内容的物理表示,不同用途的
素材需要使用大量的用于不同目的的素材格式,一个
理想的内容管理系统应当独立于媒体和格式
内容管理系统并不仅是一个存储文件的仓库,它还必
须理解文件结构、媒体语法、甚至特定部分的语义;
提供媒体索引、自动信息检索和流媒体等功能和服务
内容管理系统除了对素材进行单纯的管理外,还可以
通过自动检索来获得内容的附加信息,实施编辑点检
测,浓缩版本生成,转码处理等
数字媒体资产管理
本章内容






3
3.1 素材的不同形式
3.2 编码和压缩基础
3.3 视频
3.4 音频
3.5 图片、网页、文本和其他素材格式
3.6 素材的处理
数字媒体资产管理
1. 素材的不同形式



4
基本素材元素
结构化素材格式
高码率和浏览格式
数字媒体资产管理
基本素材元素


基本素材元素是素材的基础组成部分,内容一般会被
表示为特定的基础素材类型,例如音频、视频、图像、
图形和文本等
素材元素可以根据它们的时间和表示特征进行分类。
总的来说,分为离散型(非时相关)和连续型(时间
相关)媒体


5
一个连续的媒体流由连续的、与时间相关的信息单元描述,
这种与时间的相关性是指媒体(或其不同部分)对于用户的
呈现。基本的连续媒体素材元素有视频、音频和运动图形
离散媒体没有内在的时间要求,其表示的内容也与呈现时间
无关,如文本、图像和图形
数字媒体资产管理
结构化素材格式



在结构化素材格式中,基本素材元素或其他结构化素
材元素通过引用和链接组合在一起。例如网页、XML
文档和多媒体文件
结构化素材格式间的关系不仅由明显的引用来建立,
还可以由不同基本元素相联系的时间约束来建立
管理结构化素材格式的挑战在于保持它们所表示信息
的有效性和连续性

6
需要考虑基本模块可能会被重新部署和改变;必须明确地管
理结构化素材对象的外部链接,防止可能导致内容对象的不
一致操作
数字媒体资产管理
例:基于扩展SMIL的多媒体信息展示



数字博物馆中大量的馆藏相关的文字、音频、视频、
三维模型、全景图等多媒体资源需要在网络中进行全
方位同步展示
W3C制订的推荐标准SMIL语言 ──(Synchronized
Multimedia Integration Language)通过基于XML的标
记语言,表述各种媒体对象之间的同步关系,目前得
到了广泛的认可
基于Java语言自主开发的支持文本、图像、音频、视
频、全景图、SVG图形与三维模型等丰富媒体类型的
SMIL展示工具

7
http://museum.sdu.edu.cn/class/class_2/showsmil/class_2.
htm
数字媒体资产管理
基于扩展SMIL的多媒体信息展示
8
数字媒体资产管理
SMIL示例:全景图



利用Java编制一个可以解析和播放全景图信息的类并
融合到整个系统中,在适当的时候调用这个类里面的
方法对SMIL文件进行解析,获得全景图元素的信息
在该元素定义的有效时间段内,用全景图类里面的方
法在屏幕上展现出来
可以在 SMIL文件定义中自如的加入需要展示的全景
图元素


9
例如:“<pano
src=”pano/school.jpg“ region=”pano_001“ begin=”0.
3s“ scroll=”L“ speed=”1“ />”
这句话的含义是将预先准备好的全景图片“pano/school.jpg”
在0.3秒的时刻在“pano_001”区域出现,而且默认的滚动
方向是向左,滚动速度为1
数字媒体资产管理
高码率和浏览格式


是否选用高码率格式是由质量、制作、广播和存档等
方面的要求来决定的
对低码率格式的需求来自于初选、浏览等工作



10
在一典型的处理视音频材料的工作流中,对视频内容的初选
是基于关键帧的。通过对所选视音频片断的低码率副本的浏
览(听和看)来具体选择特定的内容
因为需要快速访问浏览材料,浏览信号应当高度压缩以节省
网络带宽和存储空间
需要能够根据系统能力提供相应质量水平的可调比特
率编码
数字媒体资产管理
浏览交换格式——浏览的基本要求

EBU和SMPTE(Society of Motion Picture and
Television Engineers,电影与电视工程师学会)发表
了一份浏览交换格式(Browsing Interchange Format,
BIF)


目标是阐明低码率浏览格式所必须满足的条件
BIF用于媒体专业人员的浏览和选择,须具备以下基本特征:





11
视频(准确的帧和时码以及颜色)
双声道音频
与内容有关的元数据(包括访问权限、IPR管理和保护信息)
与材料有关的元数据(时码、唯一ID等)
BIF应当支持流和文件传输,而且应当提供技术功能以支持促进
至少2种常用的浏览模式:编辑决策列表(Edit Decision List,
EDL)和非常窄带浏览,64kb/s的数据率应当足以满足这种应用
场合
数字媒体资产管理
2. 编码和压缩基础



12
波形和抽样
压缩
比特率
数字媒体资产管理
数字化

什么是信号的数字化?

例:音频信号



13
声音信号在空气、液体和固体中是通过介质的振动传播的
音频信号可以转化为电、磁信号在电路和空间以振动方式传播
数字化将连续变化的输入如声音信号转化为一串分离的单元,
在计算机中用0和1表示。通常用模数转换器执行这个转换
数字媒体资产管理
数字化的一些特点



传输、拷贝和存储时信号不易劣化
易于与其它数字进行复用
易于进行处理和管理




14
信号压缩
数据纠错
内容管理
加密
数字媒体资产管理
举例:胶片电影与数字电影



胶片电影是将感光乳剂涂在片基上,通过感光、显影,将形成
的影像放映到银幕上;胶片的工作方式与我们眼睛很相像,它
可容纳更广泛的反差、色彩范围以及高光和暗部的细节
胶片解像力一般可达100cycles/mm,柯达50D能到200cycles
/mm,而数字影片2K的像素是2048×1556,相当于40cycles
/mm
数字影片






15
扫描器规格
2K
3K
4K
8K
像素
2048×1556
3072×2334
4096×3112
8196×6224
解像力
40cycles/mm
60cycles/mm
80cycles/mm
160cycles /mm
目前大量使用的是2K以下的扫描器,解像力远不如胶片,不能
准确还原胶片上的细节,使胶片上的细部层次、质感受到损失,
而这种损失是不可挽回的
数字媒体资产管理
举例:胶片电影与数字电影



16
数字电影的发行不再需要洗印大量的拷贝,即避免了
从原始素材到拷贝多次翻制的损失,也免除了运输过
程,节约了成本又利于了环保
使用胶片储存,数据的密度高,可靠性强,效率高,
寿命长,涤纶片的概率寿命在500年以上
现阶段数字电影的存储介质多为硬盘,数字媒介厂商
明确建议其用户每5~7年,必须转录一次海量数据以
防数据出现问题;海量的数据复制也面临困难。一部
2K制作的故事片大概需要2.7TB存储空间,我国数字
电影年产量2008年已经达到260部,其数据量几乎就
是一个天文数字
数字媒体资产管理
数字化的缺点




17
数字化处理会造成图像质量、声音质量的损伤
数字信号经过处理器时,一般会产生延时
数字信号在过载时,将彻底丢失信息
误码率高于纠错能力时,信息也将丢失
数字媒体资产管理
数字化的意义

当所有的媒体都数字化以后,我们会观察到两个有意
义的结果


18
第一,比特会毫不费力地相互混合,可以同时或分别地被重
复使用。声音、图像和数据的混合被称作“多媒体” ,即混
合的比特
第二,一种新形态的比特诞生了,这种比特会告诉你关于其
他比特的事情。它通常是一种“信息标题”(header)‘能
说明后面的信息的内容和特征。在你的CD上,也可以找到
简单的标题,让你能直接从一首歌跳到另一首歌,有时候,
还可以从中获取关于音乐的更多的材料。这些比特看不见,
听不到,但却能够告诉你、你的电脑或上台特别的娱乐设备
一些与信号相关的事情
数字媒体资产管理
数字化的意义

这两个现象,混合的比特和关于比特的比特,使媒体
世界完全改观



19
数据电视节目中包含了电脑可以读懂的关于节目的自我描述,
这将意味对内容的强大控制能力
更进一步,这种数字化的描述能够让你在接收端任意选择节
目的形式——无论是声音、影像还是文字。相比而言,目前
的视频点播就是小儿科了
这些都是数字化可能引发
的情况。它开创了无穷可
能性,前所未有的节目将
从全新的资源组合中脱颖
而出
数字媒体资产管理
数字化的实现过程

数字化的历史






1937年ALEC REEVES提出PCM编码
通讯业用于传输
广播界用于储存
数字岛:数字录音机,CD机,音频工作站
全面数字化:交换矩阵,调音台,周边设备
网络化:音频工作站联网,矩阵和调音台联网
PCM 脉冲编码调制是Pulse Code Modulation的缩写。主要过程是将话音、
图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层
单位四舍五入取整量化,同时按二进制码来表示抽样脉冲的幅值
20
数字媒体资产管理
数字化的实现过程

数字化的历史

数字化过程






21
采用个别数字设备(CD机、录音机,调音台等)
音频工作站系统
控制和传输系统数字化
内容数字化
系统数字化
系统网络化
数字媒体资产管理
采样和量化

信号的数字化





采样就是每隔一定时间就读一次音频信号的幅度
量化则是将采样得到的声音信号幅度转换为数字值
从本质上讲,采样是时间上的数字化,而量化则是幅度上的数字化
选择采样频率应遵循奈奎斯特(Nyquist)采样理论:


22
对连续的信号(模拟信号)进行:1、采样;2、量化,即可得到数字
信号
如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只
有采样频率的一半,或者说只要采样频率高于输入信号最高频率的
两倍,就能从采样信号系列重构原始信号
正常人听觉的频率范围大约在20Hz-20kHz之间,根据奈奎斯特采
样理论,为了保证声音不失真,采样频率应该大于40kHz。高保真
的音频采样频率有44.1kHz、48kHz、96kHz以及192kHz等
数字媒体资产管理
采样和量化

高采样频率和高量化位数,可以获得高音质,同时也
增加了系统的开销,包括存储容量、运算速度、传输
速率和效率等;另一方面,人耳的分辨率是有限的,
所以,可以选择适当的采样频率和量化位数。专业的
数字音频系统一般为44.1kHz或48kHz的采样频率,
16位的量化
1983年CD面世
23
数字媒体资产管理
压缩:缩小比特率

压缩的目的:减少系统资源消耗



压缩的手段:降低或剔除冗余信息
压缩的种类:无损压缩、有损压缩



24
数字化会产生相当高的数据率,数据量很大。应用ITU-R
BT601 – 5标准的4:3电视视频信号的比特率是270Mb/s,
每小时的视频就有121. 5GB
无损压缩:降低或剔除物理冗余信息,信号可完全恢复,如
zip、rar等
有损压缩:降低或剔除生理和心理冗余信息,信号不可完全
恢复,如mp3、 wma等
多数压缩标准采用混合编码技术,例如,结合熵编码和源编
码的JPEG、H.261、MPEG -1、MPEG- 2和MPEG – 4等
数字媒体资产管理
数字信号的纠错


25
数字信号就是一系列按一定规则排列的数位(二进制
时,bit比特)
数字信号传输时,当将附加的数据(规则)加于数据流
之中,在接收端就可通过对附加的数据(规则)进行鉴
别来识别出有误码的数位,并给以纠正
数字媒体资产管理
3.视频




26
视频编码
MPEG
DV
视频格式
数字媒体资产管理
视频编码:基础和原理

视频图像是用像素(图片元素)表示的,它们是图片
中的最小单元



27
图像比例给出了图片的宽度与高度的比例,一般宽高比是4:3
彩色影像由红、绿、蓝3种信号(RGB)组成。在传输信号的过
程中采用了由1个亮度信号和2色度信号(YUV)表示的方法
连续移动的图像,如果帧频在每秒15帧以上,人类眼睛是无
法区分单个帧的,这种特征被应用于表示运动图像;欧洲
PAL制式使用25Hz的复制率,美国NTSC制式使用29. 97Hz
数字媒体资产管理
视频编码:基础和原理

要从模拟制转为数字制。基本的步骤是抽样、量化和
编码。对于视频,灰度或彩色级在这个过程中被抽样
到一个MxN的点阵数组内。接下来,连续的值根据点
阵数组映射到表示量化区间的离散值(如分成256个
区间)


28
对于更为重要的亮度信号可以用更高的抽样率(如13.
5MHz),2个色度信号只需要用亮度信号抽样率的一半来抽
样(6. 75MHz)即可,4:2:2抽样
在8比特量化和亮度抽样值每行864、色度抽样值每行432的
情况下,除去空白区间间隔后的累加率为261Mb/s
数字媒体资产管理
基于MPEG的格式

29
ISO/IEC JTCI/SC29/WGlI中的运动图像专家组
(Moving Pictures Expert Group,MPEG)自1988年以
来一直在发展关于视频编码的标准。相关的视频标准
有MPEG – 1、MPEG – 2和MPEG – 4。不同的标准
制定的时间不同,针对的应用范围不同。但是它们有
很多共同的基本原理,属于同一个格式家族
数字媒体资产管理
MPEG家族



30
MPEG致力于运动图像及其伴音的压缩编码标准化工
作,原计划开发MPEG1~4四个版本,以适用于不同
带宽和数字影像质量的要求。
目前,MPEG1技术被广泛的应用于VCD,而MPEG2
标准则用于广播电视和DVD等。MPEG3最初是为
HDTV开发的编码和压缩标准,但由于MPEG2的出色
性能表现, MPEG3未能得到发展,MPEG-4利用很
窄的带宽,通过帧重建技术,压缩和传输数据,以求
以最少的数据获得最佳的图像质量
更先进的下一个版本MPEG 7 并不是一种压缩编码方
法,而是一个多媒体内容描述接口
数字媒体资产管理
MPEG家族


MPEG1:MPEG1是最早出现的,
VCD 就是其中最主要的代表。VCD
源于日本,并遵守MPEG1规格。
MPEG2:其代表是DVD。一般为
480P(640*480)。DVD当时都符合这个标准




31
MPEG-2是由MPEG和ITU-T双方合作开发的。因此MPEG-2
在ITU-T的命名规范中被称之为H.262
MPEG2-HD是为了区别DVD常采用的MPEG2而做的区分
MPEG2-TS是1080P的高清MPEG2一般文件格式后缀是.TS
MPEG4:Xvid 和H.264同属于MPEG4格式,是高于
MPEG1、2的新一代数字媒体格式
数字媒体资产管理
MPEG -1

MPEG-1标准创建的最初目的是定义一种适合数字化
存储技术的格式(如CD)。标准由3个主要部分组成:
MPEG视频、MPEG音频、MPEG系统(定义如何多
路复用和同步音频和视频)


32
MEPG –1音视频数据流定义的编码的平均带宽是:视频编码
部分1. 1Mb/s,音频编码部分128kb/s(支持立体声)
世界上第一台VCD机产自中国,旅美学者姜万勐在1992年美
国举办的国际广播电视技术展览会上发现了美国C-CUBE公
司的MPEG技术,并在1993年9月研制出VCD,接着在年底
成立万燕公司开始批量生产
数字媒体资产管理
MPEG - 2




33
MPEG – 1被定义为一种适合数字化资源存储技术的
格式。由于它规定了一个最大数据率(1. 5Mb/s),不
适合于高质量的应用要求
MPEG – 2标准的目的是为音视频信息在很大的分辨
率和比特率的范围内提供效的编码。MPEG – 2规定
了最高l00Mb/s的数据率,甚至考虑了HDTV
MPEG – 2和MPEG -1标准有同样的基本编码原理
支持的分辨率有:352 x288像素、360 X240像素、
704 x 576像素(同ITU – 601一样)和1250行16x9亮
度水平的HDTV分辨率
数字媒体资产管理
MPEG - 4


MPEG – 4正式名称为视音频对象编码
起初,MPEG – 4的主要目标是定义一个比常规编码
技术更能大幅度提高压缩率的标准,后来变成包含从
移动电话到交互多媒体应用再到体制作和播出的多媒
体应用和设备的需求



34
支持基于内容的交互,包括多媒体访问工具、基于内容的比
特流的编辑、混合、合成数据编码和优化的临时随机存取
通过改进的编码效率和多路数据流编码而优化的压缩
在不同环境下(从高速专业网络到低带宽、易出错的无线通
讯)支持普遍的访,但是也考虑了内容对象和基于内容的可
扩展性
数字媒体资产管理
MPEG-4面向对象的编码
面向对象的视频编码中,视音频场景由画面、声音和
影音对象(Audiovisual Object,AVO)基本元素组成
 一个画面场景由各种各
样的AVO组成。组成该
场景的信息存储在场景
描述等信息里。它定义
了空间和时间的位置以
及AVO之间的关系、动
态行为和该场景中有能
出现的交互信息的种类

35
数字媒体资产管理
Mpeg-4标准人脸特征点FDP示意图
来源:中国科学院自动化研究所模式识别国家重点实验室 辛乐 陶建华
36
数字媒体资产管理
基于DV的格式

数字视频(Digital Video,DV)最初的考虑是消费类产
品的数字磁带记录格式,后来被应用到专业领域。目
前有2种标准



37
由国际电工委员会( InternationalElectrotechnical
Commission,IEC)制定的原始DV标准
由电影与电视工程师学会(Society of Motion Picture and
Television Engineers, SMPTE)发布的专业DV标准
DV数码摄录系统提供最高可达520线水平解像度,而
且色彩频率较传统模拟摄录系统宽达6倍之多,故色
彩及影象更清晰明锐;在录音效果方面,配备12/16
比特PCM(Pulse Code Modulation)数码立体声录
音模式,16比特录音模式的音质可媲美DAT(Digital
Audio Tape,数字录音带)
数字媒体资产管理
DV格式:编码基础



38
DV压缩也是基于离散余弦变换(Discrete Cosine
Transformation,DCT)的。然而,和MPEG不同的是,
它只使用帧内压缩。DV的压缩率取决于一帧内的运
动,值约为5:1
DV编码由三级层结构构成。首先,画面帧被分成矩
形的块,之这些块被分成278x8的DCT宏块
一般使用者用的DV信号部分用4:2:0的格式,抽样率
为13. 5MHz,8比特编码。对于专业应用,品质将调
整成为4:1:1
数字媒体资产管理
内容管理系统中的视频格式
质量级
格式
传输率
存储要求1小时
存储10万小时
浏览
Real视频MPEG- 4高
级的简单类
128kb/s
58MB
5.8TB
试播
MPEG – 1
680MB
68TB
1.8GB
180TB
8.1GB
810TB
23GB
2.3PB
1.5 Mb/s
广播
MPEG – 2 MP@ML
新闻制作
MPEG-2 4 : 2 : 2
(可访问每一帧) P@MLGOP: IB
4Mb/s
18 Mb/s
制作
MPEG-2 4 : 2 : 2
(可访问每一帧) P@MLGOP:
IDVCPro 50
50 Mb/s
未被压缩的4:3
(只有视频信号)
SDTV,lTU R BT 6015
166 Mb/s
75GB
7.5PB
未被压缩的
SDTV,ITU R BT 601
– 5(包括空白)
270 Mb/s
121.5GB
12.15PB
*存储10万小时是中型广播的最常用数量
39
数字媒体资产管理
三网融合背后的技术博弈

有线电视的传输频率最高到45-860MHz,如果把频率
资源全部用于数据传输,按64QAM调制方式的速率
应该是4000M左右

沃3G 7.2M, ADSL宽带2M,电话线 64K
三网融合是指电信网、计算
机网和有线电视网三大网络
通过技术改造,能够提供包
括语音、数据、图像等综合
多媒体的通信业务
40
数字媒体资产管理
4.音频




41
音频素材
音频编码
MPEG
音频格式
数字媒体资产管理
音频素材


声音作为影视节目中不可或缺的成分,起到了增强真
实感与连贯性的作用,进一步解放了画面,甚至使沉
默和省略都成为一种表现手段。因而在一个完整的视
频内容中声音的效果是至关重要的
用户可以通过现场录制、捕捉和引入的方法在非线性
编辑系统中得到声音,用监视器窗口与时间线窗口配
合对素材进行剪辑



42
在时间线窗口中能够方便地调整声音的增益和播放速度
在混音器窗口中能够实时调整声音的音量与平衡
然后根据节目需要使用音频转场、音频滤镜等效果工具,优
化原始素材的声音效果,使声音和画面更加紧密地结合起来
数字媒体资产管理
音频素材——声音元素的分类

人声


音乐


音乐包括器乐与声乐。在使用音乐素材的时候有两种情况:
一种是画面上有声源,另一种是画面上无声源
音效

43
人声包括对白、旁白、独白。人声和镜头的画面结合,能起
叙述内容、刻画人物性格、扩大画面容量、展开故事情节的
作用
音效(也称音响、效果音)是人声和音乐之外所有的声音的
统称。它的范围很广,几乎包括了自然界所有的声音,如风
吹、雷鸣、犬吠等等
数字媒体资产管理
音频素材—— 声音元素的作用

结构上的作用

省略作用


连贯作用

44
声音在作品结构上发挥的作用是省略,即运用声音代替画面引
发观众想象,从而可以节省很多视觉画面。
在画面与画面,或镜头与镜头的衔接上,由于声音的连贯性,
可使观众感到非常流畅自然,察觉不出剪接的痕迹。以持续连
贯的声音作为线索或背景,可以将不同的时间、地点,不同的
短镜头贯穿起来,以突出统一主题,可使观众造成完整统一的
印象和感受
数字媒体资产管理
音频素材—— 声音元素的作用

内容上的作用

人声的功能


音乐的作用


45
在影视作品中,人声的作用在于叙事,有些不易于画面表现的
内容,可用话语加以补充,使内容表达更明确、更清楚、更感
人。人物语言还具有塑造形象、强化矛盾冲突、推动故事情节、
讲述故事、表现主题等作用
画面内容的表达经常需要借助于音乐的艺术感染力,音乐在影
视节目中,起到显示主题、渲染情节段落之间的间隔作用。此
外,主题音乐贯穿整个故事情节也是影视节目制作中常用的表
现手法,根据影片的需要,将主题音乐在不同时间以不同形式
加以重复
【士兵突击背景音】
数字媒体资产管理
音频素材—— 声画蒙太奇

声画合一


声画对位


指声音与画面都是单独录制的,它们在各自独立的基础上,
又进行有机结合的剪辑,声音的含义与画面的内容是相互吻
合的,但又有异于单纯的声音和画面本身的效果
声画分立

46
声画合一,也叫声画同步。即画面声音与发声体同时呈现,
声音形象与视觉形象是互相吻合的,一致的
画面内容是一回事,声音又是另一回事,内容各不相同,画
面与声音各自独立,相互对立,通过声音和画面的对立、冲
撞产生特定的含义
数字媒体资产管理
音频编码:基础和原理





47
声音是通过物质的震动而产生的,同时也引起周围介
质的压迫震动
震动产生了规则频率(周期)的波,它通过空气传播,
当到达人耳时,人们就听到声音
人耳能够听到的频率范围是20Hz~20kHz。音调的大
小取决于振幅(波偏移平均值的幅度)
为了数字化地表示声波,可以用模数转换器(Analogto-Digital Converter,ADC)来抽样,抽样率的单位也
是Hz。DC的反向过程把数字信号转换成声波
应用ADC量比之后,接下来的数字化数据就可以被压
缩了
数字媒体资产管理
不同的音频格式

决定数字音频质量的2个因素是样率和抽样量化程度


电话的音频以8kHz抽样、8比特编码量化
标准CD抽样率是44.1kHz,16比特的线性脉冲编码模式
(Pulse Code Modulation, PCM)


CD质量的数字立体声音频的数据率是:2 x 44 100(每秒)
x16(比特)=1 411 200(比特每秒)
74分钟音乐需要:74*60*1.4M/8=783M
在1979与1980年间,索尼和飞利浦为激光唱片行业设立统一标准进行谈判。
故事围绕着如何或者是否应该坚持单碟CD录下整首“贝九”。其中以下四位人
物对于“贝九”的录制技术的推进,有着至关重要的作用:索尼主席盛田昭夫
的夫人;曾经留学柏林音乐学院的索尼副总裁大贺典雄;“贝九”的忠实粉丝
大贺典雄的夫人;以及指挥家冯·卡拉扬,他为飞利浦子公司宝丽金录制唱片,
他在柏林爱乐乐团录制的《第九交响乐》长达66分钟;进一步研究寻找最长时
间的录制演出,由威廉·富特文格勒担任指挥,那次演奏持续了74分钟
48
数字媒体资产管理
不同的音频格式

波形格式(WAVE)常作为无压缩的数字立体声音频的
参考格式。标准明确提到适合WAVE的2个编码规则
(MPEG和PCM)


49
无压缩音频的WAVE编码模式是以上提到的以44.1kHz的抽
样和PCM编码、双声道CD质量的立体声音频
另一种常用的无压缩格式是48.0kHz PCM编码的无压缩音频,
它被用在数字音频磁带(Digital Audio Tape, DAT)上
数字媒体资产管理
基于MPEG的音频格式

MPEG不仅定义了有多元音频的标准视频,也独立定
义了音频。所有相关的MPEG编码标准(例如MPEG
-1、MPEG-2和MPEG-4)都涉及音频



50
MPEG -1音频编码与压缩数字音频CD和数字音频磁带
(Digital AudioTape,DAT)是兼容的,它们都是44.1kHz或
48kHz抽样,16比特量化。此外还定义了32kHz的抽样频率
在MPEG – I中定义了3个不同的层,每个层代表不同的编码、
解码复杂度和表现水平。层与层之间向下兼容,例如高级的
层必须能解码低级层的MPEG -1音频信号。音频文件通常编
码成为MPEG -1的第三层,因此被称为MP3
层1和层2的量化用PCM,层3的量化用霍夫曼编码,而最终
的压缩步骤用熵编码,最小比特率为32kb/s,允许的最大比
特率为320kb/s
数字媒体资产管理
基于MPEG的音频格式

51
MPEG -2标准包含和提高了MPEG -1音频标准。例如,
它也支持16kHz、22. 05kHz和24kHz的抽样率
(MPEG -1 抽样频率的一半)。这使比特率降低到
64kb/s以下,同时MPEG -2的音频部分标准用相对低
的比特率支持多信道。有多5个的全带宽声道:左、
右、中间双环绕声道以及一个提高低频质量的声道,
而且还支持多达7个信道的不同语言
数字媒体资产管理
基于MPEG的音频格式

52
MPEG -4音频(和视频部分相似)是面向对象的,它
支持音频场景通过多重音频对象(语义的或者自然的)
而创建。和MPEG -1以及MPEG -2中定义的一样,自
然音频对象是从样本波形中产生的。和视频的方式相
似,不同的音频流组合成为一个音频场景
数字媒体资产管理
内容管理系统中的音频格式




53
标准音频格式(如44. lkHz和48kHz的PCM编码音频
和MPEG音频)同样要被整合到内容管理系统中,内
容管理系统要对其制作和传输所需的工具和应用给予
支持
MPEG的音频编码器支持整个范围的声音压缩,其中
最主要的是MPEG-1的3层(MP3),因为它是目前网上
流行的音频格式
也存在其他方式的音频编码格式,如Real音频或流式
音频
专业系统中,96kHz的抽样率将可能成为标准
数字媒体资产管理
5.图片、网页、文本和其他素材格式


图片
结构化文档


54
SGML
HTML
数字媒体资产管理
图片


图片是可视化的照片或图像。它们描述具体的二维情
形,没有时间限制(属于离散的媒体类型)
字图片本身就成了表现量化值强度的数字值矩阵。图
片的样点是画面元素(如视频中),即像素



55
一张和NTSC电视画面大小一样的图片的分辨率为640 x 480
像素矩阵,以8比特和256灰度存储该单色图像需要空间大小
约为300kB
需要压缩图片来减少表现时需要的比特数
最常用的图片格式是JPEG、GIF、TIFF和BMP
数字媒体资产管理
图片


JPEG标准是由ISO和CCITT联合组成的联合图片专家
组制定的。JPEG定义彩色和单色图片的编码和压缩
方法,以及含有实际图片数据、编码表和编码参数的
交换格式
GIF (Graphic Interchange Format,图形交换格式)最
初由CompuServe开发,以支持平台无关的图片交换


56
GIF使用无损压缩方案,支持在一个文件中插人多幅画面,
支持简短动画和图片序列的编码
GIF只适用8比特的色彩表,所以不能应用于高质量的图片
数字媒体资产管理
图片

TIFF (Tagged Image File Format,标签图像文件格
式)是微软公司和Aldus公司联合开发的TIFF的目标是
提供可移植的、与硬件无关的图像编码

TIFF支持的压缩技术有游程编码、霍夫曼编码、LempelZiv-Welch压缩和JPEG压缩方法
TIFF是一种广泛应用的格
式,它还支持不同分辨率
的图像编码,如预览格式
和高清格式图片
57
数字媒体资产管理
图片


58
BMP (Bitmap Format,位图格式)是基于RGB色彩的
一般图像格式。它也被用于单色和黑白图像的编码
BMP格式定义了2个主要部分:头和数据部分。前者
被称为位图信息(BITMAPINFO),定义了图片大小、
色彩深度、色彩表以及压缩技术。数据部分含有每一
行中的各个点的像素值。色彩深度可取的值有1、4、
8和24
数字媒体资产管理
结构化文档



59
结构化文档是内容管理系统中的又一种重要的媒体类
型,它的发展主要由2方面促成:印刷媒体工业和网
域。另外,超文本和超媒体也对结构化文档语言和标
准的发展有一定的影响
与一般文档格式相比(RTF、MS Word或者PDF),结
构化文档的点是使用标记语言并链接到扩展文本和信
息。对于内容管理系统来说这是一项特殊的挑战
主要考虑的标准是SGML、HTML和XML
数字媒体资产管理
History of XML
60
数字媒体资产管理
什么是XML?







61
XML—可扩展标记语言
eXtensible Markup Language
XML是一种标记语言,形式上类似于HTML,但允许自
定义标记
XML文档包括基本的标记和文本
共享结构数据的标准方式
SGML的一个简化子集
是一种定义其他语言、交换格式、信息集的语言——
元语言
数字媒体资产管理
HTML vs XML (1 of 2)
62
数字媒体资产管理
HTML vs XML (2 of 2)
63
数字媒体资产管理
HTML 与 XML 的关键区别
64
数字媒体资产管理
层叠样式表CSS



65
CSS标准是万维网联盟的一个建议,起源于1994年。
目标是创建一个简单但具有表达能力的语言,此语
言可以组合不同来源的样式描述信息
一个具有将多个样式描述组合成一个样式描述集合
的能力
数字媒体资产管理
为什么使用样式表?




XML文档与样式表互为补充
文档是信息的本质或内涵
样式表示信息的格式
比喻

66
生配料+食谱=美食
数字媒体资产管理
好的习惯

分离标记与样式
作者专注于内涵
 而不必担心其外观显示
 在一个独立文档中保存样
式设置信息,使设计工作
变得更加容易
 显示该文档的选择更
多了。可使用不同样式
表来混合和匹配XML文档
 样式表可与代表特殊需求
的部分样式表结合层叠样
式表技术可合并不同来源的样式

67
数字媒体资产管理
不好的习惯

使用图形代替文本



利用浏览器的副作用


巧妙的专用特性来增强竞争力。当HTML语言被分裂为几个
竞争领域时,W3C也只能袖手旁观。一些网页也只能是显示
一条阅读信息“最好使用某某浏览器来浏览。”
专有技术

68
文档的外观在各个浏览器中都会稍有不同。
厂商“改进”


看起来好,但不是好的解决方案。
文本将失去被自动处理的机会。
Java和JavaScript、矢量动画包这些技术也会造成麻烦
数字媒体资产管理
6.素材的处理



69
素材的处理包括视音频、音频和视频对象的自动管理,
可被用作附加元数据的信息检索以及便捷的输入和检
索过程
相关的工具有:视频分析工具、音频分析工具(如语
音转为文本的工具和关键字定点)或者图片相似性检
索工具
其他程序有:转码工具或者将素材分段的特殊工具
数字媒体资产管理
素材处理程序

全自动地处理素材,并可以将这些工具根据其处理的
特定媒体的具体性质和特征进行分类,从而提取出语
义信息:





70
内容分割(时间和空间)工具和应用程序:根据具体参数如
镜头数(时间分层)、定区域,或者图像中的对象(空间分
层)将连续媒体对象分割
元数据生成工具:根据特定素材对象的特性或者可分析的特
征(如运动检测)来产生元数据
自动内容描述工具:如语音标识工具
索引工具:根据最普遍的模式对素材对象进行分类,如面部
标识工具和程序分类工具
基于内容的检索工具:利用素材的特征进行内容查询,如画
面相似性检索
数字媒体资产管理
素材处理方法



大部分的素材处理工具是利用数学、统计或者不同媒
体的某些计算特征和属性的随机分析方法
对文件、声音、图片或可视视音频信号进行整体操作
或者在给定时间内对特定部分分别操作
处理过程的基础构成部分有:



特征提取
特征解析
查询引擎
素素素素
素素素素素素素素
素素素素
素素素素素
素素素素
71
数字媒体资产管理
素素素素
素素素素素
素素素素
处理过程



72
特征提取部分包括所有的处理原始视听材料和利用对
象化的手法提取低水平特征的处理过程(如色彩直方
图、频谱分析以及主要动作幅度分析等)
特征解析部分能解析特征或者特征组合的值(在一定
出错范围内),尽量将目标观察和逻辑判断进行匹配
另一种直接应用音频、视频和视音频素材的低水平特
征的方法是相似性检索。此时用户要求搜索引擎检索
与已给定信息相似的信息条目,然后引擎根据用户提
供的信息提取特征值,并与已检索的内容进行特征分
析和提取后存储的特征值进行相似性匹配;低水平的
工具和一些同样考虑内容语义的高水平的工具共同使
用,可以得到更加准确的结果
数字媒体资产管理
分析素材


声音和音频分析是应用随机分析对声音效果、光谱封
装和音素进行操作。大体上它可被分为一般声音处理
(发现和分类流中出现的声音)、音乐分类(乐器类
型和主题识别)和语音分析(提供语言监测和标识、
语言定义、关键字标记和脚本翻译)
静态图像分析是用色彩特征分析、区域分段、文本特
征分析和面部检测(可以被认为是特殊的文本特征分
析)来得到图像内容的信息。

73
图像标识技术有广泛的应用,如应用在OCR工具或者手写文
字标识中.图像标识技术的3个特征是色彩、文本和图像边缘。
可以根据这些特征的相似性来查找图像,或者根据某些特征
的出现频率利用统计或者随机方法来标识图像
数字媒体资产管理
分析素材




74
视频分析工具使用为声音和图像分析开发的分析机制来进行基
本分析,还使用视频序列中的运动信息来决定视频的特定事件
例如使用场景转换、消解和擦除等效果和效果检测来决定视频
中的拍摄转换;使用这些信息可以产生一个原始的剪接列表
另一种由视频分析产生的可视化摘要是浏览。它们是基于视频
分析结果的简单视频摘要,如编辑在一起的简短的视频片段,
可以给出视频内容的快速预览
更复杂的工具甚至考虑了伴音和单独的音轨的编辑以产生连续
的视音频摘要
数字媒体资产管理
素材处理工具



75
富媒体组织中需要处理的内容数量越来越多,因此使
用自动处理过程来支持内容的标识和存档就变得更加
重要
内容的检索可以由自动处理程序支持,如图像相似检
索和蜂音搜索
另一个需要考虑的情况是如何将自动处理工具和应用
程序用于内容管理系统结构中。它们将文件、数据流
或者视音频信号作为输入部分,产生的结果是关键帧
集合、听材料或者元数据信息。这些结果必须和实际
内容对象相联系,并要能够在内容管理系统中被处理
数字媒体资产管理
本章小结




76
认识素材
素材的数字化
视频、音频和其它素材
素材的处理
数字媒体资产管理