Document

Transcript Document

内容安全技术
主讲人：刘凯
S310060029
内容提要：
“内容”与“信息”有联系也有区别。
内容安全主要是指数字内容的复制、传播和流动
得到人们预期的控制，而内容安全技术就是指实施
这类控制的技术。
本章重点：
内容安全的概念
文本过滤的基本方法
话题发现和追踪的基本过程
内容安全分级监管
多媒体内容安全技术的基本内容
12.1 内容安全的概念
1.信息与内容的区别
轮廓性
主观性
2.图像压缩中的信息与内容
简单介绍哈夫曼图像压缩算法
1.引言
随着网络与多媒体技术的兴起，人们需要存储
和传输的数据越来越多，数据量越来越大，以前带宽
有限的传输网络和容量有限的存储介质难以满足用户
的需求。
特别是声音、图像和视频等媒体在人们的日常
生活和工作中的地位日益突出，这个问题越发显得严
重和迫切。如今，数据压缩技术早已是多媒体领域中
的关键技术之一。
简单介绍哈夫曼图像压缩算法
Huffman(哈夫曼)算法在上世纪五十年代初提出
来了，它是一种无损压缩方法，在压缩过程中不会丢
失信息，而且可以证明Huffman算法在无损压缩算法
中是最优的。Huffman原理简单，实现起来也不困难，
在现在的主流压缩软件得到了广泛的应用。对应用程
序、重要资料等绝对不允许信息丢失的压缩场合，
Huffman算法是非常好的选择。
简单介绍哈夫曼图像压缩算法
2. 哈夫曼图像压缩算法原理
Huffman编码是1952年由Huffman提出的对统计
独立信源能达到最小平均码长的编码方法。这一年，
他发表了著名论文“A Method for the Construction of
Minimum Redundancy Codes”，即最短冗余码的构
造方法。之后，Huffman编码及其一些改进方法一直
是数据压缩领域的研究热点之一。
Huffman码是一种变长码，其基本思想是：先统
计图像(已经数字化)中各灰度出现的概率，出现概率
较大的赋以较短的码字，而出现概率较小的则赋以较
长的码字。
简单介绍哈夫曼图像压缩算法
2. 哈夫曼图像压缩算法原理
在整个编码过程中，统计图像各灰度级出现的
概率和编码这两步都很简单，关键的是Huffman树的
构造。不但编码的时候需要用到这颗树，解码的时候
也必须有这颗树才能完成解码工作，因此，Huffman
树还得完整的传输到解码端。
首先对统计出来的概率从小到大进行排序，然
后将最小的两个概率相加；到这儿的时候，先把已经
加过的两个概率作为树的两个节点，并把他们从概率
队列中删除；然后把相加所得的新概率加入到队列中，
对这个新队列进行排序。 Huffman树就建立起来了。
简单介绍哈夫曼图像压缩算法
3. 哈夫曼图像压缩算法软件实现
以Turbo C为例来说明软件实现Huffman图像压
缩算法的一些关键技术。
为了叙述方便，我们不妨假设处理的图像的灰度
级变化范围从0到255，即具有256个灰度级。我们先
来统计输入图像的概率，实际上是要统计各个灰度级
在整幅图像中出现的次数。为此，我们先定义一个具
有256个元素的数组。
简单介绍哈夫曼图像压缩算法
3. 哈夫曼图像压缩算法软件实现
然后对输入图像信号进行扫描，每出现一个灰
度，就把它存入实现定义好的一个数组中的相应元素
中(让这个元素的值自增1)。最后，通过读取数组中
各元素的值就可以求出各个灰度出现的频数。
接下来就该构造Huffman树了。为了构造
Huffman树，我们要用到C语言中链表的概念。我们
必须用一个结构体来表示Huffman树的节点。对于每
个节点而言我们需要这样几个信息：本节点的权重
(就是灰度的频数)、指向父节点的指针和分别指向左
右子叶节点的指针。
简单介绍哈夫曼图像压缩算法
3. 哈夫曼图像压缩算法软件实现
于是，我们可以定义这样一个结构体：
Struct Node{
Float weight;
Node * father;
Node * left;
Node * right; }Huffman_Node
简单介绍哈夫曼图像压缩算法
3. 哈夫曼图像压缩算法软件实现
我们需要先确定权最低的两个自由结点，这将
是最初的left和right节点。然后建立这两个结点的父
结点，并让它的权等于这两个结点的权之和。
接着将这个父结点增加到自由结点的序列中，
而两个子结点则从序列中去掉。重复前面的步骤直到
只剩下一个自由结点，这个自由结点就是Huffman树
的根。
简单介绍哈夫曼图像压缩算法
3. 哈夫曼图像压缩算法软件实现
Huffman编码树作为一个二叉树从叶结点逐步向
上建立。Huffman树建立好以后，为了把权、概率等
数值转化码字，我们还得对整个Huffman树进行扫描。
请注意，在建立Huffman树的时候，我们是从树叶开
始的，而在对Huffman树分配码字的时候却刚好相反，
是从树根开始，沿着各个树枝的走向“顺藤摸瓜”似的
对各个系数进行编码。
对于一个节点的两个子节点(left和right)，其中
一个节点对应的位为0，而另一个结点则人为地设置
成为1。解码的时候也是完全相同的一颗Huffman树
完成的。
简单介绍哈夫曼图像压缩算法
4. 哈夫曼图像压缩算法性能评价
(1)压缩比的大小;
(2)恢复效果的好坏，也就是能否尽可能的恢复原始
数据;
(3)算法的简单易用性以及编、解码的速度。
简单介绍哈夫曼图像压缩算法
4. 哈夫曼图像压缩算法性能评价
首先分析一下对压缩比的影响因素(压缩比等于
压缩之前的以比特计算的数据量比上压缩之后的数据
量)。对于Huffman编码来说，我们因为要用额外的位
保存和传输Huffman树而“浪费”掉一些存储位，也就
是说，为了编、解码的方便，我们把本已减少的数据
量又增加了一些。
如果文件比较大的话，这一点多余的数据根本算
不了什么，所占比例很小。但是，如果压缩的文件本
来就很小的话，那么这笔数据就很可观了。一般来说，
经典的Huffman算法的压缩比不是很高，这是无损压
缩的“通病”。
简单介绍哈夫曼图像压缩算法
4. 哈夫曼图像压缩算法性能评价
由于它是无损压缩，能够完全恢复压缩之前图
像的本来面貌。
Huffman压缩方法在压缩的过程中，我们进行了
两次扫描，第一次是为了统计各个灰度出现的频数而
扫描整幅图像，第二次则是为了分配码字而扫描整个
Huffman树。
这样一来，对较大的文件进行编码时，频繁的磁
盘读写访问必然会降低数据编码的速度，如果用于网
络的话，还会因此带来一些延时，不利于实时压缩和
传输。
简单介绍哈夫曼图像压缩算法
5. 图像压缩算法总结
Huffman算法目前已经得到了广泛的应用，软件
和硬件都已经实现。基于Huffman经典算法的缺陷，
不少人提出了一些自适应算法。前面的算法中，
Huffman树是整个图像全部输入扫描完成后构造出来
的，而自适应算法(或称动态算法)则不必等到全部图
像输入完成才开始树的构造，并且可以根据后面输入
的数据动态的对Huffman树进行调整。实际上，实用
的Huffman树都是经过某种优化后的动态算法
3.“内容”一词主要来源于一下三个方面：
1）前述内容与信息的细微差别；
2）当前国际上讲数字视频、音频和电子出版
物等称为数字内容；
3）一些文献中的“内容”专指应用层或应用
中的数据和消息。
4.内容安全的危害和需求
1）数字版权侵权及其控制
2）不良内容传播及其控制
3）敏感内容泄露及其控制
数字版权保护技术
1. 数字版权保护技术
数字版权保护技术，简称DRM，是以一定的计
算方法，实现对数字内容的保护。DRM将成为网络
出版中的主流技术，特别是eBook网络出版领域，
DRM已经成为必需的技术。DRM技术的研究内容涉
及数据加密、DRM系统的体系结构、数字版权描述
等多个方面，其中在eBook紧密相关的是EBX技术。
基于EBX技术框架的eBook DRM系统，在保护
eBook的版权方面较完整，包括eBook的计数、二次
传播等版权的控制。
数字版权保护技术
1. 数字版权保护技术
随着互联网的发展，网上电子书、音乐、电影、
图片等数字内容的传播越来越多，由于数字内容很容
易复制、修改，网络上传播的数字内容存在大量的盗
版和侵权问题。因此，针对数字内容的版权保护越来
越重要。
数字版权保护技术就是以一定的计算方法，实
现对数字内容的保护，包括电子书（eBook）、视频、
音频、图片等数字内容。
数字版权保护技术
1. 数字版权保护技术
DRM技术的目的是保护数字内容的版权，从技
术上防止数字内容的非法复制，或者在一定程度上使
复制很困难，最终用户必须得到授权后才能使用数字
内容。DRM涉及的主要技术包括数字标识技术、安
全和加密技术、存储技术、电子交易技术等等。
数字版权保护技术
2. DRM技术综述
数字版权保护方法主要有两类，一类是采用数
字水印技术，另一类是以数据加密和防拷贝为核心的
DRM技术。
数字版权保护技术
2. DRM技术综述
数字水印（Digital Watermark）技术是在数字内
容中嵌入隐蔽的标记，这种标记通常是不可见的，只
有通过专用的检测工具才能提取。数字水印可以用于
图片、音乐和电影的版权保护，在基本不损害原作品
质量的情况下，把著作权相关的信息，隐藏在图片、
音乐或电影中，而产生的变化通过人的视觉或听觉是
发现不了的。但是，目前市场上的数字水印产品在应
用方面还不成熟，容易被破坏或破解，而且数字水印
方法，只能在发现盗版后用于取证或追踪，不能在事
前防止盗版。
数字版权保护技术
2. DRM技术综述
数据加密和防拷贝为核心的DRM技术，是把数
字内容进行加密，只有授权用户才能得到解密的密钥，
而且密钥是与用户的硬件信息绑定的。加密技术加上
硬件绑定技术，防止了非法拷贝，这种技术能有效地
达到版权保护的目的，当前国内外大部分计算机公司
和研究机构的DRM技术采用这种方法，针对各个应
用领域，有不同的DRM系统。
数字版权保护技术
3. DRM相关研究内容
最近几年，进行DRM研究的科研人员逐渐增多，
为此，美国计算机协会从2001年开始，每年举办一
次ACM DRM会议“ACM Workshop on Digital Rights
Management”，涉及的研究内容包括多个方面，主
要有DRM系统的体系结构、DRM中对数字内容使用
的跟综和审核、数字内容交易的商业模式及其安全性
需求、多媒体数据的加密、身份识别、DRM系统中
的密钥管理、数字权利的转移问题、数字版权描述等
等。
数字版权保护技术
4. DRM技术在电子书出版中的应用
eBook的商业流程中，涉及了很多的角色，包括
作者、出版社、发行者、图书馆、书店以及读者，
DRM技术需要在eBook的流通过程中，保护这些角色
的合法利益。
通过DRM技术，应该使作者和出版社的版权和
相应的收入有保障，这就要求，只有购买了eBook的
读者才能在指定机器上阅读，把eBook拷贝到其他机
器是无法阅读的。
数字版权保护技术
4. DRM技术在电子书出版中的应用
在出版社的出版工具方面，从制作印刷书到制作
电子书，要有方便、一致的工具；在很长的时期内，
印刷书和电子书是并存的，需要作到一次排版，印刷
和eBook同时适用。为了使出版社得到应有的收入，
网上电子书店销售的eBook应该是可计数的，也就是
书店卖了多少“本”eBook，出版社要知道，以便准备
地结算。
网上电子书店也需要通过DRM技术，从出版社
得到eBook的销售许可，并且读者付钱后才能得到相
应的eBook。
数字版权保护技术
4. DRM技术在电子书出版中的应用
数字图书馆通过DRM技术，让eBook实现借和还
的过程，即保留图书馆对书的借、还服务，同时又保
护的出版社的版权。另外，在数字图书馆中，eBook
是以一定的复本数存在，例如，数字图书馆有一本书
的三个复本，则同时只能有三个读者借阅，第四个人
必须等其他读者还回eBook后才能借阅。
数字版权保护技术
4. DRM技术在电子书出版中的应用
为了保护eBook流通过程中各个角色的合法利益，
DRM技术至少要在四个方面体现eBook的版权控制：
1) DRM技术要保证eBook不能被复制，eBook与阅读
的机器是绑定的，计算机文件拷贝到别的机器无法阅
读。
2) DRM技术要保证eBook不能被篡改，包括eBook的
内容、eBook的定价、出版社名称等信息。
数字版权保护技术
4. DRM技术在电子书出版中的应用
3) DRM技术要保证eBook可以计数。可计数性包括
两个含义：第一，读者买eBook，按“本”购买；网
络电子书站卖书，按“本”卖；数字图书馆按“本”
买eBook，一本一本地借给读者。第二，出版社能知
道网络书店卖了几本书、图书馆买了几本书，该统计
数据通过技术保证其公正和不可篡改。
数字版权保护技术
4. DRM技术在电子书出版中的应用
4) DRM技术可以控制eBook的二次传播。例如图书
馆购买的书，可以借给读者阅读，读者的eBook到了
借期后不能继续阅读等等
目前，只有方正Apabi和部分国外的eBook DRM技术，
采用了EBX的技术框架，在这四个方面实现了对
eBook的版权保护。当然，实现这几个方面保护时，
需要用到对称加密技术、非对称加密技术（PKI）、
数据通讯安全技术、版式文件的数据加密以及XML等
多种技术，在这些技术的基础上，才能构成完整的
eBook DRM系统。
5.内容安全技术分为：
1）被动内容安全技术
2）主动内容安全技术
区别：预处理
预处理包括：对内容添加分级标志、数字签名、
数字水印等可识别信息。
6.内容安全技术
1）广义的
包括：数字版权保护、数字水印、多媒体
取证内容认证、内容过滤和监控、垃圾邮件防
范、网络敏感内容搜索、舆情控制、信息泄露
防范等。
2）狭义的
包括广义内容安全技术中涉及内容搜索和
监控的部分。
主要包括：网络多媒体制品的非授权散步
控制、内容过滤和监控、垃圾邮件防范、网络
敏感内容搜索、舆情控制、信息泄露防范等。
12.2 文本过滤
串匹配算法
文本的向量空间模型
串匹配算法
串匹配（String Matching）问题是计算机科学中
的一个基本问题，也是复杂性理论中研究的最广泛的
问题之一。它在文字编辑处理、图像处理、文献检索、
自然语言识别、生物学等领域有着广泛的应用。而且，
串匹配是这些应用中最耗时的核心问题，好的串匹配
算法能显著地提高应用的效率。因此，研究并设计快
速的串匹配算法具有重要的理论价值和实际意义。
串匹配算法
串匹配问题实际上就是一种模式匹配问题，即在
给定的文本串中找出与模式串匹配的子串的起始位置。
最基本的串匹配问题是关键词匹配（Keyword
Matching）。所谓关键词匹配，是指给定一个长为n
的文本串T [1，n]和长为m的模式串P [1，m]，找出
文本串T中与模式串所有精确匹配的子串的起始位置。
串匹配问题包括精确串匹配、随机串匹配和近似串匹
配。另外还有多维串匹配和硬件串匹配等。
串匹配算法
1. KMP串匹配算法
KMP算法首先是由D.E. Knuth、J.H. Morris以及V.R.
Pratt分别设计出来的，所以该算法被命名为KMP算
法。KMP串匹配算的基本思想是：对给出的的文本
串T [1，n]与模式串P [1，m]，假设在模式匹配的进
程中，执行T [i]和P [j]的匹配检查。若T [i]=P [j]，则
继续检查T [i+1]和P [j+1]是否匹配。若T [i]≠P [j]，则
分成两种情况：若j=1，则模式串右移一位，检查T
[i+1]和P [1]是否匹配；若1<j≤m，则模式串右移j－
next(j)位，检查T [i]和P [next(j)]是否匹配（其中next
是根据模式串P [1，m]的本身局部匹配的信息构造而
成的）。重复此过程直到j=m或i=n结束。
串匹配算法
2. 随机串匹配算法
采用KMP算法虽然能够找到所有的匹配位置，
但是算法的复杂度十分高，在某些领域并不实用。而
随机串匹配算法主要采用了散列（Hash）技术的思
想，它能提供对数的时间复杂度。其基本思想是：为
了处理模式长度为m的串匹配问题，可以将任意长为
m的串映射到O(logm)整数位上，映射方法须得保证
两个不同的串映射到同一整数的概率非常小。所得到
的整数之被视为该串的指纹（Fingerprint），如果两
个串的指纹相同则可以判断两个串相匹配。
串匹配算法
3. 近似串匹配算法
前两种串匹配算法均属于精确串匹配技术，它要求模
式串与文本串的子串完全匹配，不允许有错误。然而
在许多实际情况中，并不要求模式串与文本串的子串
完全精确地匹配，因为模式串和文本串都有可能并不
是完全准确的。例如，在检索文本时，文本中可能存
在一些拼写错误，而待检索的关键字也可能存在输入
或拼写错误。在这种情况下的串匹配问题就是近似串
匹配问题。
串匹配算法
3. 近似串匹配算法
近似串匹配问题主要是指按照一定的近似标准，
在文本串中找出所有与模式串近似匹配的子串。近似
串匹配问题的算法有很多，按照研究方法的不同大致
分为动态规划算法，有限自动机算法，过滤算法等。
但上述所有算法都是针对一般的近似串匹配问题，也
就是只允许有插入、删除、替换这三种操作的情况。
本节中还考虑了另外一种很常见的错误－换位，即文
本串或模式串中相邻两字符的位置发生了交换，这是
在手写和用键盘进行输入时经常会发生的一类错误。
为修正这类错误引入了换位操作，讨论了允许有插入、
删除、替换和换位四种操作的近似串匹配问题。
1. 分词
1）整词二分法
这种算法的数据结构简单、占用空间小，
构建及维护也较简单，但由于采用全词匹配的
查询过程，效率较低。
2）Trie索引树法
优点：在分词中，在系统对被分解语句的
一次扫描过程中，无须预知待查询词的长度，
沿树下行逐字匹配即可。
缺点：构造和维护比较复杂，存储开销也
较大。
2. 特征提取
1）布尔向量表示法
易于实现速度快，但在反应文章含义方
面非常粗糙。
2）统计特征词条在文本中出现的频率
3. 内容分类
指过滤系统检查流经的文本、根据特征数
据库判断文本属于哪一类文本的操作。

Document

Transcript Document

Directory