Transcript Document

内容安全技术
文本过滤 、话题发现和跟踪
姓名:朱凯
学号:S310060016
文本过滤
话题发现和追踪
文本过滤
文本是最常出现的应用层数据形式
之一。文本过滤属于被动的内容安全技术,
它不仅可以用于防火墙,也适用于阻止垃
圾邮件,防范信息泄露,搜索网络敏感内
容,这些应用也需要从截获或搜索到得数
据中发现特定的文本内容或对文本进行分
类,执行相应的安全策略。
文本过滤
最简单的文本过滤方法采用关键词查找,通过文
字串匹配算法确定文本是否包含某些特定的词,进而
确认文本类别。当前,研究人员提出了很多串匹配算
法,提高了匹配效率,但是,由于各个关键词的重要
程度不同或他们之间的关联方式不同,发现他们的存
在往往不能判断文本的特性。典型的,当系统发现一
个文本包含一些不良词时,往往不能准确判断文章是
从正面或从反面的角度使用这些字词,为了实施正确
分类,系统可能需要知道不良词出现的频率、它们之
间的关联。
文本过滤
分词
特征提取
内容分类
分词
分词是将文本语言分解为词。在英语、
法语等西方语言中,空格是单词之间的分隔
符号,因此计算机比较容易对西文文本分词。
而中文由互相之间没有分隔的字组成,单词
仍然是表达含义的单位,一个中文词包括的
字数不等,因此,中文分词的目的是要将文
本文字分割成具有独立含义的词。分词不但
用于分解实例文本,也用在实际过滤中分解
待过滤的文本。
分词词典
整词二分法
Trie索引树法
基于逐字二分法
整词二分法
分三级:首字哈希表,词索引表,词典正文。
啊
阿
首字哈希表
005
089
第一项指针
.
.
词索引表
词典正文指针
词典正文
大
……
.
239
.
肝
……
.
783
.
……
.
. . . . . . . … . . . . . … . . ….
啊
啊呀
啊哈
啊哟
啊喂
阿
阿Q
……
肝炎
Trie索引树法
1.首字哈希表
•类似于整词二分的首字哈希表。它的一个单元是所
对应汉字的索引树的根结点。
2.索引树结点
• 关键字:单一汉字;
• 子树大小:以从根结点到当前单元的关键字组成
的
子串为前缀的词的个数;
• 子树指针:子树大小非0时,指针指向子树;否则
指向叶子。
Trie索引树法
啊
阿
首字散列表
入口项个数
005
089
第一项指针
.
.
大
……
.
肝
……
239
.
783
.
……
.
.
关键字
子树大小
子树指针
家
坝
白
……
2
1
5
……
大坝
^
菜
天
话
鼠
0
0
0
0
0
.
.
.
.
.
大白
大白菜
大白天
大白话
大白鼠
索引树的优点
Trie索引树词典的优点是:再分词中,在
系统对被分解的语句的一次扫描过程中,无
须预知待查询词的长度,沿树下行逐字匹配
即可。避免了整词二分分词词典机制中不必
要的多次试探性查询。
面向文本进行即时搜索和过滤的工具— Text Filter
基本用法:
打开一个文本文件,然后点击搜索框,输入查询字
符串。搜索的结果就在输入的同时被过滤出来(不匹配的文
本行被隐藏),同时关键字高亮显示。
常用的文本过滤技术与原理
一、主题过滤与向量空间模型
从用户对文本信息的取舍来说,文本过滤主
要是主题过滤,即根据用户模型对文本进行搜集整理,
将用户感兴趣的文本提交给用户,这更多是从文本的
主题方面考虑的。
譬如,用户只对体育类的内容感兴趣,或者
更进一步,只对足球的内容感兴趣, “ 体育 ” 和
“ 足球 ” 都是描述文本主题的词。
向量空间模型:
向量空间模型是最简便有效的文本表示模
型之一 , 它是 Salton 等人于 60 年代首先提出的。
由于该模型具有表示简洁和计算简便的特点 , 因
此 , 在文本检索、文本过滤和文本摘要等方面获得
广泛应用 , 取得了一定的效果。一般是从文本中抽
取出关键词 , 根据该词在文本的重要性 , 给每个
词赋予一定的权重 , 把用户模板和未知文本均表示
成向量空间中的向量 , 利用它们的夹角的余弦来进
行相似度的度量。
关键词匹配算法:
关键词匹配法是以特征向量为基础 , 将
文本内容转换成向量方式 , 将用户的需求模型也
转变成向量方式 ,来衡量文本同用户需求的相似
度 , 根据事先约定关键词匹配的 “ 过滤阀值 ”
来确定是否滤除。
关键词匹配法利用用户需求模板与待过滤
文本向量的夹角余弦来衡量文本 U 与主题 V 之间
的相似度。根据需要规定一个过滤阀值 Ψ , 当文
本 U 与主题 V 之间的相似度大于 Ψ 时 , 说明
文本 U 的内容符合主题 V, 是用户需要的信息。
二、语义分析:
网上有很多评论性的文章,这些文章往往代
表作者对某一个主题的看法和立场,用户自然会
有这样的需求:我只需要得到对这一主题的某种
立场的文档。为此,必须提出倾向性文本过滤的
概念,它基于如下考虑:
文本信息分为三种:
与主题完全无关的称为无关文本
对主题持有积极态度的称为正面文本
对主题持有消极态度的称为负面文本。
在对文本进行分析时候,不仅分析其包含的
主题内容,还判断它的态度和立场,即倾向性。
例如:
“ 美军轰炸伊拉克 ” 和句子 “ 伊
拉克轰炸美军 ” , 向量形式都为 ( 美军 ,
伊拉克 , 轰炸 ) 。两者的相似度为 1 , 使得
两个句子在任何情况下 , 都是匹配的 , 其实
两个句子的意思是截然相反的。造成这样误判
的根本原因是未能区分句子中的主体和受体。
而要解决这个问题 , 则只有通过语法语义分
析 , 识别文本和句子中各个特征项的角色和作
用 , 并将这种语义信息加入到模板表示和文本
表示中 , 弥补统计方法的不足。
根据动作的施加和接受可以将句子分成以下四种模式 :
(1)主体 (who) + 行为 (what) + 客体 (whom)
(2)客体 (whom) + 被动词 + 主体 (who) + 行为 (what)
(3) 主体 (who) + 行为 (what)
(4) 客体 (whom) + 被动词 + 行为 (what)
算法中涉及权重策略和阈值
如果用户基于语义模式的模板中所定义的阈
值为 θ , 当文本的全局权重大于等于 θ 时 , 则
认为该文本与过滤模板匹配。
淫秽色情信息借助网络这一便捷的信息
传播途径,大量涌现,对青少年健康成长构成
了极大的现实威胁。清理网络色情、暴力等不
良信息需要整个社会共同的努力
据中国互联网络信息中心(CNNIC)2004年1月发布的
《第十三次中国互联网发展状况统计报告》报道,中国的
Internet用户平均每周收到13.7封电子邮件,其中垃圾邮件占
了7.9封;据中国互联网协会的反垃圾邮件协调小组2004年3月
发布的统计数据,中国的Internet用户平均每人每周发送电子
邮件9.8封,收到正常电子邮件12.6封,收到垃圾电子邮件
19.3封。 对超过800家企业和服务提供商的统计数据表明,
垃圾邮件的比率占信息总体的80%,同时,据该公司的统计
数据显示,垃圾邮件的64.5%与特价产品及宣传信息相关,
7.9%与轻松赚钱信息相关,6.6%与色情信息相关,剩余的
21.2%为其他内容。
常邮件数量,并且成逐渐增长态势,严重影响了电子邮件
的应用。于是,防止垃圾邮件的泛滥成为目前技术研究的
热点之一。
反垃圾邮件技术
一.IP层的反垃圾邮件技术
黑名单技术:是最早出现的一种反垃圾邮件技术,
一般的邮件服务器都有该功能。黑名单技术的原理是确定已
知垃圾邮件制造者及其ISP的域名或IP地址,然后将其整理成
黑名单,将黑名单部署在处理网关处,拒绝任何来自黑名单
上的垃圾邮件制造者的邮件。
白名单技术:原理是拒绝接收任何邮件,除非用户
的邮件地址在白名单上允许接收。
实时黑名单 :是简单黑名单的扩展和发展,实时黑
名单实际上是一个可供查询的IP地址列表,通过DNS的查询方
式来查找一个IP地址的记录是否存在来判断其是否被列入了
该实时黑名单中。
二. SMTP层的反垃圾邮件技术
域名反向解析技术对发送者的IP地址
进行逆向名字解析,通过DNS查询来判断发送者
IP与其声称的名字是否一致,例如其声称的名
字为mx.yahoo.com而连接地址为
20.200.200.200,与其DNS记录不符,则予以拒
收。
这种方法可以有效过滤掉来自动态IP
的垃圾邮件,对于某些使用动态域名的发送者,
也可以根据实际情况进行屏蔽。
案例:
据国外媒体报道,美国InNova公司日前向法院提起诉
讼,指控苹果、谷歌等36家公司不正确的使用了由InNova开发
的垃圾邮件过滤技术。
拉尼尔律师事务所表示,上述公司使用了第
6,018,761号专利,即用于甄别常规电子邮件与不需要的广告垃
圾邮件的技术。该专利由数学家、InNova创始人罗伯特•乌米尼
(Robert Uomini)拥有,他在大约15年前便向美国专利与商标局
提交了这项专利的申请。
InNova在诉讼中称,“被告一直通过制造、使用和销
售含有第6,018,761号专利的产品,这侵犯了InNova利
益。”InNova还称,目前超过80%的电子邮件都是垃圾邮件,这
也是被告为何使用InNova的技术,而不是让员工自己删除数十
亿封无用的垃圾邮件的原因。但不幸的是,这些公司在并没有
获得InNova的准许下,侵权使用了垃圾邮件过滤技术。
除苹果、谷歌之外,被告还包括3Com、阿尔卡特-朗讯、
国际集团、美洲银行、花旗集团、爱立信、惠普、IBM、RIM、
赛门铁克、雅虎等公司。
特征提取
特征提取
• 向量空间模型(VSM: Vector Space Model),把
对文本内容的处理简化为向量空间中的向量运算,
并且它以空间上的相似度表达语义的相似度。它
特征词条(T1 ,T2 ,…Tn)及其权值Wi来表征目标
文本。在进行信息匹配时,使用这些特征项评价未
知文本与目标样本的相关程度。
• 特征词条及其权值的选取称为目标样本的特征提
取。
常用权值计算方法
文档频数
分词信息增益
互信息
文档频数
通过统计词条在文本中
出现的次数,然后除以所有词
条出现的总次数得到频率
(TF,Term
Frequency),来作为特征项的
权值。
信息增益方法(Information Gain))
• 信息增益表示了某一个特征项的存在与否对
类别预测的影响, 定义为某特征项为整个分类
所能提供的信息量,不考虑任何特征的熵与考
虑该特征后的熵的差值。
• 信息增益方法通过计算各特征值的信息增益
来确定其权值。
互信息(Mutual Information)
• 互信息衡量的是某个词和类别之间的统计
独立关系。
• 互信息表征了特征项与类别的相关程度,
在某个特定类别出现频率高,但在其他类别
出现频率比较低的词条与该类的互信息比较
大。
内容分类
内容分类
• 内容分类是指过滤系统检查流经的文本、
根据特征数据库判断文本属于哪一类文本的
操作。
• 在向量空间模型中一般通过计算流经文本
特征向量(W1,……,WN)和目标特征向量
(W1*,……,WN*)的相关系数来判断类别:
当相关系数大于一个阈值时,可判断流经的
文本属于目标特征(W1*,……WN*)对应的
哪一类文本。
话题发现和跟踪
话题识别与跟踪技术是一种能自动
确定新闻信息流中话题结构的技术。它
主要以网络新闻。广播和电视信息流为
处理对象,将内容按话题区分,监控对
新话题的报道,并将涉及某个话题的报
道组织起来,以某种需要的方式呈献给
用户。
话题发现和跟踪
分词报道切分
新事件识别
报道关系识别
话题识别
话题跟踪
报道切分
报道切分是指将从一个信息源获得的语言
信息流分割为不同的新闻报道。一个新闻栏目
通常包括很多条新闻报道,而这些新闻条目之
间一般有一定的分割表示,或者在内容编码上
有一些变化,这些都是分割的依据。
新事件识别
新事件识别的目标是识别出以前没有报道
过的新闻话题。当前,新事件标识技术采用了类
似与文本过滤的方法,它一般也用特征提取算法
的到事件报道的特征向量,这些特征向量组成了
事件特征库。对于一个新报道,识别系统计算它
的特征向量并比较特征库中的向量,确定报道的
事件是否已经存在。再不存在的情况下,系统讲
这篇报道描述的事件作为一个新事件,并对事件
特征库进行扩充。
报道关系识别
报道关系识别是对两篇报道实施分
析,判断他们描述的新事件是否在讨论同一
话题。报道关系识别技术也普遍采用特征向
量比较地方法,相互比较特征向量来分析两
篇报道。当特征向量相似,系统认为两篇报
道在讨论同一话题。通过这种方法将报道同
一话题的事件聚集在一起。
话题识别
话题识别的目的是将新闻报道
归入不同的话题类。实际上,以上3种技
术都是为最终的话题识别做准备的,是
话题识别的前期步骤。最后通过报道关
系的识别,识别系统已经将报道同一话
题的大量事件聚集在一起,接下来的工
作是进一步将他们整理归类并描述它们。
从模式识别的角度看,话题识别可以看
做对事件聚类。
话题跟踪
与话题识别不同,话题跟踪可以被
看做是分类过程,它是指辨别出某个新
闻报道是否属于某个已知话题的技术。
通常,跟踪系统通过前期的话题识别获
得了各个话题的基本特性,比较新闻报
道的特征,判断出新闻报道所归属的话
题。并且通过对不同网络地址范围实施
搜索,话题跟踪可以判断传播情况。