云计算与大数据工程技术研发中心汇报

Download Report

Transcript 云计算与大数据工程技术研发中心汇报

抄袭检测
Heilongjiang Institute of Technology
Kong Leilei
1
“[I am] translating the black and white
impressions into another language –
that of colour”
Heilongjiang Institute of Technology
Kong Leilei
2
黑龙江工程学院在抄袭检测中
的研究进展
报告人:孔蕾蕾
报告人简介



黑龙江工程学院计算机科学与技术学院信息管理
与信息系统系副主任
黑龙江工程学院云计算与大数据工程技术中心成
员
哈尔滨工程大学信息与通信工程专业在读博士
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来的工作
5
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来的工作
6
工程技术中心简介

2012年成立,学校投入150万元进行了环境改造、
设备更新


其前身是2007年成立的校自然语言处理实验室
主要研究人员






齐浩亮 ,教授,博士,中心主任
韩中元,副教授,在读博士,软件工程系副主任
安波,副教授,计算机科学与技术系主任
王亚东,副教授,物联网系(筹)主任
李军,副教授,软件工程系主任
孔蕾蕾,讲师,在读博士,信息管理与信息系统系副
主任
研究方向
信息
检索
信息
过滤
抄袭
检测
云
计
算
大数据
处理
中心主任简介







齐浩亮,1972年2月生,博士,教授
校自然语言处理实验室主任、计算机应用技术研究所 所长
中国中文信息学会,理事
 中国中文信息学会国际专委会,委员
 中国中文信息学会社会媒体处理专委会,委员
YOCSEF(中国计算机学会青年论坛)哈尔滨2009、2010、
2011,副主席
黑龙江省首届教学新秀
2008年获“黑龙江省杰出(优秀)青年科技创新奖”
近期通过了龙江学者初评
承担的国家自然科学基金项目
主持
参与
项目类型
项目名称
国家自然科学基金面上项目
基于双语文档反馈的跨语言信息
检索研究
国家自然科学基金国际合作
项目
亚洲语言处理国际会议2010
国家自然科学基金青年项目
面向垃圾邮件过滤的
优化目标、建模及顺序回归研究
国家自然科学基金面上项目
基于用户反馈的多策略翻译在线
融合研究
国家自然科学基金重点项目
下一代信息检索研究
主要评测成绩
评测名称
任务名称
TREC 2012
微博检索
微博过滤
CLEF2012/2013
抄袭检测
SEWM
2012/2011/2009/20 垃圾邮件过滤
08
垃圾邮件过滤
CEAS 08
主动学习
评测成
说明
绩
哈工大是参赛队,中心主任齐浩
亮教授作为指导教师参与了该项
第一
目,中心的韩中元老师作为哈工
大的在读博士生参与了该项目
2012详细比对任务/2013高模糊
第一
抄袭、翻译抄袭
第一
第一 微软主办
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来的工作
12
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来工作
13
国内外研究现状

抄袭的一般模式
Heilongjiang Institute of Technology
Kong Leilei
14
国内外研究现状

抄袭检测:术语

抄袭,一般理解为将他人作品的全部或部分,以或多或少改变形式或内容的方式,
当作自己的作品发表[1]。

剽窃,主要指将他人的语言文字或研究观点当作自己的成果而不加引用的公开发表
[2]
。

抄袭检测,定义s=(splg, dplg,ssrc,dsrc),其中,splg为文档dplg中的一段,splg抄袭
了文档dsrc中的某个段ssrc。定义r=(rplg, dplg, rsrc, d′src),如果splg∩rplg≠Φ,
ssrc∩rsrc≠Φ, dsrc∩d′src≠Φ,则称r检测出了s,这个过程称为抄袭检测[2]。
[1]世界知识产权组织,《版权和邻接权法律术语词汇》,1980.
[2]Martin Potthast, Andreas Eiselt, Alberto Barrón Cedeño, Benno Stein1, and Paolo Rosso2. Overview of the 3rd International
Competition on Plagiarism Detection. Overview for PAN at CLEF 2011.
2012-10-9
Heilongjiang Institute of Technology
Kong Leilei
15
国内外研究现状

目前,文本抄袭检测的研究主要分为两类:

内部抄袭检测

外部抄袭检测
Heilongjiang Institute of Technology
Kong Leilei
16
国内外研究现状

内部抄袭检测

给定一篇文章,在不借助任何外界参考资料的情况下(假设参考资料
集合不能预先获得或不能自由获取),判定该文章是否抄袭、剽窃或
复制于一篇或多篇文章的内容。

写作风格模型、异常值检测算法等为主流方法。
Heilongjiang Institute of Technology
Kong Leilei
17
国内外研究现状

外部抄袭检测

外部抄袭检测假定存在一个封闭的参考资料集合,在此前提下,
给定一篇待检测文本,从参考文档集合中检索与待检测文本相
似度超过一定阈值的文本。
Heilongjiang Institute of Technology
Kong Leilei
18
国内外研究现状

抄袭的分类:简单抄袭和高模糊度的抄袭[3]

简单抄袭:原文复制、近似复制、修改复制。

高模糊度的抄袭:意译抄袭、总结抄袭、翻译抄袭、观点抄袭。
[3] Salha M. Alzahrani, Naomie Salim, Ajith Abraham. Understanding Plagiarism Linguistic Patterns, Textual
Features, and Detection Methods. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C:
APPLICATIONS AND REVIEWS, VOL. 42, NO. 2, MARCH 2012.
Heilongjiang Institute of Technology
Kong Leilei
19
国内外研究现状

简单抄袭
Heilongjiang Institute of Technology
Kong Leilei
20
国内外研究现状

意译(paraphrasing)抄袭
Heilongjiang Institute of Technology
Kong Leilei
21
国内外研究现状

总结抄袭
Heilongjiang Institute of Technology
Kong Leilei
22
国内外研究现状

翻译抄袭
Heilongjiang Institute of Technology
Kong Leilei
23
国内外研究现状

学术论文的观点(idea)抄袭
Heilongjiang Institute of Technology
Kong Leilei
24
国内外研究现状

抄袭检测常用的文本特征

词汇特征

句法特征

语义特征

结构特征
Heilongjiang Institute of Technology
Kong Leilei
25
国内外研究现状

PAN@CLEF 抄袭检测评测

CLEF(Cross-Language Evaluation Forum):是在欧盟数字图书馆计
划支持下举办的跨语言信息检索开放评测平台。

CLEF于2000年开始举办,现已成为最著名的国际信息检索评测会
议之一。

PAN(Plagiarism detection, Author identification, Author Profiling)

致力于抄袭检测算法的评估

2010年加入CLEF
Heilongjiang Institute of Technology
Kong Leilei
26
国内外研究现状

PAN近4年在抄袭检测方面的评测任务
•内部抄袭检测
•内部抄袭检测
•备选文档检索
•源检索
•外部抄袭检测
•外部抄袭检测
•详细比对
•文本对齐
2010
2011
2012
Heilongjiang Institute of Technology
Kong Leilei
2013
27
PAN@CLEF 抄袭检测评估方法

源检索







提交的查询数目
需要下载的网页数目
精确率和召回率
找到第一个抄袭源时提交的查询的数目
找到第一个抄袭源时下载的网页的数目
抄袭源在检索结果中的排序
文本对齐




召回率
精确率
gran
plagdet
Heilongjiang Institute of Technology
Kong Leilei
28
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来工作
29
中心在PAN@CLEF

PAN@CLEF2012


详细比对子任务第一名
PAN@CLEF2013

文本对齐高模糊抄袭检测第一名

文本对齐翻译抄袭检测第一名

源检索任务:召回率及找到第一个抄袭源时提交的
查询的数目两个指标上第一名
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
30
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来工作
31
系统处理过程框架
待检测
文档
备选
文档集
源检索
文档集合
海量网
络资源
Heilongjiang Institute of Technology
Kong Leilei
文本对齐
可详
疑细
片信
段息
32
系统处理过程框架
待检测
文档
备选
文档集
源检索
文档集合
海量网
络资源
Heilongjiang Institute of Technology
Kong Leilei
文本对齐
可详
疑细
片信
段息
33
系统处理过程框架

在源检索中
多种可疑文档查询关键词提取方法
 查询关键词的排序
 备选文档的筛选

Heilongjiang Institute of Technology
Kong Leilei
34
系统处理过程框架
待检测
文档
备选
文档集
源检索
文档集合
海量网
络资源
Heilongjiang Institute of Technology
Kong Leilei
文本对齐
可详
疑细
片信
段息
35
系统处理过程框架
•在文本对齐中:匹配与合并
预处理
匹配
Heilongjiang Institute of Technology
Kong Leilei
合并
36
系统处理过程框架
•在文本对齐中:匹配与合并
预处理
匹配
合并
•双向交替合并算法(Bilateral
Alternating Merging Arithmetic)
•基于图的最大联通路径
Heilongjiang Institute of Technology
Kong Leilei
37
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来的工作
38
“鹰眼抄袭检测系统”在
PAN@CLEF2012

子任务: 备选文档检索[4]
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
39
“鹰眼抄袭检测系统”在
PAN@CLEF2012

子任务: 详细比对[4]
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
40
“鹰眼抄袭检测系统”在
PAN@CLEF2013

子任务: 文本对齐高模糊抄袭的检测[4]
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
41
“鹰眼抄袭检测系统”在
PAN@CLEF2013

子任务: 文本对齐翻译抄袭的检测[4]
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
42
“鹰眼抄袭检测系统”在
PAN@CLEF2013

子任务: 源检索[4]
评测指标
提交的查询数目
结果
48.5
召回率
0.65
找到第一个抄袭源时提交的查询的数目
抄袭源在检索结果中的排序
2.46
3
[4] http://pan.webis.de
Heilongjiang Institute of Technology
Kong Leilei
43
报告内容
黑龙江工程学院云计算与大数据工程技术中心简介
中心在抄袭检测上的最新进展







国内外研究现状
中心在PAN@CLEF 2012、2013上的成绩
黑龙江工程学院“鹰眼抄袭检测系统”介绍
“鹰眼抄袭检测系统”在PAN@CLEF 2012、2013上的性能
未来的工作
44
未来的工作




基于多特征融合的抄袭检测文本对齐
跨语言抄袭检测
中文抄袭检测系统的研究与开发
……
Heilongjiang Institute of Technology
Kong Leilei
45
期待您的加入


处于跨越式发展阶段的工程技术中心迫切
渴望优秀人才加盟!
提供不低于学校公开招聘的待遇(包括科
项目配套费1:1、周转房、配偶工作、安家
费、科研启动费、工作条件等)。
Heilongjiang Institute of Technology
Kong Leilei
46
凝练特色,一流成果
协同创新,服务社会