附件:叶艳鸣讲座课件 - 图书馆

Download Report

Transcript 附件:叶艳鸣讲座课件 - 图书馆

大数据环境下的文献分析与利用
叶艳鸣
2013·10
©2013
叶艳鸣
一、几点认识
©2013
叶艳鸣
大数据的海啸——巨量信息
43,600,000条结果
©2013
叶艳鸣
大数据的海啸
©2013
叶艳鸣
大数据时代的四个特征
©2013
叶艳鸣
一组数据
Facebook每天处理的数据量(2012年):
 处理27亿次Like按钮点击。
 上传3亿张图片。
 吸收逾500TB新数据。
苹果App Store应用商店每天下载4600万款应用
新浪微博用户每日发博量超过1亿条
百度每日处理的搜索量超过了50亿
©2013
叶艳鸣
国际数据公司(IDC)的研究结果表明:
2008年全球产生的数据量为0.49ZB
2009年的数据量为0.8ZB
2010年增长为1.2ZB
2011年的数量更是高达1.82ZB
相当于全球每人产生200GB以上的数据
而到2012年为止
人类生产的所有印刷材料的数据量是200PB
全人类历史上说过的所有话的数据量大约是5EB
IBM的研究称,整个人类文明所获得的全部数据中,有90%是过
去两年内产生的。而到了2020年,全世界所产生的数据规模将达
到今天的44倍。
©2013
叶艳鸣
大数据时代的四个特征
©2013
叶艳鸣
各种结构化与非结构化数据
©2013
叶艳鸣
大数据时代的四个特征
©2013
叶艳鸣
基因组数据
地理空间数据
人口数据
经济运行数据
卫星遥感数据
……
©2013
叶艳鸣
大数据时代的四个特征
©2013
叶艳鸣
气象数据
航天遥测遥控数据
交通流量数据
地震监测数据
……
©2013
叶艳鸣
大数据的阶梯处理过程模型
knowledge
模式评估
 多阶段流水处理模型:
数据挖掘
任务相关数据
数据仓库
选择
数据清理
数据集成
©2013
叶艳鸣
14
主要的知识发现技术
主要技术
说明
内容管理技术
数据建模技术、版本控制技术、检索技术、文件路由技术等
文档管理技术
分类归档、外部特征管理、关键词管理
信息提取技术
人工智能技术、Bayesian 概率和词频统计分析、向量空间模型
信息过滤技术
固定文章集法、协作过滤技术
文本挖掘
利用智能算法,并结合文字处理技术,分析大量的非结构化文本源
数据仓库
在线分析处理(OLAP)、在线事务处理(OLTP)
分类技术
决策树、贝叶斯方法、神经网络、遗传算法、粗糙集和实例推理(CBR)等。
聚类技术
统计分析方法、模糊逻辑、最近邻技术、规则归纳
bookmark
根本原因分析
云模型
可视化技术
©2013
智能化网络信息服务系统
它是一种回溯性失误分析工具
解决数据挖掘中的知识表示问题
几何投射技术、基于图标技术、面向像素的技术、层次技术、基于图表技术
叶艳鸣
基于文献的知识发现原理与技术
基
于
文
献
的
知
识
发
现
基于相关文献的
知识发现
共词分析理论与方法
共引分析理论与方法
基于非相关文献的
知识发现
Swanson理论与方法
基于全文献的
知识发现
文本挖掘理论与方法
资料来源:冷伏海《基于文献的知识发现的应
用进展研究》
©2013
叶艳鸣
大数据的开发路径
Mata
Big
data
©2013
data
叶艳鸣
Link
data
知识发现进阶
©2013
叶艳鸣
二、“大数据”困局的破解之道
由《易经》想到的:
《易经》道:“易”有三易:
简易
变易
不易
©2013
叶艳鸣
《易经》之简易
简易:万事万物都是非常简单的,大道至简
《周易·系辞上》:
易有太极,是生两仪,两仪生四象,四象生八卦
现代计算机之“0、1”世界
©2013
叶艳鸣
《易经》之变易
变易:宇宙万物,时刻变化,人事皆是如此
《周易·系辞上》:
知变化之道者,其知神之所为乎?
©2013
叶艳鸣
《易经》之不易
不易:变的规律本身是相对不变的,是相对静
止和相对稳定的,是可以感知的
《周易·系辞上》:
易无思也,无位也,寂然不动,
感而遂通天下之故
©2013
叶艳鸣
人类应对“大数据”之路径
岩刻、结绳记事、
文字起源
实体世界
复杂
符号化
符
号
化
简化
日出云端与“旦”字的产生
喂…有好“
大”一片树林呀
信息的标识:实物→图画→象形文字
©2013
叶艳鸣
符号的产生:
人与自然区分的分水岭
虚拟世界的起源
©2013
叶艳鸣
人类应对“大数据”之路径
语言、书籍、通信
知识体系起源
信息世界
复杂
知识体系
符
号
化
简化
©2013
叶艳鸣
人类应对“大数据”之路径
书、报、刊、学位论文、
标准、专利……
目录学起源
藏书体系
复杂
目录体系
符
号
化
简化
目录系统
OPAC系统
©2013
叶艳鸣
人类应对“大数据”之路径
数字化、网络化
大数据时代来临
大数据
复杂
Linked Data
符
号
化
简化
《易经》思想给出的
“大数据”困境破解之道
©2013
叶艳鸣
大数
据集
符号
知识
体系
文字
论著
©2013
叶艳鸣
语句
三、基于知识挖掘的文献分析与利用
——以基因组研究为例
1、纵观全局的动态调研
研究概貌
315,264条
研究概貌
研究概貌
2、研究关联性分析(热点追踪)
主要研究领域(关键词分析)
研究相关性追踪
不同时期研究热点变化追踪
1995-1999年
2005-2012年
3、研究关联性分析(时间序列)
研究继承性追踪
研究继承性追踪(引用)
4、重要成果追踪(竞争情报)
特定研究者追踪(专家)
特定研究者追踪(主要成果)
特定研究者追踪
研究重点与方向
合作团队
特定研究者追踪
特定文献分析—图书
5、特定文献分析
特定文献分析—最新成果
特定文献分析—早期研究
1966年就有了
基因组研究
特定文献分析—影响力最大的图书
特定文献分析—期刊论文
特定文献分析—最具影响的期刊论文
特定文献分析—CSCD期刊论文
特定文献分析—SCI期刊论文
特定文献分析—学位论文
特定文献分析—学位论文
特定文献分析—学位论文
特定文献分析—标准
特定文献分析—专利
关键词:禽流感
不同文献敏感度
关键词:禽流感
不同文献敏感度
竞争态势分析
6、机构研究能力评价分析
学术产出评价—天津职业技术师范大学
学术产出评价—天津职业技术师范大学
学术产出评价—高产学者、高影响力成果
戴 怡(27)
周明星(23)
王仲民(22)
张学英(20)
张兴会(20)
赵 丽(15)
关志伟(15)
蓝 欣(15)
郑宏兴(15)
曹 晔(14)
五、基于发现的自助文献服务
专题推送
云南财经大学发表的关于“云南或者昆明的区域经济”文献
此公式检索结果
58篇文献
社会化服务
检索:系统动力学
收藏到学习空间
点击保存
去我的收藏
分享
分享到新浪微博
无缝对接的
全文服务功能
OPAC:本馆纸书
数据库:
发现系统
书世界、CNKI、万方、超星书、方正…
读秀:
图书补缺
百链:
期刊等文献补缺
读秀
云共享服务
数据库
六、文献利用行为分析
数据库使用量
学科使用量统计
图书馆是一个生长的有机体
——阮冈纳赞(印度)
每一次信息技术进步都极大地推动了
科学技术的飞跃发展
知识发现
为科技创新插上飞翔的翅膀
谢谢
知识发现
为科技创新插上飞翔的翅膀
周明星(65)
戴怡(46)
郑宏兴(42)
王仲民(39)
张兴会(35)
张学英(32)
蓝欣(30)
孟庆国(28)
关志伟(28)
刘晓(25)
深圳职业技术学院(9367)
金华职业技术学院(7180)
黄冈职业技术学院(5835)
无锡商业职业技术学院(5149)
商丘职业技术学院(4808)
石家庄职业技术学院(4434)
黄河水利职业技术学院(4267)
武汉职业技术学院(4229)
永州职业技术学院(4124)
天津职业技术师范大学(3,993)