大数据时代图书馆面临的挑战机遇与对策

Download Report

Transcript 大数据时代图书馆面临的挑战机遇与对策

大数据时代图书馆面临的挑战
机遇与对策
赵继海
2012年11月7日@义乌
提纲
•
•
•
•
•
•
•
引言
大数据的由来
大数据的特征
大数据的作用
大数据的挑战
大数据时代图书馆的对策
结束语
一、引言
• 关注、跟踪、研究热点和前沿问题,是把
握未来方向,制定图书馆发展战略与对策
的需要。
• 当前图书馆的热点和前沿问题:四化一大:
数字化、移动化、社会化、智能化,大数
据时代来临。
• 两个案例
美国连锁超市Target
案例。为何向17岁女孩
发婴儿尿片和童车的优
惠券?
英国零售巨头Tesco
(乐购)案例。通过挖
掘分析会员卡用户的购
物数据,对顾客分类,
有针对性地发广告邮件
, 每年节省 3.5 亿英
镑的广告费用。
• 2011年5月,McKinsey
发布《大数据:创新、
竞争和生产力的下一
个前沿》的报告,首
次提出了大数据概念,
认为数据已经成为经
济社会发展的重要推
动力。
• 大数据是2012年IT界的热门话题。今年3月
29日,美国奥巴马政府宣布推出“大数据
研究和发展计划”( Big Data Research and
Development Initiative),有人将其比之为
克林顿政府当年提出的“信息高速公路”
计划 。
• 该计划涉及美国国家科学基金会、卫生研
究院、能源部、国防部等6个联邦政府部门
,投资超两亿美元,研发收集、组织和分
析大数据的工具及技术。
• 美国政府大数据计划的出笼,表明大数据
技术已经上升为国家战略。
二、大数据的由来
• 数字化呈现新的特征,即非结构化的数据
已经成为数字资源的主体。
• 先来看看传统纸本资源的数字化过程。
扫描
页面
图像
已有
页面
图像
- -文本
文字识别
- -版式
与加工
-元数据
-
出版社
电子文档
(PS,RTF…)
格式转换,
打包
基于 OEB (Open eBook)标准
的电子书制作
• 到目前为止,中文的纸质图书、期刊、
学位论文等文献类型,已大部完成数
字化转换。报纸、灰色文献正在进行
数字化转换。
• 英文及其他文种的纸质资源正在进行
大规模数字化。预计在三至五年内,
人类历史上积累的纸质文献资源将基
本上完成扫描和数字化。
• 每时每刻都在产生大量的原生数字资源(
Born –digital resources )--每个用户、每
台终端都在产生信息。据 IDC (国际数据公
司) 统计,2011 年全球所产生的数据总量
是 1.8 ZB(10 的 21 次方),年增50%。
1TB (Trillionbyte ,太字节)=1024GB
1PB (Petabyte, 拍字节)=1024TB
1EB (Exabyte , 艾字节)=1024PB
1ZB (Zettabyte , 泽字节)= 1024 EB =100万PB=10亿TB
• 各类数字资源在爆炸式增长,尤其是非结
构化的数据(图片、声音、视频、地理位
置信息等等),已经成为信息资源的主体
。这是当前资源数字化的新特征。目前非
结构化数据已占数据总量的80%以上。
• 图书馆对于文献数据库以外的数字资源的
采集、处理、保存、挖掘和服务,还没有
引起足够的重视。
• 社交网络、移动互联网、物联网、信息化
应用、各类信息终端、传感器、摄像头等
方面的快速发展,导致数据量剧增,数据
类型多样。
• 对海量的多样化数据的存储、处理、检索
提出了技术挑战。
• 数据中蕴藏的巨大商业价值引发了对于数
据处理、分析的巨大需求。
• 这样催生了大数据的概念与相关技术。
三、大数据的特征
• 大数据的特征可概括为4个V,即海量(
Volume)、多样(Variety)、快速(
Velocity)和价值(Value)。
• 大数据技术的宗旨就是从海量、多样性的
数据中,快速获得有价值的信息。
海量(Volume)
• 大数据首先是数据量大。遍布世界各个角
落的电脑、传感器、移动设备、在线交易
和社交网络每时每刻都在产生大量数据。
大数据遍及各行各业。企业、机构甚至个
人的活动都在产生和积累大量数据。
多样(Variety)
• 大数据的数据类型非常多。除了图书馆界
熟悉的文献类型外,更多的是网络日志、
视频、声频、图片、地理位置信息、交易
信息、科学数据集等等。除了结构化数据
外,非结构化数据占到了很大比重。目前
非结构化数据已占数据总量的80%以上。随
着非结构化数据的比重越来越大,其中蕴
含着巨大的商业价值和社会价值,对传统
的数据分析处理算法和软件提出了挑战。
快速(Velocity)
• 处理多样化的海量数据,对速度的要求很
高。对大数据快速处理,才能了解迅速变
化的环境并作出反应,才能快速制定出合
理准确的应对策略。对大数据的快速处理
分析,将为企业实时洞察市场变化、迅速
采取对应措施、把握市场先机提供决策支
持。
价值(Value)
• 价值是大数据的终极意义所在。数据正成
为新型资产,“数据价值化”将成为企业
提高竞争力的下一个关键点。
• 大数据的价值虽然巨大,价值密度却很低
(如监控视频),往往需要对海量的数据
进行挖掘分析才能得到真正有用的信息,
从而形成用户价值。
大数据将是下一个社会发展阶段的
“石油”和“金矿”。无论是个人、企
业还是国家,谁能更好地抓住数据、理
解数据、分析数据,谁就能在下一波的
社会竞争中脱颖而出。关于数据的知识,
将成为个人知识结构中的必备要素和基
础。
——施伯乐(复旦大学计算机研究所所
长)
四、大数据的作用
• 大数据将对技术、经济和社会的发展带来
重大影响。
• 第一,对大数据的处理分析正成为新一代
信息技术融合应用的结点。移动互联网、
物联网、社交网络、数字家庭、电子商务
等是新一代信息技术的应用形态,这些应
用不断产生大数据。云计算为这些海量、
多样化的大数据提供存储和运算平台。通
过对不同来源数据的管理、处理、分析与
优化,将结果反馈到上述应用中,将创造
出巨大的经济和社会价值。
• 大数据具有催生社会变革的能量。但释放
这种能量,需要严谨的数据治理、富有洞
见的数据分析和激发管理创新的环境。
——Ramayya Krishnan(卡内基·梅隆大学
海因兹学院院长)
• 第二,大数据是信息产业持续高速增长的
新引擎。面向大数据市场的新技术、新产
品、新服务、新业态会不断涌现。在硬件
与集成设备领域,大数据将对芯片、存储
产业产生重要影响,还将催生一体化数据
存储处理服务器、内存计算等市场。在软
件与服务领域,大数据将引发数据快速处
理分析、数据挖掘技术和软件产品的发展
。
• 第三,大数据利用将成为提高核心竞争力
的关键因素。各行各业的决策正在从“业
务驱动” 转变“数据驱动”。
• 对大数据的分析可以使零售商实时掌握市
场动态并迅速做出应对;可以为商家制定
更加精准有效的营销策略提供决策支持;
可以帮助企业为消费者提供更加及时和个
性化的服务;在医疗领域,可提高诊断准
确性和药物有效性;在公共事业领域,大
数据也开始发挥促进经济发展、维护社会
稳定等方面的重要作用。
• 第四,大数据时代科学研究的方法手段将
发生重大改变。例如,抽样调查是社会科
学的基本研究方法。在大数据时代,可通
过实时监测、跟踪研究对象在互联网上产
生的海量行为数据,进行挖掘分析,揭示
出规律性的东西,提出研究结论和对策。
• 大数据对图书馆的影响几何?如何应对大
数据时代的机遇与挑战?
五、大数据的挑战
• 一是数据挖掘、数据分析与数据管理人才
紧缺。
• 二是用户隐私保护难度加大。大数据时代
消费者可获得更低的价格、更符合需要的
商品和服务,但随着个人身份信息、购买
偏好、健康和财务情况等数据被收集,个
人隐私的泄漏和滥用的可能性在增大。
• 随着移动互联、社交网络、物联网、电子
商务等的迅速发展,人们在互联网以及物
理空间上的行为轨迹、检索阅读、言论交
流、购物经历等等都可能被捕捉到。
• “数字化生存”
“透明化生存”
• 三是数据安全、知识产权、商业利益、公
共安全受损的威胁增大。大数据的发展,
信息开放度加大,新的信息采集、数据分
析、数据挖掘技术以及海量数据存储技术
和设备将不断涌现,云计算将更加普及。
带来的副作用是IT基础架构将变得越来越
一体化和外向型,对数据安全和知识产权、
商业利益甚至公共安全构成较大的风险。
六、大数据时代图书馆的对策
• 第一,更加关注特色资源建设。不同图书
馆数字馆藏趋向于同质化。在大数据时代
,围绕特色优势学科进行专题数据采集,
建立特色数据库并实时更新数据变得十分
重要。
• 第二,引进、研发与消化应用数据挖掘、
分析和发现工具,加强数字资源的整合、
分析和挖掘,提供高质量的信息服务。
• 第三,加强用户研究与交互数据的利用。
基于对用户数据的分析,提升个性化服务
的水平,开展跟踪服务、精准服务、知识
关联服务、宣传推广服务。
• 面对快速增长的数据和复杂的网络社群关
系,从中提取有价值信息,建立用户模型
,针对不同用户提供针对性产品,改进用
户体验,提高服务质量。
• 第四,关注和融入社交网站,扩大图书馆
的受众面,实时了解读者的需求,提升和
扩展图书馆在读者个人文化生活中的作用
和影响。
• 2011年底,腾讯QQ活跃帐户数达到7.21亿
,“QQ空间”活跃帐户数达到5.521亿。
• 社交网站吸引了大量用户,图书馆服务需
要融入社交网站。
• 第五,努力增加数字图书馆网站和服务项
目对用户粘性,节省用户时间,提高服务
质量,提升服务价值。
• 从三方面提升图书馆的服务价值:为用户
提供高质量的信息资源;帮助用户快速找
到并获取所需要的资源;持续不断地跟踪
并推送用户关注的信息。
海量数据(数字资源+用户交互数据+位置
信息等等)+实时数据分析挖掘和知识发现
工具+个性化精准服务=提升图书馆服务质
量和效率
• 第六,在数据共享、数据公开的大趋势下,
要切实保护用户隐私,尊重与保护他人的
知识产权,争取大数据时代图书馆的服务
权益与自身知识产权保护。
七、结束语
• 大数据时代,互联网将从网页相联走向
“数据相联”和“知识相联”。
• 大数据技术应用将是未来图书馆服务创新
的重要领域,图书馆界应关注和研究相关
技术与应用的发展,采取应对策略,提升
图书馆管理与服务水平。
• 20多年来的发展历程表明,信息技术是图
书馆管理、服务发展的第一推动力。图书
馆人一定要跟踪信息技术日新月异的发展
,研究新技术对图书馆可能的影响和应用
价值,从而提高图书馆在新的技术和社会
环境下的竞争力。
谢谢大家!
[email protected]
39