基于Hadoop平台的微博热点事件提取

Transcript 基于Hadoop平台的微博热点事件提取

基于Hadoop平台的微博热点事
件提取
大纲
背景
相关定义
算法流程
实验设置与分析
总结
背景
微博的即时通讯功能强大，用户可利用
各种手段在微博上实时、快捷地发布社会
热点事件。
但是微博平台在短时间内发布大量信息
的特点在一定程度上造成了信息的碎片化
，而且迅速的信息更新速度易造成重要信
息的不易检索。
背景
热点话题发现与跟踪（topic detection and
tracking,TDT）就是从网络文本集中识别出
突发性热点话题，并跟踪话题的演变过程
。
对热点话题的检测通常采用的方法有两种：
（1）基于内容的热点话题检测；（2）基
于时序特征的热点话题检测。
大纲
背景
相关定义
算法流程
实验设置与分析
总结
定义：
微博标签（microblog tag）每个MT
由两部分组成，微博内容C和该微博内
容发表的时间T，记为（T,C）；
单词序列（word seqence）单词序
列WS定义为（W,Fs）。其中W为单词
，Fs={f1,f2,...fn}是单词W的词频序列
，每个fi对应于一个单位时间内的词频
。
定义：
爆发度（butsty）假定每个单词的词频服从
高斯分布，定义爆发度Bi为:
Bi  f i 


2
1

w
1

w
  2
i 1

j i  w
i 1
( f
j i  w
j
f
j
  )2
爆发序列(bursty sequence) 爆发序列BS定
义为(W,Bs)。W为单词，Bs={b1,b2,...bn}是
爆发序列，每个bi对应于一个词频的爆发度
。
大纲
背景
相关定义
算法流程
实验设置与分析
总结
算法流程
ws的生成
1. 将MT作为Map端的输入，每次读入一条MT数
据，用中文分词法将C分成不同的单词W；
2.创建一个时间数组TL，并初始化为0，数组长
度等于总的时间片段个数。根据T计算相对应的数
组下标j，令TL[j]=1；
3.将每个单词W作为key，数组TL作为value输出
到Reduce端；
4.在Reduce端，将每个key的value值相加，得到
一个总的svalue。然后将key和svalue作为键值对
返回。经过这样处理就能得到WS。
WS生成流程
Reduce
BS的生成
Map端读入一条WS数据，对每个ti时间段的词
频fi，将其作为value值分别发给ti后的W个时间段;
key是由单词w和对应的要发给的时间段j,以及在
时间段j的词频fj组成的字符串;
这样在Reduce端，除最前面的W个时间片段外
，每个时间片段都能得到其前面的W个词频。
爆发时间段检测
大纲
背景
相关定义
算法流程
实验设置与分析
总结
实验分析
时间爆发时间段检测
总结
利用微博数据跟踪社会热点事件；
利用Hadoop平台计算词频和爆发度；
检测热点事件的爆发时间段；
谢谢！
Q&A

基于Hadoop平台的微博热点事件提取

Transcript 基于Hadoop平台的微博热点事件提取

Directory