Transcript 微博挖掘综述
微博挖掘综述
报告人:王菁菁
2014.4.23
大纲
微博特点
文本挖掘
◦ 微博检索
◦ 微博摘要
◦ 情感分析
结构挖掘
应用
◦ 链接预测
◦ 节点排序
◦ 微博推荐
挑战
2
微博特点
内容特点
◦ 短文本性:小于140个文字
◦ Hashtag: #topic#
结构特点
◦ 幂律分布:follower,followee
◦ 传播即时: 可以通过Web,WAP各种客户端发送
◦ 结构洞:1%的用户控制25%的信息传播
用户特点
◦ 用户发文:广播,分享信息
◦ 交友模式:关注有相同兴趣爱好的用户
3
文本挖掘:微博检索
检索:根据用户提交的查询返回相关的
微博
检索内容
◦ 动态信息:事件检索
◦人
◦ Hashtag、救援事件、跨社交媒体检索等
与其他技术结合
◦ 聚类分析:分面搜索
◦ 事件检测、摘要技术:结果展示
4
文本挖掘:微博检索
检索两大关键技术
◦ 索引
◦ 排序
索引
◦ TI:实时索引
◦ Pollux:分布式可扩展实时索引
5
文本挖掘:微博检索
排序特征选择
◦ 文本特征:TF-IDF
◦ 相关性
◦ 发表时间:时效性的最有效特征
◦ 微博质量: 例如,有趣性
◦ 可信度
◦ 用户影响力
6
文本挖掘:微博摘要
话题摘要:一个话题的文档集合摘要,
能代表话题的核心语义
事件检测内容
◦ 发现新兴爆发的主题
◦ 持久讨论的事件
◦ 特定的事件
事件检测的方法
◦ 聚类:对关键词聚类、社团聚类
7
文本挖掘:微博摘要
摘要的类别
◦ 对事件的描述
◦ 观点摘要:对一个实体的观点倾向
◦ 多微博文本摘要:timeline摘要,如体育比
赛的进程
摘要方法
◦ 抽取式摘要
◦ 生成式摘要
8
文本挖掘:微博摘要
抽取式摘要方法
对每个子句评分,选取得分的top-k的子句作
为摘要
矩阵分解SVD,选择排序较高的子句
◦ 构建词--句子矩阵A,矩阵的元素是每个词在句子
中出现的次数
子句的重要性
𝑇
◦ SVD: 𝐴 = 𝑈𝛴𝑉
◦ 最终选择向量中值比较大的句子作为摘要。
聚类(SNMF) 聚类中心
数据重构,选出的摘要可以最大限度地还原原
始数据。
◦ 实时摘要系统:增量式的聚类,抽取质心
9
文本挖掘:微博摘要
抽取式摘要:抽取文本信息,嵌入到预
定模版中
例1
◦ 分类:对语言行为进行分类
◦ 抽取最具代表性的短语
◦ 嵌入模版中
例2
◦ 对词序列建索引
◦ 抽取频率最高的短语作为摘要
10
文本挖掘:情感分析
基于分类的方法
◦ 类别:中性,积极,消极
◦ 特征:
表情(最直观)
N-gram
Hashtag
Part-Of-speech:(adv + adj)
二值特征:是否包含链接(中性,非中性)
◦ 分类方法:
SVM
朴素贝叶斯
等等
11
文本挖掘:情感分析
基于词典的方法
◦ 积极词典、消极词典
◦ 对每个句子计算得分:
积极:得分>0
中性:得分=0
消极:得分<0
◦ 情感强度分析
统计结论
◦ 在Sina和Twitter上,积极情感多于消极情感
◦ POS在情感表达中很常见
12
结构挖掘:链接预测
网络结构中,未连接的两点是否会相连
?
应用场景
◦
◦
◦
◦
推荐系统:好友推荐,商品推荐
生物信息学:预测基因与蛋白质的关系
安全领域:犯罪团伙的发现
等等
13
结构挖掘:链接预测
结构性的方法
◦ 局部结构(两个节点的相似性)
共同邻居的数目
Jaccard系数
Preferential attachment(优先连接)
一条新边链接到两个顶点的概率正比于它们的度之积
𝑠𝑖𝑚𝑖𝑗 = deg 𝑖 ∗ deg(𝑗)
◦ 全局结构
传递性
14
结构挖掘:链接预测
随机游走
◦ 无监督
概率:
l setps
◦ 有监督
结合顶点和边的信息指导随机游走
分类方法:预测是否存在链接
◦ 基于拓扑结构的特征
两个节点邻居的总数
◦ 非拓扑结构特征
两个用户兴趣的重叠度
◦ 基于PageRank思想,把顶点集合分成两个
subset(可能链接,不可能链接)
15
用户顶点排序
用户顶点排序
◦ 影响力:信息的传播能力
◦ 可选特征
粉丝数
转发数
被提到的次数
链接结构
结构洞(意见领袖)
16
用户顶点排序
用户影响力计算
◦ Degree:节点的度数
𝑐𝑖 = 𝑑𝑒𝑔(𝑖)
直接影响力,开销小
◦ Closeness:与所有其他点的最短距离之和
𝑐𝑖 = 𝒆𝑇𝑖 𝑺𝒆, 𝒆 = 𝟏, 𝟏, … , 𝟏 𝑻 , 𝒆𝒊 = 𝟎, 𝟎, … , 𝟏, 𝟎 … , 𝟎
𝑻
𝑺𝒊𝒋 表示从𝒊到𝒋的最短距离
衡量间接影响力,开销大
◦ Betweenness
节点处于其他节点最短路径上的能力
𝑐𝑖 = Σ𝑗,𝑘
𝑏𝑗𝑖𝑘
𝑏𝑗𝑘
𝑏𝑗𝑘 :j与k之间最短路径的数目
𝑏𝑗𝑖𝑘 :j与k之间最短路径,且通过i的数目
节点对信息传播的影响
时间、空间开销大
17
用户顶点排序
用户影响力计算
PageRank
◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼
𝒆
,𝒆
𝑛
= 1,1, … , 1
𝑇
𝒆
𝝅为得分的值, 𝑷为邻接矩阵, 𝜶为跳转因子,
𝑛
为自重启向量
◦ 只考虑了节点影响力的传播,未考虑节点自身的
特征
Personalized PageRank
◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼 𝒓
𝒓为个性化向量,
如:个体对话题的敏感程度,个体发布信息的新颖程度
18
结构挖掘:顶点排序
微博顶点排序
◦ 根据用户转发该微博的概率,越高,信息
越有价值
◦ 微博的质量
◦ 作者的权威度
◦ 微博的可信度
应用场景
◦ 微博推荐
用户自身的喜好可作为另一个特征
19
应用:微博推荐
推荐内容
◦ 推荐内容
标签
音乐
新闻:动态性,时效性
微博
◦ 推荐人
朋友
20
应用:微博推荐
推荐技术
◦ 基于内容
◦ 协同过滤
◦ 混合推荐
基于内容的推荐
◦ 根据用户以前喜欢的项目,给用户的阅读偏好建模
项目的特征矩阵(内容)
协同过滤
◦ 基于近邻的推荐(寻找相似用户;相似Item)
Item-user 评分矩阵
◦ 基于模型的方法
矩阵分解:建立用户和项目两个因子模型
概率矩阵分解:用户兴趣和项目主题分布中的不确定性
21
应用:微博推荐
微博推荐新方向
◦ 社交推荐模型:将社交关系加入到推荐中。
User-user矩阵,User-Item矩阵,同时进行分解
信任关系上的矩阵分解
◦ 动态推荐:推荐在特定时间内用户感兴趣的主
题
发现用户兴趣在用户主题上的动态概率分布
项目和用户兴趣进行动态匹配
◦ 实时推荐
在线协同过滤,增量式更新近邻的相似度
矩阵分解的改进:matrix sketching算法,用于实时推
荐中的矩阵近似
22
微博挖掘挑战
微博检索
◦ 有效特征的选择
事件摘要的深度挖掘
◦ 不仅考虑摘要的覆盖性和多样性
◦ 产生具有语义结构的代表事件发展的摘要
实时事件的深度挖掘
◦ 大数据分析技术
◦ 整合流处理/批处理的分布式平台
23
总结
微博特点
文本挖掘
◦ 微博检索
◦ 微博摘要
◦ 情感分析
结构挖掘
应用
◦ 链接预测
◦ 节点排序
◦ 微博推荐
挑战
24
25