微博挖掘综述

Transcript 微博挖掘综述

微博挖掘综述
报告人：王菁菁
2014.4.23
大纲


微博特点
文本挖掘
◦ 微博检索
◦ 微博摘要
◦ 情感分析

结构挖掘

应用
◦ 链接预测
◦ 节点排序
◦ 微博推荐

挑战
2
微博特点

内容特点
◦ 短文本性：小于140个文字
◦ Hashtag: #topic#

结构特点
◦ 幂律分布：follower,followee
◦ 传播即时: 可以通过Web,WAP各种客户端发送
◦ 结构洞：1%的用户控制25%的信息传播

用户特点
◦ 用户发文：广播，分享信息
◦ 交友模式：关注有相同兴趣爱好的用户
3
文本挖掘：微博检索
检索：根据用户提交的查询返回相关的
微博
 检索内容

◦ 动态信息：事件检索
◦人
◦ Hashtag、救援事件、跨社交媒体检索等

与其他技术结合
◦ 聚类分析：分面搜索
◦ 事件检测、摘要技术：结果展示
4
文本挖掘：微博检索

检索两大关键技术
◦ 索引
◦ 排序

索引
◦ TI:实时索引
◦ Pollux:分布式可扩展实时索引
5
文本挖掘：微博检索

排序特征选择
◦ 文本特征：TF-IDF
◦ 相关性
◦ 发表时间:时效性的最有效特征
◦ 微博质量: 例如，有趣性
◦ 可信度
◦ 用户影响力
6
文本挖掘：微博摘要
话题摘要：一个话题的文档集合摘要，
能代表话题的核心语义
 事件检测内容

◦ 发现新兴爆发的主题
◦ 持久讨论的事件
◦ 特定的事件

事件检测的方法
◦ 聚类：对关键词聚类、社团聚类
7
文本挖掘：微博摘要

摘要的类别
◦ 对事件的描述
◦ 观点摘要：对一个实体的观点倾向
◦ 多微博文本摘要：timeline摘要，如体育比
赛的进程

摘要方法
◦ 抽取式摘要
◦ 生成式摘要
8
文本挖掘：微博摘要



抽取式摘要方法
对每个子句评分，选取得分的top-k的子句作
为摘要
矩阵分解SVD，选择排序较高的子句
◦ 构建词--句子矩阵A，矩阵的元素是每个词在句子
中出现的次数
子句的重要性
𝑇
◦ SVD： 𝐴 = 𝑈𝛴𝑉
◦ 最终选择向量中值比较大的句子作为摘要。

聚类(SNMF)  聚类中心

数据重构，选出的摘要可以最大限度地还原原
始数据。
◦ 实时摘要系统：增量式的聚类，抽取质心
9
文本挖掘：微博摘要
抽取式摘要：抽取文本信息，嵌入到预
定模版中
 例1

◦ 分类：对语言行为进行分类
◦ 抽取最具代表性的短语
◦ 嵌入模版中

例2
◦ 对词序列建索引
◦ 抽取频率最高的短语作为摘要
10
文本挖掘：情感分析

基于分类的方法
◦ 类别：中性，积极，消极
◦ 特征：





表情（最直观）
N-gram
Hashtag
Part-Of-speech：（adv + adj）
二值特征：是否包含链接（中性，非中性）
◦ 分类方法：
 SVM
 朴素贝叶斯
 等等
11
文本挖掘：情感分析

基于词典的方法
◦ 积极词典、消极词典
◦ 对每个句子计算得分:
 积极：得分>0
 中性：得分=0
 消极：得分<0
◦ 情感强度分析

统计结论
◦ 在Sina和Twitter上，积极情感多于消极情感
◦ POS在情感表达中很常见
12
结构挖掘：链接预测

网络结构中，未连接的两点是否会相连
？

应用场景
◦
◦
◦
◦
推荐系统：好友推荐，商品推荐
生物信息学：预测基因与蛋白质的关系
安全领域：犯罪团伙的发现
等等
13
结构挖掘：链接预测

结构性的方法
◦ 局部结构（两个节点的相似性）
 共同邻居的数目
 Jaccard系数
 Preferential attachment（优先连接）
 一条新边链接到两个顶点的概率正比于它们的度之积
 𝑠𝑖𝑚𝑖𝑗 = deg 𝑖 ∗ deg(𝑗)
◦ 全局结构
 传递性
14
结构挖掘：链接预测

随机游走
◦ 无监督
 概率：
l setps
◦ 有监督
 结合顶点和边的信息指导随机游走

分类方法：预测是否存在链接
◦ 基于拓扑结构的特征
 两个节点邻居的总数
◦ 非拓扑结构特征
 两个用户兴趣的重叠度
◦ 基于PageRank思想，把顶点集合分成两个
subset（可能链接，不可能链接）
15
用户顶点排序

用户顶点排序
◦ 影响力：信息的传播能力
◦ 可选特征





粉丝数
转发数
被提到的次数
链接结构
结构洞（意见领袖）
16
用户顶点排序

用户影响力计算
◦ Degree：节点的度数
 𝑐𝑖 = 𝑑𝑒𝑔(𝑖)
 直接影响力，开销小
◦ Closeness：与所有其他点的最短距离之和
 𝑐𝑖 = 𝒆𝑇𝑖 𝑺𝒆, 𝒆 = 𝟏, 𝟏, … , 𝟏 𝑻 , 𝒆𝒊 = 𝟎, 𝟎, … , 𝟏, 𝟎 … , 𝟎
𝑻
 𝑺𝒊𝒋 表示从𝒊到𝒋的最短距离
 衡量间接影响力，开销大
◦ Betweenness
 节点处于其他节点最短路径上的能力
 𝑐𝑖 = Σ𝑗,𝑘
𝑏𝑗𝑖𝑘
𝑏𝑗𝑘
 𝑏𝑗𝑘 :j与k之间最短路径的数目
 𝑏𝑗𝑖𝑘 :j与k之间最短路径，且通过i的数目
 节点对信息传播的影响
 时间、空间开销大
17
用户顶点排序


用户影响力计算
PageRank
◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼
𝒆
,𝒆
𝑛
= 1,1, … , 1
𝑇
𝒆
 𝝅为得分的值， 𝑷为邻接矩阵， 𝜶为跳转因子，
𝑛
为自重启向量
◦ 只考虑了节点影响力的传播，未考虑节点自身的
特征

Personalized PageRank
◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼 𝒓
 𝒓为个性化向量，
 如：个体对话题的敏感程度，个体发布信息的新颖程度
18
结构挖掘：顶点排序

微博顶点排序
◦ 根据用户转发该微博的概率，越高，信息
越有价值
◦ 微博的质量
◦ 作者的权威度
◦ 微博的可信度

应用场景
◦ 微博推荐
 用户自身的喜好可作为另一个特征
19
应用：微博推荐

推荐内容
◦ 推荐内容




标签
音乐
新闻：动态性，时效性
微博
◦ 推荐人
 朋友
20
应用：微博推荐

推荐技术
◦ 基于内容
◦ 协同过滤
◦ 混合推荐

基于内容的推荐
◦ 根据用户以前喜欢的项目，给用户的阅读偏好建模
 项目的特征矩阵（内容）

协同过滤
◦ 基于近邻的推荐（寻找相似用户；相似Item）
 Item-user 评分矩阵
◦ 基于模型的方法
 矩阵分解：建立用户和项目两个因子模型
 概率矩阵分解：用户兴趣和项目主题分布中的不确定性
21
应用：微博推荐

微博推荐新方向
◦ 社交推荐模型：将社交关系加入到推荐中。
 User-user矩阵，User-Item矩阵，同时进行分解
 信任关系上的矩阵分解
◦ 动态推荐：推荐在特定时间内用户感兴趣的主
题
 发现用户兴趣在用户主题上的动态概率分布
 项目和用户兴趣进行动态匹配
◦ 实时推荐
 在线协同过滤，增量式更新近邻的相似度
 矩阵分解的改进：matrix sketching算法，用于实时推
荐中的矩阵近似
22
微博挖掘挑战

微博检索
◦ 有效特征的选择

事件摘要的深度挖掘
◦ 不仅考虑摘要的覆盖性和多样性
◦ 产生具有语义结构的代表事件发展的摘要

实时事件的深度挖掘
◦ 大数据分析技术
◦ 整合流处理/批处理的分布式平台
23
总结


微博特点
文本挖掘
◦ 微博检索
◦ 微博摘要
◦ 情感分析

结构挖掘

应用
◦ 链接预测
◦ 节点排序
◦ 微博推荐

挑战
24
25

微博挖掘综述

Transcript 微博挖掘综述

Directory