Transcript 微博挖掘综述
微博挖掘综述 报告人:王菁菁 2014.4.23 大纲 微博特点 文本挖掘 ◦ 微博检索 ◦ 微博摘要 ◦ 情感分析 结构挖掘 应用 ◦ 链接预测 ◦ 节点排序 ◦ 微博推荐 挑战 2 微博特点 内容特点 ◦ 短文本性:小于140个文字 ◦ Hashtag: #topic# 结构特点 ◦ 幂律分布:follower,followee ◦ 传播即时: 可以通过Web,WAP各种客户端发送 ◦ 结构洞:1%的用户控制25%的信息传播 用户特点 ◦ 用户发文:广播,分享信息 ◦ 交友模式:关注有相同兴趣爱好的用户 3 文本挖掘:微博检索 检索:根据用户提交的查询返回相关的 微博 检索内容 ◦ 动态信息:事件检索 ◦人 ◦ Hashtag、救援事件、跨社交媒体检索等 与其他技术结合 ◦ 聚类分析:分面搜索 ◦ 事件检测、摘要技术:结果展示 4 文本挖掘:微博检索 检索两大关键技术 ◦ 索引 ◦ 排序 索引 ◦ TI:实时索引 ◦ Pollux:分布式可扩展实时索引 5 文本挖掘:微博检索 排序特征选择 ◦ 文本特征:TF-IDF ◦ 相关性 ◦ 发表时间:时效性的最有效特征 ◦ 微博质量: 例如,有趣性 ◦ 可信度 ◦ 用户影响力 6 文本挖掘:微博摘要 话题摘要:一个话题的文档集合摘要, 能代表话题的核心语义 事件检测内容 ◦ 发现新兴爆发的主题 ◦ 持久讨论的事件 ◦ 特定的事件 事件检测的方法 ◦ 聚类:对关键词聚类、社团聚类 7 文本挖掘:微博摘要 摘要的类别 ◦ 对事件的描述 ◦ 观点摘要:对一个实体的观点倾向 ◦ 多微博文本摘要:timeline摘要,如体育比 赛的进程 摘要方法 ◦ 抽取式摘要 ◦ 生成式摘要 8 文本挖掘:微博摘要 抽取式摘要方法 对每个子句评分,选取得分的top-k的子句作 为摘要 矩阵分解SVD,选择排序较高的子句 ◦ 构建词--句子矩阵A,矩阵的元素是每个词在句子 中出现的次数 子句的重要性 𝑇 ◦ SVD: 𝐴 = 𝑈𝛴𝑉 ◦ 最终选择向量中值比较大的句子作为摘要。 聚类(SNMF) 聚类中心 数据重构,选出的摘要可以最大限度地还原原 始数据。 ◦ 实时摘要系统:增量式的聚类,抽取质心 9 文本挖掘:微博摘要 抽取式摘要:抽取文本信息,嵌入到预 定模版中 例1 ◦ 分类:对语言行为进行分类 ◦ 抽取最具代表性的短语 ◦ 嵌入模版中 例2 ◦ 对词序列建索引 ◦ 抽取频率最高的短语作为摘要 10 文本挖掘:情感分析 基于分类的方法 ◦ 类别:中性,积极,消极 ◦ 特征: 表情(最直观) N-gram Hashtag Part-Of-speech:(adv + adj) 二值特征:是否包含链接(中性,非中性) ◦ 分类方法: SVM 朴素贝叶斯 等等 11 文本挖掘:情感分析 基于词典的方法 ◦ 积极词典、消极词典 ◦ 对每个句子计算得分: 积极:得分>0 中性:得分=0 消极:得分<0 ◦ 情感强度分析 统计结论 ◦ 在Sina和Twitter上,积极情感多于消极情感 ◦ POS在情感表达中很常见 12 结构挖掘:链接预测 网络结构中,未连接的两点是否会相连 ? 应用场景 ◦ ◦ ◦ ◦ 推荐系统:好友推荐,商品推荐 生物信息学:预测基因与蛋白质的关系 安全领域:犯罪团伙的发现 等等 13 结构挖掘:链接预测 结构性的方法 ◦ 局部结构(两个节点的相似性) 共同邻居的数目 Jaccard系数 Preferential attachment(优先连接) 一条新边链接到两个顶点的概率正比于它们的度之积 𝑠𝑖𝑚𝑖𝑗 = deg 𝑖 ∗ deg(𝑗) ◦ 全局结构 传递性 14 结构挖掘:链接预测 随机游走 ◦ 无监督 概率: l setps ◦ 有监督 结合顶点和边的信息指导随机游走 分类方法:预测是否存在链接 ◦ 基于拓扑结构的特征 两个节点邻居的总数 ◦ 非拓扑结构特征 两个用户兴趣的重叠度 ◦ 基于PageRank思想,把顶点集合分成两个 subset(可能链接,不可能链接) 15 用户顶点排序 用户顶点排序 ◦ 影响力:信息的传播能力 ◦ 可选特征 粉丝数 转发数 被提到的次数 链接结构 结构洞(意见领袖) 16 用户顶点排序 用户影响力计算 ◦ Degree:节点的度数 𝑐𝑖 = 𝑑𝑒𝑔(𝑖) 直接影响力,开销小 ◦ Closeness:与所有其他点的最短距离之和 𝑐𝑖 = 𝒆𝑇𝑖 𝑺𝒆, 𝒆 = 𝟏, 𝟏, … , 𝟏 𝑻 , 𝒆𝒊 = 𝟎, 𝟎, … , 𝟏, 𝟎 … , 𝟎 𝑻 𝑺𝒊𝒋 表示从𝒊到𝒋的最短距离 衡量间接影响力,开销大 ◦ Betweenness 节点处于其他节点最短路径上的能力 𝑐𝑖 = Σ𝑗,𝑘 𝑏𝑗𝑖𝑘 𝑏𝑗𝑘 𝑏𝑗𝑘 :j与k之间最短路径的数目 𝑏𝑗𝑖𝑘 :j与k之间最短路径,且通过i的数目 节点对信息传播的影响 时间、空间开销大 17 用户顶点排序 用户影响力计算 PageRank ◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼 𝒆 ,𝒆 𝑛 = 1,1, … , 1 𝑇 𝒆 𝝅为得分的值, 𝑷为邻接矩阵, 𝜶为跳转因子, 𝑛 为自重启向量 ◦ 只考虑了节点影响力的传播,未考虑节点自身的 特征 Personalized PageRank ◦ 𝝅 = 𝛼𝑷𝑇 𝝅 + 1 − 𝛼 𝒓 𝒓为个性化向量, 如:个体对话题的敏感程度,个体发布信息的新颖程度 18 结构挖掘:顶点排序 微博顶点排序 ◦ 根据用户转发该微博的概率,越高,信息 越有价值 ◦ 微博的质量 ◦ 作者的权威度 ◦ 微博的可信度 应用场景 ◦ 微博推荐 用户自身的喜好可作为另一个特征 19 应用:微博推荐 推荐内容 ◦ 推荐内容 标签 音乐 新闻:动态性,时效性 微博 ◦ 推荐人 朋友 20 应用:微博推荐 推荐技术 ◦ 基于内容 ◦ 协同过滤 ◦ 混合推荐 基于内容的推荐 ◦ 根据用户以前喜欢的项目,给用户的阅读偏好建模 项目的特征矩阵(内容) 协同过滤 ◦ 基于近邻的推荐(寻找相似用户;相似Item) Item-user 评分矩阵 ◦ 基于模型的方法 矩阵分解:建立用户和项目两个因子模型 概率矩阵分解:用户兴趣和项目主题分布中的不确定性 21 应用:微博推荐 微博推荐新方向 ◦ 社交推荐模型:将社交关系加入到推荐中。 User-user矩阵,User-Item矩阵,同时进行分解 信任关系上的矩阵分解 ◦ 动态推荐:推荐在特定时间内用户感兴趣的主 题 发现用户兴趣在用户主题上的动态概率分布 项目和用户兴趣进行动态匹配 ◦ 实时推荐 在线协同过滤,增量式更新近邻的相似度 矩阵分解的改进:matrix sketching算法,用于实时推 荐中的矩阵近似 22 微博挖掘挑战 微博检索 ◦ 有效特征的选择 事件摘要的深度挖掘 ◦ 不仅考虑摘要的覆盖性和多样性 ◦ 产生具有语义结构的代表事件发展的摘要 实时事件的深度挖掘 ◦ 大数据分析技术 ◦ 整合流处理/批处理的分布式平台 23 总结 微博特点 文本挖掘 ◦ 微博检索 ◦ 微博摘要 ◦ 情感分析 结构挖掘 应用 ◦ 链接预测 ◦ 节点排序 ◦ 微博推荐 挑战 24 25