PPT - 厦门大学智能数据分析与处理实验室

Download Report

Transcript PPT - 厦门大学智能数据分析与处理实验室

Topic models
王薇
Topic models
主题模型在机器学习和自然语言处理等领域是用来在一系
列文档中发现抽象主题的一种统计模型。
如果时间回到2006年,马云和杨致远的手还会握在一起吗?
阿里巴巴集团和雅虎就股权回购一事签署了最终协议。
Topic models
主题模型主要解决的问题就是怎么样生成主题,基本可以认为:
一篇文章的每个词都是通过“以一定概率选择了某个主题,并从
这个主题中以一定概率选择某个词语”这样一个过程得到的。
p(词语|文档)=  p(词语|主题)  p(主题 | 文档)
主题
矩阵形式:
Topic models
数据来源于Web of Science 核心合集收录的文献,关键字为topic models
每年出版的文献数
每年的引文数
Topic models
数据来源于Engineering Village(Ei)核心合集收录的文献,关键字为topic models
每年出版的文献数
Topic models
Latent Dirichlet Allocation Development
Classical Topic models
CTM
ATM
DTM
Latent Dirichlet Allocation Citation
LDA的作者是David M. Blei、 Andrew Y. Ng、 Michael I. Jordan,短篇版
本首先发表在2001年的NIPS会议上,完整版本发表在2003年的Journal of
Machine Learning Research,到12月5日被引用10007次
LDA论文的引用次数
2500
2000
1500
1000
500
0
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
Latent Dirichlet Allocation
1.随机产生一个主题直方图(或者说分布);
2.对文档中的每个词:
(a) 从第一步产生的直方图里随机选择一个主题;
(b) 从主题对应的词语的概率分布中随机选择一个词。
Latent Dirichlet Allocation

是一个狄利克雷分布的参数,是一个列向量, 用来
存放特定的单词 w i 在特定主题 zi 中的概率,是一个VxK
矩阵。(V表示单词的种类数,K表示主题的种类数)
p( ) ~ Dir ( ),   matrix(M K)
p  z |   ~ Multinomial ( m )
p  wi | z k    (i, k)
Latent Dirichlet Allocation
LDA的联合概率密度函数为:
N
p( , z, w |  ,  )  p( |  ) p(z n |  ) p(w n | z n ,  )
n 1
主题模型的应用
知网上的硕博论文数量
120
100
80
60
40
20
0
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
从知网的数据可以看出,十年内有关主题模型的共有两百余篇硕博论
文,17篇来自北京邮电大学、16篇来自上海交通大学、16篇来自浙江
大学、14篇来自哈尔滨工业大学、9篇来自电子科技大学、9篇来自中
国科学技术大学、9篇来自西安电子科技大学。而这些高校的论文占了
大多数。
主题模型的应用
文章一:基于主题模型的学术论文推荐系统研究[21](大连海事2013年硕士论文)
应用点:学术论文推荐系统。文中利用了两种算法,LDA和CTM,直接利用
LDA和CTM的算法设计了学术论文推荐的方法,并引入了一个新的评估方法
叫做惊喜度,惊喜度指的是发现那些用户并不了解却确实需要的物品的能力
。
数据集:NIPS英文论文,2004年到2011年共1936篇
总结:整篇论文基本没有很大的创新,直接把LDA和CTM拿来处理NIPS的英
文论文集,然后找到具有相似文档-主题分布的论文,并将其看为是某篇论文
相似的学术论文加以推荐;引入了惊喜度的概念,但惊喜度也是在2008年由
Leo丨aquima等人提出的。
可借鉴:文章用的是英文数据,我们可以尝试对中文论文集进行处理并进行
学术论文推荐,因为学术论文推荐这一个应用点还是很有意义的。
文章二:基于主题模型的个性化新闻推荐系统的研究与实现[22](北邮2013年硕士论文)
应用点:基于内容和主题特征的新闻推荐方案。
新闻模型:推荐方案将新闻表示为一个三维的模型,包括主题特征向量、关键词
权值和新闻时间, Fs  {Ts , K s , tts }
数据集:文中并没有提到,不过利用的是FudanNLP进行的处理。
总结:这篇论文其实主要不是进行算法的讨论而是成功做出了一个真正的应用,自行是设计了
整个推荐系统,包括前端显示和后台数据库,
可借鉴:之前我也利用过搜狐新闻数据跑过LDA的程序,得到了topic也得到了文档-主题的分布
,也可以进行后续的新闻分类或新闻推荐。
文章三:基于主题模型的舆情分析子系统研究与设计 [23](电子科大2013年硕士论文)
应用点:1.提出了一种基于主题特征和SVM的细粒度文本分类方法;文中使用不同的分
类器进行实验,并得出SVM的分类效果比较好的结论。2.提出基于LDA关键词和最短摘
要提取算法。3.利用决策树分类舆情。
数据集:网络上各种论坛或者贴吧的回复、新闻等信息
总结:创新点并没有特别大,只是将LDA直接用起来,并利用了LDA模型中的参数得到
关键字和摘要,使用的SVM分类和决策树也都是已成熟的算法,其实,使用java和php
将整个系统构建出来才是论文主要的贡献。
可借鉴:将lda应用于舆情分析
文章四:基于PCA和LDA 文本分类系统设计与实现 [24](北邮2013年硕士论文)
应用点: 基于LDA主题模型和基于特征之间语义关系的PCA降维方法结合SVM分
类器的文本分类。
文本分类系统的流程为:
方法1:先对LDA对语料进行整体处理,得到文本-主题矩阵,将文本转换为VSM向量模型,
VSM模型权重使用的是TF-IDF值。TF-IDF目的是给向量降维。然后再利用SVM进行分类。方法
2:利用PCA特征降维法对表示为数值的文本特征进行降维,然后利用SVM进行分类。
数据集:搜狗实验室文本分类语料,语料主要是搜狗实验室提供的一些网页、新闻内容。
总结:文章用了两种方法进行降维,然后分类器都是SVM,两种方法一是LDA第二个是PCA,
文中将两种不同的降维方法进行比较,得出了LDA的方法效果更胜一筹的结论,最后设计出了一
个系统demo,并没有其他创新点。
可借鉴:利用LDA文本分类是比较成熟的一个应用点,分类器一般都是选择SVM。
文章五:基于微博的用户兴趣分析与个性化信息推荐 [25](上海交大2013年硕士论文)
应用点: 三个新的想法:1.使用外部知识库对微
博文本进行语义丰富;2.过滤不能体现用户兴趣
的微博;利用的方法是分类,将感兴趣和不感兴
趣分为两类,通过这种方法过滤噪声微博。3.用
时间加权的主题分布表示用户兴趣。时间加权的
主题分布是一组二元组,每个二元组是由用户对
一个主题感兴趣的程度和该主题对用户的时间权
重表示的。并自己设计了时间参数的公式。用户
感兴趣的内容推荐就直接用相似度来进行。
数据集:新浪微博抓取的微博;中文维基百科
总结:单条微博的信息过于少,所以文中提出了用
外部知识库对微博文本进行语义丰富,所以文章是
用中文维基百科的语料先来进行LDA分析,得到文
档-主题分布矩阵,再利用得到的参数处理微博语
料,提出每个用户的兴趣点,并对新闻及团购语料
进行LDA处理,再针对用户兴趣点进行推荐。
可借鉴:可以自行抓取微博数据,然后进行各种处
理,可应用于推荐、舆情监控、热点事件监测等各
方向
文章六:基于评论和评分的个性化推荐算法研究 [26](浙江大学2013年硕士论文)
应用点: 提出了一个新的基于主题模型的协过滤推荐系统。用主题模型对用户评论进行处理,
然后提出了两个不同的推荐算法:一个基于主题模型和用户的协同过滤算法,另一个是基于主题
模型和产品的协同过滤算法。
ASUM模型不仅考虑评论的主题,同时把用户的情感倾向融合进了该模型,情感倾向只分为正面和负
面。用户主题概率分布计算:就是对同个用户对某一类产品给出的所有评论的主题概率分布求平均,
得到一个主题概率分布数组,能反映了特定用户对某一类产品不同特征的偏好;用户最重视特征计算
:排序得到最感兴趣的特征。
数据集:亚马逊网站上得到的6大电子类产品的评论,英文数据
总结:主要是通过用户在网站上的对商品的评价和评分得到用户的兴趣,从而进行推荐,主要创新点
就是将LDA得到的数据应用到协同过滤算法中,使得到的结果更加准确。(协同过滤算法是最成功的
推荐技术)
文章七:基于主题模型的中医药隐含语义信息挖掘[27](浙江大学2013年硕士论文)
应用点:将主题模型应用于中医药数据挖掘领域。
概念
文本挖掘
中医药挖掘
语料库 corpus
文档的集合
药物/处方的集合
文档 document
一段文本或一篇文章
一条处方
单词 term
单词
总草药药剂
主题 topic
文档和单词之间隐含
的主题
处方和药剂之间隐
含的主题
单词库 vocabulary
单词的集合
药剂的集合
在中医药数据中,由于处方/药物包含的中草药药剂并不是以“词频”的形式来表示其
在这个文档中的“重要性”即 p( | d ),而一个处方/药物里面的中草药并没有“词
频”这个概念,一个中草药一般只出现一次,文章提出的改进方法是利用中草药重量
信息,一个处方/药物里面中草药的重量占比更能够很好地描述它在这个处方/药剂里
面的重要程度。
数据集:浙江大学与中国中医科学研究院合作完成的中医药本体库
总结:找到了一个很合适的应用点,并有很适合的语料库,依托实验室的中医药数据
挖掘平台,将LDA很好地与中医药结合。
Bag of words models
词袋模型源于自然语言处理和信息检索,这种模型将文本(段落或者文档)看
作是无序的单词集合,根据文本中单词的统计信息完成对文本的分类。
词袋模型也是一种基于图像局部特征的标分类算法,它只考虑目标的局部区
域的表面特征,而忽略他们之间的空间关系,对目标的整体形状不加限制
,这样建立的目标模型就有很大的灵活性,不会局限于某一种形状的特征
,可以处理类内目标的形状变化。
文本
文集
(Corpus)
文档
(Document)
单词
(Word)
字典
(Vocabulary)
图像
图像集
(Image set)
图像
(Image)
视觉单词
(Visual
Word)
视觉字典
(Visual
Vocabulary)
Bag of words models
文章八:基于主题模型的SAR图像分类 [28](西安电子2013年硕士论文)
应用点:从SAR图像分类问题入手,利用LDA,围绕SAR图像场景主题建模,研究了视觉词
汇和主题模型的生成模型,分析了不同底层特征对于SAR图像建模的影响,实现了基于主题
模型的SAR图像分类方法。分为两个方向:一是用不同方法提取底层特征再分类,另一个是
研究图像包含的纹理信息,采用多种特征生成纹理视觉词汇,然后再用LDA进行分类。
数据集:SAR图像及Brodatz 纹理图像库
总结: 利用了视觉词汇的概念,将主题模型应用于图像分类,LDA的作用主要是进行降
维,其实整篇文章关于LDA处理的部分并不多,基本都在讲特征提取,只是在常用的SAR
图像分类算法的一环中用LDA处理了一下而已。
可借鉴:主题模型与图像处理相结合。纹理信息可以单独作为一种特征来作为视觉词汇。
参考文献
[1] Blei D M, Lafferty J D. Topic models[J]. Text mining: classification, clustering, and
applications, 2009, 10: 71.(引用256次)
[2] Papadimitriou C H, Tamaki H, Raghavan P, et al. Latent semantic indexing: A
probabilistic analysis[C]//Proceedings of the seventeenth ACM SIGACT-SIGMODSIGART symposium on Principles of database systems. ACM, 1998: 159-168.(引用726次)
[3] Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd
annual international ACM SIGIR conference on Research and development in
information retrieval. ACM, 1999: 50-57.(引用2866次)
[4] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine
Learning research, 2003, 3: 993-1022. .(引用8202次)
[5] Nigam K, McCallum A K, Thrun S, et al. Text classification from labeled and
unlabeled documents using EM[J]. Machine learning, 2000, 39(2-3): 103-134.(引用
2184次)
[6]Heinrich G. Parameter estimation for text analysis[R]. Technical report, 2005.(引用
302次)
[7] Rosen-Zvi M, Griffiths T, Steyvers M, et al. The author-topic model for authors and
documents[C]//Proceedings of the 20th conference on Uncertainty in artificial
intelligence. AUAI Press, 2004: 487-494.(引用613次)
参考文献
[8] Blei D M, Griffiths T L, Jordan M I, et al. Hierarchical Topic Models and the Nested
Chinese Restaurant Process[C]//NIPS. 2003, 16. (引用470次)
[9] Blei D, Lafferty J. Correlated topic models[J]. Advances in neural information
processing systems, 2006, 18: 147. (引用373次)(NIPS)
[10] Li W, McCallum A. Pachinko allocation: DAG-structured mixture models of topic
correlations[J]. 2006. (引用310次)
[11] Mimno D, Li W, McCallum A. Mixtures of hierarchical topics with pachinko
allocation[C]//Proceedings of the 24th international conference on Machine learning.
ACM, 2007: 633-640.(引用89次)
[12] Wang X, McCallum A. Topics over time: a non-Markov continuous-time model of
topical trends[C]//Proceedings of the 12th ACM SIGKDD international conference on
Knowledge discovery and data mining. ACM, 2006: 424-433.(引用457次)(A类会议)
[13] Blei D M, Lafferty J D. Dynamic topic models[C]//Proceedings of the 23rd
international conference on Machine learning. ACM, 2006: 113-120. (引用659次)
(ICML,A类会议)
[14] Wang C, Blei D, Heckerman D. Continuous time dynamic topic models[J]. arXiv
preprint arXiv:1206.3298, 2012.(引用163次)
参考文献
[15] Griffiths T L, Steyvers M, Blei D M, et al. Integrating Topics and Syntax[C]//NIPS.
2004: 537-544.(引用304次)
[16] Boyd-Graber J L, Blei D M. Syntactic Topic Models[C]//NIPS. 2008, 2008: 185192.(引用88次)
[17] Blei D M, McAuliffe J D. Supervised Topic Models[C]//NIPS. 2007, 7: 121-128.
(引用520次)
[18] Lacoste-Julien S, Sha F, Jordan M I. DiscLDA: Discriminative Learning for
Dimensionality Reduction and Classification[C]//NIPS. 2008, 83: 85.(引用168次)
[19] Ramage D, Heymann P, Manning C D, et al. Clustering the tagged
web[C]//Proceedings of the Second ACM International Conference on Web Search
and Data Mining. ACM, 2009: 54-63.(引用171次)
[20] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for
credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing: Volume 1-Volume 1.
Association for Computational Linguistics, 2009: 248-256.(引用311次)
[21]黄泽明. 基于主题模型的学术论文推荐系统研究[D]. 大连海事大学, 2013.
参考文献
[22] 刘金亮. 基于主题模型的个性化新闻推荐系统的研究与实现[D]. 北京邮电大学, 2013.
[23] 高云棋. 基于主题模型的舆情分析子系统研究与设计[D]. 电子科技大学, 2013.
[24] 刘海旭. 基于 PCA 和 LDA 的文本分类系统设计与实现[D]. 北京邮电大学, 2013.
[25] 王广新. 基于微博的用户兴趣分析与个性化信息推荐[D]. 上海交通大学, 2013
[26] 许景楠. 基于评论和评分的个性化推荐算法研究[D]. 浙江大学, 2013.
[27] 商任翔. 基于主题模型的中医药隐含语义信息挖掘[D]. 杭州: 浙江大学, 2013.
[28] 李婷婷. 基于主题模型的 SAR 图像分类[D]. 西安电子科技大学, 2013.
Thank you