Transcript 基于时间序列的文本分类
基于时间序列的文本分类 陈伟程 简介 基于时间序列的文本分类 传统文本分类方法 时间序列分类方法 结合方法尝试 文本分类一般过程 预处理 特征表示与选择、降维 将文档集表示成易于计算机处理的形式 根据适宜的权重计算方法表示文档中各项的重要性 学习建模 构建分类器 文本分类预处理 去标点、多余空格、数字(可选) 大小写统一 去停用词(stop words) 统一词根 没有实际含义的词,比如and,you,have等等 PorterStemmer 分词 英文?中文 特征表示 向量空间模型 以词项为特征组成高维特征向量 TF/IDF得到权值 TF/IDF TF(Term Frequency) 表示词项频率 TFij fij / max fi IDF(Inverse Document Frequency) 逆文档频率 IDFi log 2 N / ni TF*IDF值 降维方法 特征选择 文档频率 信息增益 互信息 文本证据权 PCA 词项聚类 建模过程 分类器选择 朴素贝叶斯 K近邻 SVM--Liblinear 分类任务 数据集 特征 TF/IDF、向量空间模型 分类器 Reuters21578-Apte-90Cat,选取10类(训练集、测试集) Liblinear 传统方法效果 88.5% 基于时间序列的文本分类 传统方法缺点 利用了词义信息,但忽略了单词的位置信息 时间序列 不同时间上的各个数值,按时间先后顺序排列而形成的序列 能否利用单词位置信息来 提高分类效果? 基于时间序列的文本分类 文档一 输入文档 文档二 We are datamining group Xiamen university 计算TF/IDF 1.1 1.5 2 0.8 3 2.5 1.1 1.5 2 0.8 3 2.5 保留词项位置 特征向量 疑问:不同文档特征数不一样怎么办??? DTW——动态时间归整 基于动态规划思想,解决了特征长短不一 的模板匹配问题 计算样本之间的相似度 KNN方法确定类别 实验效果:十类52% 思考一 统一特征维数 十维、三十维、五十维。。。。。。 使用各种分类器 Libsvm、Liblinear、KNN。。。。。。 最佳:六十段 libsvm 60% 思考二 语料不对?微博?短文本? 选取新闻标题为语料 83% VS 51% CDMC2010、CDMC2011 语料 时间 传统 CDMC2010 46% 99% CDMC2011 14% 82% 思考三 特征不对? 词义信息丢失 TF fall / max f 不同文本相同词项权值相同 全局TF/IDF You are… Are you… You are… Are you… 1 2… 1.5 2.5… 1 2… 2 1… 准确率:48% 时间序列结合传统方法 时间序列特征加在传统特征之后 分类器 时间序列加在末尾 准确率 liblinear TF-IDF>0.5 + 50维时间序列 0.872 liblinear TF-IDF>0.5 + 100维时间序列 0.871 思考四 传统特征维数太高?(一万多维VS几十维) PCA降维之后再加时间特征 分类器 方法 准确率 liblinear PCA降维至4020 0.7953 liblinear PCA降维至4020 +10维 0.8356 liblinear PCA降维至4020 +20维 0.8382 liblinear PCA降维至4020 +30维 0.8357 liblinear PCA降维至4020 +50维 0.8389 liblinear PCA降维至4020 +80维 0.8389 liblinear PCA降维至4020 +100维 0.8399 思考五 时间序列特征有什么含义? 代表不同位置词的重要性曲线 1.7 1.6 1.5 1.4 1.3 1.2 1.1 三段 五段 八段 传统特征按位置分段加权 在传统特征上权值按位置进行加权 传统特征按位置三份加权 TF/IDF>1.0 权值3,2,1 准确率 0.873 TF/IDF>1.0 权值1.5,1.2,1 0.8812 TF/IDF>1.0 权值1.2,1.1,1 0.8837 TF/IDF>1.0 权值1.1,1.05,1 0.8845 TF/IDF>1.0 权值1.1,1,1 0.8845 TF/IDF>1.0 权值1.19,1.04,1 0.8845 TF/IDF>1.0 权值1,1,1 0.8859 TF/IDF>1.0 权值0.9,0.95,1 0.8852 TF/IDF>1.0 权值0.84,0.96,1 0.8845 TF/IDF>1.0 权值0.8,0.9,1 0.8837 传统特征按位置五份加权 准确率 TF/IDF>1.0 权值1.29,1.075,1.047,1.03,1 0.8834 TF/IDF>1.0 权值1.5,1.3,1.2,1.1,1 0.8812 传统特征按位置八份加权 TF/IDF>1.0 权值1.4,1.13,1.09,1.08,1.06,1.04,1.03,1 准确率 0.8787 传统特征后加各段时间序列均值 传统特征后加几维各段时间序列均值特征 准确率 TF/IDF>1.0 三段 0.8791 TF/IDF>1.0 五段 0.878 TF/IDF>1.0 50段 0.8787 TF/IDF>1.0 80段 0.8776 TF/IDF>1.0 100段 0.8794 思考六 时间序列能不能补充? 思路:传统方法置信度低时用时间序列的结果 置信阈值 传统方法正确率 0.1-0.2 TF/IDF>0.5 个数 比例 0 0.00% 时间序列正确率 0.2-0.3 40.00% 5 0.18% 0.00% 0.3-0.4 32.65% 49 1.76% 16.33% 0.4-0.5 44.44% 72 2.58% 12.50% 0.5-0.6 55.25% 181 6.49% 13.80% 0.6-0.7 63.16% 133 4.77% 22.56% 0.7-0.8 71.93% 171 6.13% 26.90% 0.8-0.9 86.73% 294 10.54% 40.47% 0.9-1.0 97.98% 1882 67.52% 68.38% 问题总结 时间序列的有效性 文本的时间性 特征表示 收获 不断思考、不断实践 想法来源于实践