Transcript 文献预处理
文本信息检索 文献预处理
文本聚类 文本压缩
文本词汇分析 排除停用词 词干提取 标引词选择 叙词表
文献预处理
文本词汇分析
词汇分析是将文本中的字符序列转换成单词序列的过程 主要任务:标识出文本中的单词 英文:识别数字,连字符,标点符号,字母大小写 中文:单汉字切分,相邻两个汉字切分,相邻三个汉字切分,采用 分词算法 Unigram 切分就是单汉字切分 ; Bigram 是相邻两个汉字组成一个切分单元 ; trigram 是相邻三个汉字组成一个切分单元 ; word 是采用分词算法进行分词,每一个词作为一个切分单元。 《信息处理用现代汉语分词规范》
LUCENE
中文分词技术和算法
排除停用词
文本中出现频率高的词汇是停用词 排除停用词的优点:缩小索引结构的大小 排除停用词的缺点:降低查准率
词干提取 去除后缀 波特算法 标引词选择 自动选择名词词组
叙词表
叙词表指词库 预编译在指定知识领域中的重要单词表 此表中的相关词集中的相关单词是从同意关系中 派生出来的最一般的变形单词 叙词表的作用 为标引和检索提供标准化的词汇表或参照系统 帮助用户确定哪些词适合用语查询表达式 根据用户需要提供当前查询上位类和下位类的分 类层次
叙词表
叙词表中的标引词,即叙词表的索引单元 叙词表中的词间关系 信息检索中使用叙词表
文献聚类
文献聚类不是真正的文献操作而是文献集合 操作
倒排文档 词汇表 事件表 完全倒排 块寻址 检索 词汇表检索 事件表检索 事件表操作
标引与检索
标引与检索
构造 建立和维护一个倒排表索引 事件列表 +trie 树 算法性能的分析
标引与检索
后缀树和后缀数组 后缀树 后缀数组 在主存中构造后缀树 大型文本中后缀数组的构造 拆分 为块建立后缀数组 合并块后缀数组