文献预处理

Download Report

Transcript 文献预处理

文本信息检索 文献预处理

文本聚类 文本压缩

 文本词汇分析  排除停用词  词干提取  标引词选择  叙词表

文献预处理

文本词汇分析

  词汇分析是将文本中的字符序列转换成单词序列的过程 主要任务:标识出文本中的单词  英文:识别数字,连字符,标点符号,字母大小写  中文:单汉字切分,相邻两个汉字切分,相邻三个汉字切分,采用 分词算法      Unigram 切分就是单汉字切分 ; Bigram 是相邻两个汉字组成一个切分单元 ; trigram 是相邻三个汉字组成一个切分单元 ; word 是采用分词算法进行分词,每一个词作为一个切分单元。 《信息处理用现代汉语分词规范》 

LUCENE

 中文分词技术和算法

排除停用词

 文本中出现频率高的词汇是停用词  排除停用词的优点:缩小索引结构的大小  排除停用词的缺点:降低查准率

 词干提取  去除后缀  波特算法  标引词选择  自动选择名词词组

叙词表

  叙词表指词库  预编译在指定知识领域中的重要单词表  此表中的相关词集中的相关单词是从同意关系中 派生出来的最一般的变形单词 叙词表的作用  为标引和检索提供标准化的词汇表或参照系统  帮助用户确定哪些词适合用语查询表达式  根据用户需要提供当前查询上位类和下位类的分 类层次

叙词表

 叙词表中的标引词,即叙词表的索引单元  叙词表中的词间关系  信息检索中使用叙词表

文献聚类

 文献聚类不是真正的文献操作而是文献集合 操作

 倒排文档  词汇表  事件表  完全倒排  块寻址  检索  词汇表检索  事件表检索  事件表操作

标引与检索

标引与检索

 构造  建立和维护一个倒排表索引   事件列表 +trie 树 算法性能的分析

标引与检索

 后缀树和后缀数组  后缀树  后缀数组  在主存中构造后缀树  大型文本中后缀数组的构造  拆分  为块建立后缀数组  合并块后缀数组