Transcript 5.蔡洽吾
qt一致性大赛算法描述 蔡 洽 吾 NLP Group ICT 23 September 2013 2 qt一致性大赛算法描述 My Tag 研二 NLP qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion 3 4 qt一致性大赛算法描述 Task Description Exp: A:诺贝尔文学奖是从什么时候开始? B:诺贝尔文学奖是怎么评选出来的? Semantic Textual Similarity & Paraphrase Detection Datasets: 训练集:800句 测试集:150000句,包括queries、titles和url资源 qt一致性大赛算法描述 Data Analysis 测试集中q和t一致的句对数:3000句左右 训练集和测试集重复的句对数:30句左右 •NE数量(人名、机构名、地方名、数词时间词): •4万多个 •平均每五行 •字、词分布 5 qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion 6 qt一致性大赛算法描述 Preprocessing • GB18030 UTF-8 • stop words • Split: • Segment: ICTCLAS • Word2vector: • Word Embedding -> word vector • Gensim: • TF-IDF: word weigiht • Topic Model: sentence vector 7 qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion 8 qt一致性大赛算法描述 Simple Try... sent1 -> [0, 0, 1, ..., 0, 1] sent2 -> [0, 0, 1, ..., 0, 1] •step1: •compute cos(sent1, sent2) •step2: •set threshold result: word: F: 45 split: F: 49 9 10 qt一致性大赛算法描述 Second Try... 噪声信道模型 •step1 : •GIZA: get p(fi, ej) •step2 : •set a threshold result: word: F: 49 split: F: 51 11 qt一致性大赛算法描述 Third Try... SVM Model : libsvm features: 1. 1-gram match 2. 2-gram match 3. tfidf-weight vector similarity 4. relative ic difference 5. number match 6. hownet similarity match 7. word-vector similarity 8. topic similarity 9. GIZA trans probability ....... result: word: F: 53 split: F: 56 12 qt一致性大赛算法描述 Combine Linear Regression GBRT Maxent qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion 13 qt一致性大赛算法描述 Postprocessing: strategy 1 • Intuition: • 如果单边有数字或英文,另一边应该也要有 adobe reader x 注 册 谁 说 adobe reader x 10.1.0 要 注 册 码 ? 根 本 不 用 。 戴尔灵越系列发热太严重怎么解决 戴 尔 灵 越 15r 显 卡 发 热 严 重 怎 么 处 理 14 qt一致性大赛算法描述 15 Postprocessing: strategy 2 • Intuition: • 如果单边有NE,另一边应该也要有 端午节高峰期 端午节去厦门玩,请问厦门大学学生公寓怎么样? 16 qt一致性大赛算法描述 Postprocessing: strategy 3 • Intuition: • 如果单边有固定用词的话,另一边也要有 • 如: w262 充 电 w262 不 充 电 • 又如: 2013 年 6 月 6 日 农 历 2013 年 6 月 1 日 结 婚 好 不 好 ? 农 历 是 4 月 23 日 , 懂 得 大 侠 指 • 又如: 舒淇演过多少部三些片 舒淇和外国的男演员共拍过几部电影分别是什么名字? qt一致性大赛算法描述 Outline • Task Description • Preprocess • My Solutions • Postprocessing • Experiments • Conclusion 17 18 qt一致性大赛算法描述 Experiment 方案 F值 baseline-word 45 baseline-split 50 GIZA-word 49 GIZA-split 52 SVM-word 53 SVM-split 56 combine 55 post+num_alpha 57 post+num_alpha_NE 58 post+num_alpha_NE_consistence 60 qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion 19 20 qt一致性大赛算法描述 Conclusion • • • • 对问题的调研和定位很重要 语料的分析很重要 头脑风暴很重要 细节的处理很重要 • 可扩展的工作: 词语归一化 设计适应于query的句法信息 使用外部知识库 半监督 :-) • • • • Thanks! qt一致性大赛算法描述 Reference 1. SemEval-2012 Task 6: A pilot on Semantic Textual Similarity 2. TakeLab: System for Measuring Semantic Text Similarity 3. Sematic Similarity for Short Text 4. From Frequency to Meaning: Vector Space Models of Semantics 21