Transcript Document
A Statistical Approach with Syntactic and Semantic Features for Chinese Textual Entailment Author : Chun Tu 1, Min-Yuh Day Source : Information Reuse and Integration (IRI), 2012 IEEE 13th International Conference on Date : 2014/9/29 Presenter : 曹昌林 1 Outline Introduction System architecture & Preprocessing Machine Learning Experiment Result Conclusion 2 文字蘊涵(Textual Entailment)(1) 文字蘊涵識別目標為給定一個句子對 (T1,T2),系統能夠準確的推斷這兩句子 之間的蘊涵關係 應用於問答系統、資訊抽取、資訊檢索 、機器翻譯 文字蘊涵(Textual Entailment)(2) Binary Class :判別 T1 是否 蘊含或推論 T2 Multi Class:將蘊涵關係分為五類,正向 蘊涵、反向蘊涵、雙向蘊涵、矛盾蘊涵 、獨立蘊涵 本論文將重心擺在Binary Class上面 處理文字蘊含-透過背景知識(1) 透過背景知識與邏輯推論 使用知識庫(wordnet)+邏輯推論 暗殺為殺的下義詞 Ex A暗殺B -> A殺B A謀殺B -> A殺B 5 處理文字蘊含-透過背景知識(2) 透過背景知識與向量空間模型 知識庫(wordnet)+向量空間模型 字詞對應向量 透過計算兩句的餘弦相似性(cosine similarity),來判定是否為改寫的句子 6 處理文字蘊含-不透過背景知識(1) 透過表面文字 將文字標示詞性 計算共同字數 BLEU計算句子相似度 7 處理文字蘊含-不透過背景知識(2) 看語法相似度 將句子經過parser剖析成樹再對其進行分析 8 處理文字蘊含-不透過背景知識(3) 透過機器學習(SVM) 將文字長度、共同長度等資料轉換成特徵向 量去學習區分各種文字蘊涵的類別,並建立 模型來預測未知的資料 9 Difficulty 中文無明顯斷詞,語意辨識難度上升 斷詞不好,結果也會不好 本論文提出結合語法與語意特徵的系統 結構 Outline Introduction System architecture & Preprocessing Machine Learning Experiment Result Conclusion 11 系統架構 前處理 處理訓練資料XML檔案 統一資料格式 Ex 1990、一九九零 CKIP斷詞處理 CKIP 中文斷詞系統 使用此系統做句子的斷詞處理 特徵提取(1) T1字串長度(T1 String Length) T2字串長度(T2 String Length) 字串長度差值(String Length Difference) 公式: T1 length-T2 length 字串長度比率(String Length Ratio) 公式: T1 length/T2 length 特徵提取(2) 最長共同子序列(Longest Common Subsequence) Word-Based Edit Distance Ex: T1: 我喜歡打球 T2: 我討厭打球 特徵提取(3) T1 Token Length T2 Token Length Token Length 差值(Token Length Difference) Ex T1: 二零零零年(N) 奧運(N) 在(P) 雪梨 (N) 舉辦(Vt) 定義: T1 Token Length- T2 Token Length Token-Based Edit Distance 定義: T1 Token Length/T2 Token Length 17 特徵提取(4) Token-Based Edit Distance Ex T1: 我(N) 喜歡(Vt) 打(Vt) 球(N) T2: 我(N) 討厭(Vt) 打(Vt) 球(N) 名詞數量 動詞數量 18 特徵提取(5) 詞彙語意相似度(Word Semantic (Synonym) Similarity) 採用哈爾濱工業大學所整理的同義詞詞林, 每個單詞具有ID,而ID 相同的單詞彼此具 有同義詞關係 EX:Di01A01= 世界 世 世上 大地 天下 天底 下 全世界 環球 全球 舉世 中外 寰宇 五洲 海 內 海內外 五湖四海 大千世界 大世界 普天之 下 19 特徵提取(6) 改良同義詞查詢方式 TYCCL Scoring Function: ((t–r) + 1) / t t:同義詞數量 r:詞彙在同義詞林中的排序 世界這詞在世界的同義詞中,相似度的值為 1 因此相似度越高表示文句之間越具有蘊涵關 係 20 特徵提取(7) Ex: T1: 車諾比病毒在1999 年4 月總共造成超過 200 萬台電腦無法開機 T2:1999 年4 月車諾比病毒總共造成逾200 萬 台電腦無法開機 若只用語法特徵,會成為正向關係,但 加入語意特徵(同義詞),會成為雙向關 係 21 Outline Introduction System architecture & Preprocessing Machine Learning Experiment Result Conclusion 22 Machine Learning 使用機器學習工具-libSVM 將要計算的特徵值轉成為libSVM 的格式 轉換出來的格式進行資料的訓練 利用訓練的資料建立出模型 利用模型進行預測答案以及測試準確率 使用兩種方式測試正確率 Open Test K-Fold Cross Validation 23 Outline Introduction System architecture & Preprocessing Machine Learning Experiment Result Conclusion Experiment Result(1) Experiment Result(2) 26 Experiment Result(3) 參數與特徵值選擇並未最佳化,使用 libsvm的Grid.py與fselect.py作最佳化處理 27 Outline Introduction System architecture & Preprocessing Machine Learning Experiment Result Conclusion Conclusion 兩類系統提高準確率達到73.28%。 採用需透過背景知識所達成的方法之下 ,加入語法特徵與語意特徵,增加準確 率