Transcript Document

A Statistical Approach with Syntactic and
Semantic Features for Chinese Textual
Entailment
Author : Chun Tu 1, Min-Yuh Day
Source : Information Reuse and Integration (IRI), 2012 IEEE 13th
International Conference on
Date : 2014/9/29
Presenter : 曹昌林
1
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
2
文字蘊涵(Textual Entailment)(1)


文字蘊涵識別目標為給定一個句子對
(T1,T2),系統能夠準確的推斷這兩句子
之間的蘊涵關係
應用於問答系統、資訊抽取、資訊檢索
、機器翻譯
文字蘊涵(Textual Entailment)(2)



Binary Class :判別 T1 是否 蘊含或推論
T2
Multi Class:將蘊涵關係分為五類,正向
蘊涵、反向蘊涵、雙向蘊涵、矛盾蘊涵
、獨立蘊涵
本論文將重心擺在Binary Class上面
處理文字蘊含-透過背景知識(1)

透過背景知識與邏輯推論



使用知識庫(wordnet)+邏輯推論
暗殺為殺的下義詞
Ex
A暗殺B -> A殺B
A謀殺B -> A殺B
5
處理文字蘊含-透過背景知識(2)

透過背景知識與向量空間模型



知識庫(wordnet)+向量空間模型
字詞對應向量
透過計算兩句的餘弦相似性(cosine
similarity),來判定是否為改寫的句子
6
處理文字蘊含-不透過背景知識(1)

透過表面文字



將文字標示詞性
計算共同字數
BLEU計算句子相似度
7
處理文字蘊含-不透過背景知識(2)

看語法相似度

將句子經過parser剖析成樹再對其進行分析
8
處理文字蘊含-不透過背景知識(3)

透過機器學習(SVM)

將文字長度、共同長度等資料轉換成特徵向
量去學習區分各種文字蘊涵的類別,並建立
模型來預測未知的資料
9
Difficulty



中文無明顯斷詞,語意辨識難度上升
斷詞不好,結果也會不好
本論文提出結合語法與語意特徵的系統
結構
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
11
系統架構
前處理


處理訓練資料XML檔案
統一資料格式


Ex 1990、一九九零
CKIP斷詞處理
CKIP 中文斷詞系統

使用此系統做句子的斷詞處理
特徵提取(1)



T1字串長度(T1 String Length)
T2字串長度(T2 String Length)
字串長度差值(String Length Difference)


公式: T1 length-T2 length
字串長度比率(String Length Ratio)

公式: T1 length/T2 length
特徵提取(2)

最長共同子序列(Longest Common
Subsequence)

Word-Based Edit Distance

Ex:
T1: 我喜歡打球
T2: 我討厭打球
特徵提取(3)

T1 Token Length



T2 Token Length
Token Length 差值(Token Length
Difference)


Ex T1: 二零零零年(N) 奧運(N) 在(P) 雪梨
(N) 舉辦(Vt)
定義: T1 Token Length- T2 Token Length
Token-Based Edit Distance

定義: T1 Token Length/T2 Token Length
17
特徵提取(4)

Token-Based Edit Distance



Ex T1: 我(N) 喜歡(Vt) 打(Vt) 球(N)
T2: 我(N) 討厭(Vt) 打(Vt) 球(N)
名詞數量
動詞數量
18
特徵提取(5)

詞彙語意相似度(Word Semantic
(Synonym) Similarity)


採用哈爾濱工業大學所整理的同義詞詞林,
每個單詞具有ID,而ID 相同的單詞彼此具
有同義詞關係
EX:Di01A01= 世界 世 世上 大地 天下 天底
下 全世界 環球 全球 舉世 中外 寰宇 五洲 海
內 海內外 五湖四海 大千世界 大世界 普天之
下
19
特徵提取(6)

改良同義詞查詢方式



TYCCL Scoring Function: ((t–r) + 1) / t
t:同義詞數量 r:詞彙在同義詞林中的排序
世界這詞在世界的同義詞中,相似度的值為
1
因此相似度越高表示文句之間越具有蘊涵關
係
20
特徵提取(7)

Ex:
T1: 車諾比病毒在1999 年4 月總共造成超過
200 萬台電腦無法開機
T2:1999 年4 月車諾比病毒總共造成逾200 萬
台電腦無法開機

若只用語法特徵,會成為正向關係,但
加入語意特徵(同義詞),會成為雙向關
係
21
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
22
Machine Learning

使用機器學習工具-libSVM





將要計算的特徵值轉成為libSVM 的格式
轉換出來的格式進行資料的訓練
利用訓練的資料建立出模型
利用模型進行預測答案以及測試準確率
使用兩種方式測試正確率


Open Test
K-Fold Cross Validation
23
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
Experiment Result(1)
Experiment Result(2)
26
Experiment Result(3)

參數與特徵值選擇並未最佳化,使用
libsvm的Grid.py與fselect.py作最佳化處理
27
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
Conclusion


兩類系統提高準確率達到73.28%。
採用需透過背景知識所達成的方法之下
,加入語法特徵與語意特徵,增加準確
率