Document

Transcript Document

A Statistical Approach with Syntactic and
Semantic Features for Chinese Textual
Entailment
Author : Chun Tu 1, Min-Yuh Day
Source : Information Reuse and Integration (IRI), 2012 IEEE 13th
International Conference on
Date : 2014/9/29
Presenter : 曹昌林
1
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
2
文字蘊涵(Textual Entailment)(1)


文字蘊涵識別目標為給定一個句子對
(T1,T2)，系統能夠準確的推斷這兩句子
之間的蘊涵關係
應用於問答系統、資訊抽取、資訊檢索
、機器翻譯
文字蘊涵(Textual Entailment)(2)



Binary Class ：判別 T1 是否蘊含或推論
T2
Multi Class：將蘊涵關係分為五類，正向
蘊涵、反向蘊涵、雙向蘊涵、矛盾蘊涵
、獨立蘊涵
本論文將重心擺在Binary Class上面
處理文字蘊含-透過背景知識(1)

透過背景知識與邏輯推論



使用知識庫(wordnet)+邏輯推論
暗殺為殺的下義詞
Ex
A暗殺B -> A殺B
A謀殺B -> A殺B
5
處理文字蘊含-透過背景知識(2)

透過背景知識與向量空間模型



知識庫(wordnet)+向量空間模型
字詞對應向量
透過計算兩句的餘弦相似性(cosine
similarity)，來判定是否為改寫的句子
6
處理文字蘊含-不透過背景知識(1)

透過表面文字



將文字標示詞性
計算共同字數
BLEU計算句子相似度
7
處理文字蘊含-不透過背景知識(2)

看語法相似度

將句子經過parser剖析成樹再對其進行分析
8
處理文字蘊含-不透過背景知識(3)

透過機器學習(SVM)

將文字長度、共同長度等資料轉換成特徵向
量去學習區分各種文字蘊涵的類別，並建立
模型來預測未知的資料
9
Difficulty



中文無明顯斷詞，語意辨識難度上升
斷詞不好，結果也會不好
本論文提出結合語法與語意特徵的系統
結構
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
11
系統架構
前處理


處理訓練資料XML檔案
統一資料格式


Ex 1990、一九九零
CKIP斷詞處理
CKIP 中文斷詞系統

使用此系統做句子的斷詞處理
特徵提取(1)



T1字串長度(T1 String Length)
T2字串長度(T2 String Length)
字串長度差值(String Length Difference)


公式： T1 length-T2 length
字串長度比率(String Length Ratio)

公式： T1 length/T2 length
特徵提取(2)

最長共同子序列(Longest Common
Subsequence)

Word-Based Edit Distance

Ex:
T1：我喜歡打球
T2：我討厭打球
特徵提取(3)

T1 Token Length



T2 Token Length
Token Length 差值(Token Length
Difference)


Ex T1：二零零零年(N) 奧運(N) 在(P) 雪梨
(N) 舉辦(Vt)
定義： T1 Token Length- T2 Token Length
Token-Based Edit Distance

定義： T1 Token Length/T2 Token Length
17
特徵提取(4)

Token-Based Edit Distance



Ex T1：我(N) 喜歡(Vt) 打(Vt) 球(N)
T2：我(N) 討厭(Vt) 打(Vt) 球(N)
名詞數量
動詞數量
18
特徵提取(5)

詞彙語意相似度(Word Semantic
(Synonym) Similarity)


採用哈爾濱工業大學所整理的同義詞詞林，
每個單詞具有ID，而ID 相同的單詞彼此具
有同義詞關係
EX:Di01A01= 世界世世上大地天下天底
下全世界環球全球舉世中外寰宇五洲海
內海內外五湖四海大千世界大世界普天之
下
19
特徵提取(6)

改良同義詞查詢方式



TYCCL Scoring Function: ((t–r) + 1) / t
t:同義詞數量 r:詞彙在同義詞林中的排序
世界這詞在世界的同義詞中，相似度的值為
1
因此相似度越高表示文句之間越具有蘊涵關
係
20
特徵提取(7)

Ex：
T1：車諾比病毒在1999 年4 月總共造成超過
200 萬台電腦無法開機
T2：1999 年4 月車諾比病毒總共造成逾200 萬
台電腦無法開機

若只用語法特徵，會成為正向關係，但
加入語意特徵(同義詞)，會成為雙向關
係
21
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
22
Machine Learning

使用機器學習工具-libSVM





將要計算的特徵值轉成為libSVM 的格式
轉換出來的格式進行資料的訓練
利用訓練的資料建立出模型
利用模型進行預測答案以及測試準確率
使用兩種方式測試正確率


Open Test
K-Fold Cross Validation
23
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
Experiment Result(1)
Experiment Result(2)
26
Experiment Result(3)

參數與特徵值選擇並未最佳化，使用
libsvm的Grid.py與fselect.py作最佳化處理
27
Outline





Introduction
System architecture & Preprocessing
Machine Learning
Experiment Result
Conclusion
Conclusion


兩類系統提高準確率達到73.28%。
採用需透過背景知識所達成的方法之下
，加入語法特徵與語意特徵，增加準確
率

Document

Transcript Document

Directory