Transcript 5.蔡洽吾

qt一致性大赛算法描述
蔡 洽 吾
NLP Group
ICT
23 September 2013
2
qt一致性大赛算法描述
My Tag
研二
NLP
qt一致性大赛算法描述
Outline
• Task Description
• Preprocessing
• My Solutions
• Postprocessing
• Experiments
• Conclusion
3
4
qt一致性大赛算法描述
Task Description
Exp:
A:诺贝尔文学奖是从什么时候开始?
B:诺贝尔文学奖是怎么评选出来的?
Semantic Textual Similarity & Paraphrase Detection
Datasets:
训练集:800句
测试集:150000句,包括queries、titles和url资源
qt一致性大赛算法描述
Data Analysis
测试集中q和t一致的句对数:3000句左右
训练集和测试集重复的句对数:30句左右
•NE数量(人名、机构名、地方名、数词时间词):
•4万多个
•平均每五行
•字、词分布
5
qt一致性大赛算法描述
Outline
• Task Description
• Preprocessing
• My Solutions
• Postprocessing
• Experiments
• Conclusion
6
qt一致性大赛算法描述
Preprocessing
• GB18030  UTF-8
• stop words
• Split:
• Segment: ICTCLAS
• Word2vector:
• Word Embedding -> word vector
• Gensim:
• TF-IDF: word weigiht
• Topic Model: sentence vector
7
qt一致性大赛算法描述
Outline
• Task Description
• Preprocessing
• My Solutions
• Postprocessing
• Experiments
• Conclusion
8
qt一致性大赛算法描述
Simple Try...
sent1 -> [0, 0, 1, ..., 0, 1]
sent2 -> [0, 0, 1, ..., 0, 1]
•step1:
•compute cos(sent1, sent2)
•step2:
•set threshold
result:
word: F: 45
split: F: 49
9
10
qt一致性大赛算法描述
Second Try...
噪声信道模型
•step1 :
•GIZA: get p(fi, ej)
•step2 :
•set a threshold
result:
word: F: 49
split: F: 51
11
qt一致性大赛算法描述
Third Try...
SVM Model : libsvm
features:
1. 1-gram match
2. 2-gram match
3. tfidf-weight vector similarity
4. relative ic difference
5. number match
6. hownet similarity match
7. word-vector similarity
8. topic similarity
9. GIZA trans probability
.......
result:
word: F: 53
split: F: 56
12
qt一致性大赛算法描述
Combine
Linear Regression
GBRT
Maxent
qt一致性大赛算法描述
Outline
• Task Description
• Preprocessing
• My Solutions
• Postprocessing
• Experiments
• Conclusion
13
qt一致性大赛算法描述
Postprocessing: strategy 1
• Intuition:
• 如果单边有数字或英文,另一边应该也要有
adobe reader x 注 册
谁 说 adobe reader x 10.1.0 要 注 册 码 ? 根 本 不 用 。
戴尔灵越系列发热太严重怎么解决
戴 尔 灵 越 15r 显 卡 发 热 严 重 怎 么 处 理
14
qt一致性大赛算法描述
15
Postprocessing: strategy 2
• Intuition:
• 如果单边有NE,另一边应该也要有
端午节高峰期
端午节去厦门玩,请问厦门大学学生公寓怎么样?
16
qt一致性大赛算法描述
Postprocessing: strategy 3
• Intuition:
• 如果单边有固定用词的话,另一边也要有
• 如:
w262 充 电
w262 不 充 电
• 又如:
2013 年 6 月 6 日 农 历
2013 年 6 月 1 日 结 婚 好 不 好 ? 农 历 是 4 月 23 日 , 懂 得 大 侠 指
• 又如:
舒淇演过多少部三些片
舒淇和外国的男演员共拍过几部电影分别是什么名字?
qt一致性大赛算法描述
Outline
• Task Description
• Preprocess
• My Solutions
• Postprocessing
• Experiments
• Conclusion
17
18
qt一致性大赛算法描述
Experiment
方案
F值
baseline-word
45
baseline-split
50
GIZA-word
49
GIZA-split
52
SVM-word
53
SVM-split
56
combine
55
post+num_alpha
57
post+num_alpha_NE
58
post+num_alpha_NE_consistence
60
qt一致性大赛算法描述
Outline
• Task Description
• Preprocessing
• My Solutions
• Postprocessing
• Experiments
• Conclusion
19
20
qt一致性大赛算法描述
Conclusion
•
•
•
•
对问题的调研和定位很重要
语料的分析很重要
头脑风暴很重要
细节的处理很重要
• 可扩展的工作:
词语归一化
设计适应于query的句法信息
使用外部知识库
半监督
:-)
•
•
•
•
Thanks!
qt一致性大赛算法描述
Reference
1. SemEval-2012 Task 6: A pilot on Semantic Textual Similarity
2. TakeLab: System for Measuring Semantic Text Similarity
3. Sematic Similarity for Short Text
4. From Frequency to Meaning: Vector Space Models of
Semantics
21