資訊檢索期末報告 報告研讀論文:改進中文縮寫詞與原型詞配對率 作者
Download
Report
Transcript 資訊檢索期末報告 報告研讀論文:改進中文縮寫詞與原型詞配對率 作者
資訊檢索期末報告
報告研讀論文:改進中文縮寫詞與原型詞配對率
作者:國立雲林科技大學資訊管理系碩士班 蕭明華
資工碩一102598023黃凱笙
研究動機
現今因資訊普及越來越多新縮寫詞出現,根據統計一篇文章中一個句子出現縮寫詞
機率有20%,因此該論文目的找出文章中縮寫詞並進行配對
現有的原形縮寫配對精確率雖然有不錯結果但是在召回率上不大理想
該論文著重於在大量實驗資料下能改良精確率和召回率
研究目的及限制
建立自動配對縮寫詞和原型詞系統,並提升精確率和召回率
在縮寫詞和原型詞配對結果中取出一詞多型特色縮寫詞,增加使用者搜尋有更多參考
該論文只針對中文,不考慮中英混雜狀況
文獻探討
中文縮寫
中文斷詞
LCS
LCCS
中文縮寫
縮減法
刪去法
概括法
中文斷詞法
詞庫斷詞法
N-Gram斷詞法
混合斷詞法
LCS(Longest common subsequence)
找出最長共同子字串
例:X表示字串”abc” Y代表”acd” Z代表”a” L代表”ac”
LCCS(Longest common Consecutive
subsequence)
最長共同連續子字串
實驗方法
實驗流程
中文斷詞處理
挑選潛在縮寫詞及原型詞
潛在縮寫詞及原型詞配對
擷取多型縮寫詞
縮寫詞與原型詞配對權重設定
實驗流程
資料來源:YAHOO新聞六類別新聞分別為財經、國際、政治、生活、地方、社會
新聞資料存入資料庫並做斷詞處理,並將斷詞後字詞存入縮寫或原型資料庫
縮型詞以及原型詞配對實驗以及擷取多型縮寫詞實驗
中文斷詞處理
混合斷詞法
先以詞庫法斷詞完
再以N-Gram斷詞處理
長詞優先判斷,詞頻相同較小捨棄
挑選潛在縮寫詞及原型詞
過濾找出可能為縮寫字詞的字詞,當字詞大於4字原則考慮為潛在原型詞,字詞數為
2或3則考慮為潛在原型詞。
潛在縮寫詞及原型詞配對
縮寫字詞要都出現在原型字詞中
縮寫字須依照順序出現在原型
縮寫字元不可連續出現在原型字詞
擷取多型縮寫詞
一個縮寫詞可能對應多個原型字詞
透過配對兩次以上縮寫資料庫中取出多型縮寫詞
縮寫詞與原型詞配對權重設定
使用MR value來做為縮寫詞和原型詞配對的權重
實驗結果與分析
評估方法
資料來源
實驗介紹
評估方法
Recall ratio
Precision ration
F-Measure
資料來源
實驗介紹
MR計算結果
擷取多型縮寫詞
實驗驗證
MR計算結果
擷取多型縮寫詞
實驗驗證
實驗驗證
結論與未來展望
研究貢獻
未來研究方向
研究貢獻
混合斷詞法
高精確率縮寫詞和原型詞配對
擷取一詞多型
新的權重計算方式
未來研究
配對改良
縮寫詞和原型詞有多對一關係
資料庫加強
概括法也能加強