藏文文本自动校对方法及系统设计

Transcript 藏文文本自动校对方法及系统设计

西南交通大学
西藏大学
藏文文本自动校对方法及系统设计
作者：珠杰，李天瑞
二0一三年十一月十八日
目
引言
藏文文本自动校对系统
藏文文本自动校对方法
测试
结论
录
一、引言
例子：
ས་སྐྱ་པཎྜི་ཏ་ཀུན་དགའ་རྒྱལ་མཚན་གྜི་གསུང་རྩོམ།།
梵音转写
藏文错误
拼写
错误
接续关系
错误
词语
错误
一、引言
•定义1：藏文音节拼写错误是指不符合藏文字性组织规则的无效藏文音节。
•例1：“གཅྜིག་”写成“གཆྜིག”，“སྩོང་”写成“སངྩོ ་”等。这些错误可能是由于人
为的输入错误，或者正字法知识的缺陷，造成的拼写错误。
•定义2：梵音转写藏文错误是指由音节点隔开的藏文字符串不符合梵音转写
藏文文法规则的无效梵音转写藏文。例2：“ཀརྨ་བཀའ་བརྒྱུད”写成了“ཀསྨ་བཀའ་བརྒྱུད་”
等。
•定义3：接续关系错误是指不符合藏文格助词、不自由虚词接续关系文法的
连接错误。例3：“བྩོ་བཟང་གྜིས་བཅད་”写成“བྩོ་བཟང་གྜིས་བཅད་”。
•定义4：词语搭配错误是指几个正确的藏文音节搭配成词语时，该词语不在
藏文词典集合中的无效藏文词语。
•例4：“ང་ན་ཚ་མེད། གཡག་རྔ་དཀར་ཤྜི་སྩོང་།”写成“ང་ན་ཚྭ་མེད། གཡག་ལྔ་ཀ་ཤྜི་སྩོང་།”等。
•定义5：语法语义错误是指不符合藏文语法结构规律或客观事理的句子错误
，包含了语法错误和逻辑错误。例5：“ཆུ་སྩོལ་ཤྜིག”写成“ཆུ་བསྩོལ་ཤྜིག”时态错误等
。
二、藏文文本自动校对系统——系统框架
• 藏文
接续
关系
检查
• 藏文音节拼写检查
变精度粗
优势粗
糙集模型
糙集模型
经典粗
糙集模型
• 藏文词语校对
模糊粗
邻域粗
糙集模型
糙集模型
• 藏文语法和语义检查
• 梵音
转写藏
文校对
二、藏文文本自动校对系统——拼写检查
A
B
二、藏文文本自动校对系统——自动校对算法
藏文文本自动校对算法：
输入：藏文文本内容
输出：校对结果文本
1.藏文音节拼写检查，若拼写正确，转到3，否则，转到2；
2.梵音转写藏文错误检查，若正确，转到5；否则做标记错误，并转
到5；
3.藏文的接续关系检查，若接续关系正确转到4，否则做标记错误，
并转到5；
4.藏文分词，匹配词典，若匹配成功转到5，否则标记错误标记，并
转到5；
5.输出校对结果
二、藏文文本自动校对系统——自动校对算法
输入藏文文本
• Y
• N
藏文音节拼写
是否正确？
• N
• N
• Y
梵音转写藏文
是否正确？
虚词接续关系
是否正确？
• Y
• N
藏文词语是否
正确？
标记错误
• Y
标记错误
输出校对结果文本
标记错误
二、藏文文本自动校对系统——自动校对算法
SpellCheker
-strSyllable : String
+SpellCheker() : Boolean
+Compare() : Boolean
Cheker
+syllable : String
-com1 : Boolean
-com1 : Boolean
+main() : void
+spellCheker() : Boolean
+Devanagant() : Boolean
+SegmentAndWord() : Boolean
Devanagant
-strErrorStr : String
-strOfDic : String
+Devanagant()
+MatchingDev() : Boolean
Compare
-subOfStr : String
-indexof : int
+Compare()
+compare1() : Boolean
+compare2() : Boolean
SyllepsesCheker
-srt : String
-dic : String
-index : int
+SyllepsesCheker()
+MatchingSyll() : Boolean
SegmentAndWordCheker
-strOf4Syllable : String
-index : int
+SegmentAndWordCheker()
+SyllepsesChecker() : Boolean
+JointChecker() : Boolean
+WordChecker() : Boolean
JointCheker
-srt : String
-dic : String
-index : int
+JointCheker()
+Joint() : Boolean
WordCheker
-srt : String
-dic : String
-index : int
+WordCheker()
+MatchingWord() : String
三、藏文文本自动校对方法——各个环节的校对方法
（1）藏文音节拼写检查：
利用藏文音节规则模型进行拼写检查，参考“TSRM的藏文拼写
检查算法”
（2）梵音转写藏文拼写检查方法：
采用词典匹配方法，13765个梵音转写藏文字典为依据，进行检
查。
三、藏文文本自动校对方法——藏文音节拼写检查
• 藏文音节模型-1
藏文音节模型-2
藏文音节模型-3
三、藏文文本自动校对方法——各个环节的校对方法
（3）藏文接续关系检查算法
首先需要识别集合P中后缀的不同类型和具体后缀字符；
其次需要识别集合X中格助词和不自由虚词；
最后判断是否满足接续关系函数xij=f(pi)。
三、藏文文本自动校对方法——各个环节的校对方法
表1
Table 1
后缀
（P ）
ག
ང
ད
ན
བ
མ
འ
འ
ར
ལ
ས
无
ནད
རད
ལད
属
格
助
词
作格
助词
གྜི་
གྜི་
ྜི་
གྜི་
ྜི
གྜི་
འྜི་
ཡྜི་
གྜི་
གྜི
ྜི་
འྜི་
ཡྜི་
གྜིས་
གྜིས་
ྜིས་
གྜིས་
སྜི ་
གྜིས་
འྜིས་
ཡྜིས་
གྜིས་
གྜིས་
སྜི ་
འྜིས་
ཡྜིས་
位
格
助
词
་
་
་
་
་
་
ར་
་
་
་
སུ་
ར་
་
་
་
་
藏文接续关系表
A table of Tibetan connective relation
饰
集
词
待
述
词
离
合
词
终
结
词
ང་
ཡང་
ང་
ཡང་
ང་
ཡང་
འང་
ཡང་
ཡང་
ཡང་
ང་
འང་
ཡང་
སེ་
སེ་
དེ་
ཏེ་
སེ་
སེ་
སེ་
གམ་
ངམ་
དམ་
ནམ་
བམ་
མམ་
འམ་
ཏེ་
ཏེ་
ཏེ་
སེ་
རམ་
ལམ་
སམ་
འམ་
གྩོ་
ངྩོ་
དྩོ་
ནྩོ་
བྩོ་
མྩོ་
འྩོ་
རྩོ་
རྩོ་
ལྩོ་
སྩོ་
འྩོ་
ཏེ་
ཏེ་
ཏེ་
ཏམ་
ཏམ་
ཏམ་
ཏྩོ་
ཏྩོ་
ཏྩོ་
时
态
助
词
གྜིན་
གྜིན་
ྜིན
གྜིན་
ྜིན
གྜིན་
ཡྜིན་
གྜིན་
གྜིན་
གྜིན་
ྜིན
ཡྜིན་
གྜིན་
[ ྜིང་]等虚词（X）
ཅྜིང་
ྜིང་
ཅྜིང་
ྜིང་
ཅྜིང་
ྜིང་
ྜིང་
ྜིང་
ྜིང་
ྜིང་
ཤྜིང་
ྜིང་
ཅེས་
ེས་
ཅེས་
ེས་
ཅེས་
ེས་
ེས་
ེས་
ེས་
ེས་
ཤེས་/ ེས་
ེས་
ཅེའྩོ་
ེའྩོ་
ཅེའྩོ་
ེའྩོ་
ཅེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ཤེའྩོ་
ེའྩོ་
ཅེ་ན་
ེ་ན་
ཅེ་ན་
ེ་ན་
ཅེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ཤེ་ན་
ེ་ན་
ཅྜིག་
ྜིག་
ཅྜིག་
ྜིག་
ཅྜིག་
ྜིག་
ྜིག་
ྜིག་
ྜིག་
ྜིག་
ཤྜིག་
ྜིག་
ཅྜིང་
ཅྜིང་
ཅྜིང་
ཅེས་
ཅེས་
ཅེས་
ཅེའྩོ་
ཅེའྩོ་
ཅེའྩོ་
ཅེ་ན་
ཅེ་ན་
ཅེ་ན་
ཅྜིག་
ཅྜིག་
ཅྜིག་
三、藏文文本自动校对方法——各个环节的校对方法
N
Y
false
xij=f(pi)？
输入 str、
index
Y
是否匹配虚
词？
N
结束
N
str 中提取
substr
substr 是否匹
true
配虚词兼类？
Y
三、藏文文本自动校对方法——各个环节的校对方法
（4）藏文词语错误检查方法
采用词典匹配，分词方法是用了正向最大匹配算法；
采用了197个虚词词典，2311个虚词兼类词典，133227个藏文词典。
四、测试
接续关系测试
系统测试
语料：“青海藏语广播网”的留言板中收集语料
评测方法：召回率、查准率、误判率
语料：“青海藏语广播网”的留言板中收集语料
评测方法：召回率、查准率、误判率
四、测试
接续关系测试：
1.2
1
0.8
召回率
0.6
查准率
0.4
判错率
0.2
0
1
2
3
4
5
6
四、测试
接续关系测试：
例子1：紧缩词的识别问题。
格助词和不自由虚词中“འྜི་འང་འམ་འྩོ་ས་ར་”紧缩词识别和还原，不仅存在识别的难度，还存在还原
的难度，更存在接续关系判断的难度，也是算法召回率和查准率降低的主要原因。例如：
“ངའྜི་མེ་ཏྩོག་”等。为了解决此问题，本文紧缩词的接续关系检查纳入到拼写检查模块中，然后进
行接续关系检查，但仍然存在“ས་ར་”的识别问题。表3的数据是改进后的测试结果。
例子2：无后加字的识别问题。
音节中由于没有后加字而算法直接去寻找基字或元音，如果音节中存在元音或者是纵向叠
加情况，在后加字的判断上不会存在问题；如果既无元音，又无叠加情况，基字又兼后加
字的时候，算法会在无后加字的判断上存在歧义。例如：“ང་ཡྜིས་གླུ་གཏང་།” 中“ང་”后加字还是基
字会出现判断失误。
例子3：2个后缀字符的识别问题。
在两个后缀字符的识别上，例如“བསནད་ ང་ ”、“ནད་ ང་”中，“ནད་ ང་”按2个后缀字符来对待处
理时，算法对此类语言现象的处理也是存在歧义的。
四、测试
系统测试：
分词错误、接续关系中后
缀字符识别错误，拼写检
查错误、各模块交叉错误
等。
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
召回率
查准率
判错率
1
2
3
4
5
6
五、结论
（1）基于规则的藏文文本校对方法
（2）研究：基于统计的方法和统计和规则相结合的方法
（3）研究：纠错方法
致谢

藏文文本自动校对方法及系统设计

Transcript 藏文文本自动校对方法及系统设计

Directory