藏文文本自动校对方法及系统设计

Download Report

Transcript 藏文文本自动校对方法及系统设计

西南交通大学
西藏大学
藏文文本自动校对方法及系统设计
作 者:珠杰,李天瑞
二0一三年十一月十八日
目
引言
藏文文本自动校对系统
藏文文本自动校对方法
测试
结论
录
一 、引言
例子:
ས་སྐྱ་པཎྜི་ཏ་ཀུན་དགའ་རྒྱལ་མཚན་གྜི་གསུང་རྩོམ།།
梵音转写
藏文错误
拼写
错误
接续关系
错误
词语
错误
一 、引言
•定义1:藏文音节拼写错误是指不符合藏文字性组织规则的无效藏文音节。
•例1:“གཅྜིག་”写成“གཆྜིག”,“སྩོང་”写成“སངྩོ ་”等。这些错误可能是由于人
为的输入错误,或者正字法知识的缺陷,造成的拼写错误。
•定义2:梵音转写藏文错误是指由音节点隔开的藏文字符串不符合梵音转写
藏文文法规则的无效梵音转写藏文。例2:“ཀརྨ་བཀའ་བརྒྱུད”写成了“ཀསྨ་བཀའ་བརྒྱུད་”
等。
•定义3:接续关系错误是指不符合藏文格助词、不自由虚词接续关系文法的
连接错误。例3:“བྩོ་བཟང་གྜིས་བཅད་”写成“བྩོ་བཟང་གྜིས་བཅད་”。
•定义4:词语搭配错误是指几个正确的藏文音节搭配成词语时,该词语不在
藏文词典集合中的无效藏文词语。
•例4:“ང་ན་ཚ་མེད། གཡག་རྔ་དཀར་ཤྜི་སྩོང་།”写成“ང་ན་ཚྭ་མེད། གཡག་ལྔ་ཀ་ཤྜི་སྩོང་།”等。
•定义5:语法语义错误是指不符合藏文语法结构规律或客观事理的句子错误
,包含了语法错误和逻辑错误。例5:“ཆུ་སྩོལ་ཤྜིག”写成“ཆུ་བསྩོལ་ཤྜིག”时态错误等
。
二、藏文文本自动校对系统——系统框架
• 藏文
接续
关系
检查
• 藏文音节拼写检查
变精度粗
优势粗
糙集模型
糙集模型
经典粗
糙集模型
• 藏文词语校对
模糊粗
邻域粗
糙集模型
糙集模型
• 藏文语法和语义检查
• 梵音
转写藏
文校对
二、藏文文本自动校对系统——拼写检查
A
B
二、藏文文本自动校对系统——自动校对算法
藏文文本自动校对算法:
输入:藏文文本内容
输出:校对结果文本
1.藏文音节拼写检查,若拼写正确,转到3,否则,转到2;
2.梵音转写藏文错误检查,若正确,转到5;否则做标记错误,并转
到5;
3.藏文的接续关系检查,若接续关系正确转到4,否则做标记错误,
并转到5;
4.藏文分词,匹配词典,若匹配成功转到5,否则标记错误标记,并
转到5;
5.输出校对结果
二、藏文文本自动校对系统——自动校对算法
输入藏文文本
• Y
• N
藏文音节拼写
是否正确?
• N
• N
• Y
梵音转写藏文
是否正确?
虚词接续关系
是否正确?
• Y
• N
藏文词语是否
正确?
标记错误
• Y
标记错误
输出校对结果文本
标记错误
二、藏文文本自动校对系统——自动校对算法
SpellCheker
-strSyllable : String
+SpellCheker() : Boolean
+Compare() : Boolean
Cheker
+syllable : String
-com1 : Boolean
-com1 : Boolean
+main() : void
+spellCheker() : Boolean
+Devanagant() : Boolean
+SegmentAndWord() : Boolean
Devanagant
-strErrorStr : String
-strOfDic : String
+Devanagant()
+MatchingDev() : Boolean
Compare
-subOfStr : String
-indexof : int
+Compare()
+compare1() : Boolean
+compare2() : Boolean
SyllepsesCheker
-srt : String
-dic : String
-index : int
+SyllepsesCheker()
+MatchingSyll() : Boolean
SegmentAndWordCheker
-strOf4Syllable : String
-index : int
+SegmentAndWordCheker()
+SyllepsesChecker() : Boolean
+JointChecker() : Boolean
+WordChecker() : Boolean
JointCheker
-srt : String
-dic : String
-index : int
+JointCheker()
+Joint() : Boolean
WordCheker
-srt : String
-dic : String
-index : int
+WordCheker()
+MatchingWord() : String
三、藏文文本自动校对方法——各个环节的校对方法
(1)藏文音节拼写检查:
利用藏文音节规则模型进行拼写检查,参考“TSRM的藏文拼写
检查算法”
(2)梵音转写藏文拼写检查方法:
采用词典匹配方法,13765个梵音转写藏文字典为依据,进行检
查。
三、藏文文本自动校对方法——藏文音节拼写检查
• 藏文音节模型-1
藏文音节模型-2
藏文音节模型-3
三、藏文文本自动校对方法——各个环节的校对方法
(3)藏文接续关系检查算法
首先需要识别集合P中后缀的不同类型和具体后缀字符;
其次需要识别集合X中格助词和不自由虚词;
最后判断是否满足接续关系函数xij=f(pi)。
三、藏文文本自动校对方法——各个环节的校对方法
表1
Table 1
后缀
(P )
ག
ང
ད
ན
བ
མ
འ
འ
ར
ལ
ས
无
ནད
རད
ལད
属
格
助
词
作格
助词
གྜི་
གྜི་
ྜི་
གྜི་
ྜི
གྜི་
འྜི་
ཡྜི་
གྜི་
གྜི
ྜི་
འྜི་
ཡྜི་
གྜིས་
གྜིས་
ྜིས་
གྜིས་
སྜི ་
གྜིས་
འྜིས་
ཡྜིས་
གྜིས་
གྜིས་
སྜི ་
འྜིས་
ཡྜིས་
位
格
助
词
་
་
་
་
་
་
ར་
་
་
་
སུ་
ར་
་
་
་
་
藏文接续关系表
A table of Tibetan connective relation
饰
集
词
待
述
词
离
合
词
终
结
词
ང་
ཡང་
ང་
ཡང་
ང་
ཡང་
འང་
ཡང་
ཡང་
ཡང་
ང་
འང་
ཡང་
སེ་
སེ་
དེ་
ཏེ་
སེ་
སེ་
སེ་
གམ་
ངམ་
དམ་
ནམ་
བམ་
མམ་
འམ་
ཏེ་
ཏེ་
ཏེ་
སེ་
རམ་
ལམ་
སམ་
འམ་
གྩོ་
ངྩོ་
དྩོ་
ནྩོ་
བྩོ་
མྩོ་
འྩོ་
རྩོ་
རྩོ་
ལྩོ་
སྩོ་
འྩོ་
ཏེ་
ཏེ་
ཏེ་
ཏམ་
ཏམ་
ཏམ་
ཏྩོ་
ཏྩོ་
ཏྩོ་
时
态
助
词
གྜིན་
གྜིན་
ྜིན
གྜིན་
ྜིན
གྜིན་
ཡྜིན་
གྜིན་
གྜིན་
གྜིན་
ྜིན
ཡྜིན་
གྜིན་
[ ྜིང་]等虚词 (X)
ཅྜིང་
ྜིང་
ཅྜིང་
ྜིང་
ཅྜིང་
ྜིང་
ྜིང་
ྜིང་
ྜིང་
ྜིང་
ཤྜིང་
ྜིང་
ཅེས་
ེས་
ཅེས་
ེས་
ཅེས་
ེས་
ེས་
ེས་
ེས་
ེས་
ཤེས་/ ེས་
ེས་
ཅེའྩོ་
ེའྩོ་
ཅེའྩོ་
ེའྩོ་
ཅེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ེའྩོ་
ཤེའྩོ་
ེའྩོ་
ཅེ་ན་
ེ་ན་
ཅེ་ན་
ེ་ན་
ཅེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ེ་ན་
ཤེ་ན་
ེ་ན་
ཅྜིག་
ྜིག་
ཅྜིག་
ྜིག་
ཅྜིག་
ྜིག་
ྜིག་
ྜིག་
ྜིག་
ྜིག་
ཤྜིག་
ྜིག་
ཅྜིང་
ཅྜིང་
ཅྜིང་
ཅེས་
ཅེས་
ཅེས་
ཅེའྩོ་
ཅེའྩོ་
ཅེའྩོ་
ཅེ་ན་
ཅེ་ན་
ཅེ་ན་
ཅྜིག་
ཅྜིག་
ཅྜིག་
三、藏文文本自动校对方法——各个环节的校对方法
N
Y
false
xij=f(pi)?
输入 str、
index
Y
是否匹配虚
词?
N
结束
N
str 中提取
substr
substr 是否匹
true
配虚词兼类?
Y
三、藏文文本自动校对方法——各个环节的校对方法
(4)藏文词语错误检查方法
采用词典匹配,分词方法是用了正向最大匹配算法;
采用了197个虚词词典,2311个虚词兼类词典,133227个藏文词典。
四、测试
接续关系测试
系统测试
语料:“青海藏语广播网”的留言板中收集语料
评测方法:召回率、查准率、误判率
语料:“青海藏语广播网”的留言板中收集语料
评测方法:召回率、查准率、误判率
四、测试
接续关系测试:
1.2
1
0.8
召回率
0.6
查准率
0.4
判错率
0.2
0
1
2
3
4
5
6
四、测试
接续关系测试:
例子1:紧缩词的识别问题。
格助词和不自由虚词中“འྜི་འང་འམ་འྩོ་ས་ར་”紧缩词识别和还原,不仅存在识别的难度,还存在还原
的难度,更存在接续关系判断的难度,也是算法召回率和查准率降低的主要原因。例如:
“ངའྜི་མེ་ཏྩོག་”等。为了解决此问题,本文紧缩词的接续关系检查纳入到拼写检查模块中,然后进
行接续关系检查,但仍然存在“ས་ར་”的识别问题。表3的数据是改进后的测试结果。
例子2:无后加字的识别问题。
音节中由于没有后加字而算法直接去寻找基字或元音,如果音节中存在元音或者是纵向叠
加情况,在后加字的判断上不会存在问题;如果既无元音,又无叠加情况,基字又兼后加
字的时候,算法会在无后加字的判断上存在歧义。例如:“ང་ཡྜིས་གླུ་གཏང་།” 中“ང་”后加字还是基
字会出现判断失误。
例子3:2个后缀字符的识别问题。
在两个后缀字符的识别上,例如“བསནད་ ང་ ”、“ནད་ ང་”中,“ནད་ ང་”按2个后缀字符来对待处
理时,算法对此类语言现象的处理也是存在歧义的。
四、测试
系统测试:
分词错误、接续关系中后
缀字符识别错误,拼写检
查错误、各模块交叉错误
等。
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
召回率
查准率
判错率
1
2
3
4
5
6
五、结论
(1)基于规则的藏文文本校对方法
(2)研究:基于统计的方法和统计和规则相结合的方法
(3)研究:纠错方法
致 谢