Transcript 脱机中文手写识别
脱机中文手写识别
—从孤立汉字到真实文本
(申请
哈尔滨工业大学
博士研究生:苏
工学博士学位)
统
华
博士生导师:张田文教授
哈尔滨工业大学 计算机学院
二〇〇八年七月十六日
研究内容概要
识别技术
无切分和切分相结合的手写识别
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
多
层
次
处
理
LM纠错
判别学习
手写预处理
识
别
性
能
提
升
基于合成样本的数据稀疏克服方法
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
2
哈尔滨工业大学 计算机学院
研究内容概要
扩展关键技术
基本
关键
技术
基础关键数据
脱机中文手写识别—从孤立汉字到真实文本
3
哈尔滨工业大学 计算机学院
研究内容概要
识别技术
特
征
提
取
与
变
换
识
别
性
能
提
升
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
4
哈尔滨工业大学 计算机学院
研究内容概要
识别技术
无切分和切分相结合的手写识别
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
手写预处理
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
5
哈尔滨工业大学 计算机学院
目录
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
脱机中文手写识别—从孤立汉字到真实文本
6
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
7
哈尔滨工业大学 计算机学院
手写库评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
8
哈尔滨工业大学 计算机学院
手写库评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
英文手写库:
数字
字母
单词
句子
中文手写库:
孤立汉字
实 际 需 求:
真实手写文本
脱机中文手写识别—从孤立汉字到真实文本
9
哈尔滨工业大学 计算机学院
识别策略评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
英文:
基于切分策略的识别系统
基于无切分策略的识别系统
单词整体(holistic)识别系统
中文:
基于切分策略的识别系统
研究侧重点:
• 孤立汉字识别方面
• 基本没有涉及复杂手写对象
脱机中文手写识别—从孤立汉字到真实文本
10
哈尔滨工业大学 计算机学院
小结
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
手写汉字识别的未来需求:
文本级别的手写库
切分系统的重新检视
无切分系统的评估
性能评价体系
定位其中的真正问题
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
11
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
12
哈尔滨工业大学 计算机学院
总体过程
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
文本分割
Text Splitting
版面设计
Layout Design
样张收集
Form Collecting
手写样本扫描
Handwriting Scan
图像级预处理
Image Preprocessing
手写行提取
Textline Extraction
真值标记
Database Labeling
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
13
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
语言材料采样
1 研究依据
数据源:人民日报语料
2 HIT-MW库
总体过程
手写样本扫描
内建语言上下文
Handwriting Scan
文本分割
方便未来扩展
Text Splitting
根据语用分配样本数量图像级预处理
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
Image Preprocessing
版面设计
分层随机采样策略
Layout Design
书写者抽样
Writer Sampling
4 切分识别
手写行分割
04年1到10月新闻按月份划成10类
Textline Extraction
样张收集
Form
每类内,等额非重复抽取25篇
Collecting
真值标记
Database Labeling
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
14
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
语言材料采样
1 研究依据
100
2 HIT-MW库
总体过程
书写者抽样
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
覆盖率(%)
语言材料采样
样本示例
手写样本扫描
Handwriting Scan
90
文本分割
80
Text Splitting
图像级预处理
Image Preprocessing
70版面设计
Layout Design
手写行分割
Textline Extraction
60
样张收集
Form
50 Collecting
真值标记
Database Labeling
5 无切分识别
40
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
100 700
手写样本收集阶段
Handwriting Collection
1300 手写库处理阶段
1900 2500 3041
Database Processing
字表大小(字数)
脱机中文手写识别—从孤立汉字到真实文本
15
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
目标人群
2 HIT-MW库
在校大学生
高年级高中生
文本分割
Text Splitting
政府公务人员
总体过程
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
图像级预处理
Image Preprocessing
目标人群确定理由
版面设计
笔迹定型的证据
减少抽样偏差
样张收集
Collecting
Form
适合应用背景
减少资源的开销
Layout Design
书写者抽样
Writer Sampling
4 切分识别
5 无切分识别
6 双策略组合
7 结论
手写样本扫描
Handwriting Scan
采样策略设计阶段
Sampling Design
手写行分割
Textline Extraction
真值标记
Database Labeling
采样策略
手写样本收集阶段
手写库处理阶段
全国分成南、中和北三个区域
Handwriting
Collection
Database Processing
按照就近原则选择书写者
脱机中文手写识别—从孤立汉字到真实文本
16
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
理科生比例(%)
100
书写者抽样
样本示例
文本分割
Text Splitting
80
图像级预处理
61.37
Image Preprocessing
60.69
60
版面设计
Layout Design
手写行分割
Textline Extraction
40
样张收集
20
Form Collecting
真值标记
Database Labeling
0
5 无切分识别
采样数据
6 双策略组合
7 结论
手写样本扫描
Handwriting Scan
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
17
04年统计数据
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
2 HIT-MW库
100
总体过程
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
男性高中生、大学生比例 (%)
语言材料采样
手写样本扫描
采样数据
Handwriting Scan
98年统计数据
80 文本分割
Text Splitting
57.25 57.26
60 版面设计
Layout Design
40 样张收集
手写行分割
Textline Extraction
Form Collecting
真值标记
Database Labeling
20
手写样本收集阶段
Handwriting
Collection
0
高中
脱机中文手写识别—从孤立汉字到真实文本
图像级预处理
63.29
62.54
Image Preprocessing
18
手写库处理阶段
Database Processing
大学
哈尔滨工业大学 计算机学院
样本示例
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
19
哈尔滨工业大学 计算机学院
手写行提取
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
横笔划特征点提取
数据量为原来的4%
纠斜算法
特征点旋转集
角度投影
判决规则
图像级预处理
Image Preprocessing
水平投影法切分手写行
得到5667个手写行
共8677个手写行
手写样本收集阶段
行边界的切分正确率72.51%
Handwriting Collection
脱机中文手写识别—从孤立汉字到真实文本
手写样本扫描
Handwriting Scan
20
手写行提取
Textline Extraction
真值标记
Database Labeling
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
手写行提取
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
中科院自动化所的进展
最小生成树方法+距离学习算法
匹配度90%时的检测率为95.02%
手写样本扫描
Handwriting Scan
书写者抽样
图像级预处理
Image Preprocessing
样本示例
手写行提取
授权使用者
手写行提取
Textline Extraction
3 文本识别评价
4 切分识别
真值标记
Database Labeling
5 无切分识别
6 双策略组合
手写库处理阶段
Database Processing
7 结论
脱机中文手写识别—从孤立汉字到真实文本
21
哈尔滨工业大学 计算机学院
HIT-MW库的使用者
脱机中文手写识别—从孤立汉字到真实文本
22
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
23
哈尔滨工业大学 计算机学院
实验数据集
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
第一步 随机抽取383幅手写行作为测试
集(共含8471字符)。
第二步 在剩余5284幅手写行中,删去
与测试集中手写行同源(同一个书写者)的
全部手写行。执行删除操作后,3172幅手
写行保留下来,进入下一步处理。
第三步 类似第一步,选择189幅手写行
作为验证集(共含4100字符)。
第四步 进一步删除与验证集同源的手写
行(2306幅手写行保留下来)。
第五步 随机在2306幅手写行中抽出953
份作为训练集(共含20701字符)。
脱机中文手写识别—从孤立汉字到真实文本
24
哈尔滨工业大学 计算机学院
实验数据集
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
25
哈尔滨工业大学 计算机学院
识别率
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
识别正确
D 删除错误
S 替换错误
I 插入错误
脱机中文手写识别—从孤立汉字到真实文本
识别正确率RCR
识别准确率RAR
26
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
Hong算法
Liu算法
改进:加入识别信度信息
脱机中文手写识别—从孤立汉字到真实文本
27
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
3 文本识别评价
Hong算法示例
实验数据集
识别率
字符切分率
4 切分识别
Liu算法示例
5 无切分识别
6 双策略组合
7 结论
Ns表示切分正确的字符块
Nb表示切分总块数
Nt表示实际总块数
脱机中文手写识别—从孤立汉字到真实文本
28
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
切分正确率SCR
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
切分精确率SPR
5 无切分识别
6 双策略组合
7 结论
切分偏差率SBR
脱机中文手写识别—从孤立汉字到真实文本
29
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
30
哈尔滨工业大学 计算机学院
总体结构
手写文本行
1 研究依据
字符切分
2 HIT-MW库
Hong算法
Liu算法
3 文本识别评价
4 切分识别
汉字图像
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
孤
预处理
立
汉
字
识
别
缩放比率:自适应 vs 固定
坐标变换:线性 vs 非线性
网格划分:均匀 vs 弹性
特征提取
/选择
Cell+FPF
梯度
en-FPF
模式分类
MPTM
MQDF2
字符
字符串
脱机中文手写识别—从孤立汉字到真实文本
31
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
设计新的字符切分方法时,如果证据仅来
自一种矫形配置,其可信性可能并不成立
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
设计新的特征时,如果证据仅来自一种矫
形配置,其可信性可能并不成立
6 双策略组合
7 结论
设计新的分类器时,如果证据仅来自一种
矫形配置,其可信性可能并不成立
脱机中文手写识别—从孤立汉字到真实文本
32
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
不同矫形手段构成8种配置
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
33
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
差别
RCR=0.95%
RAR=0.82%
脱机中文手写识别—从孤立汉字到真实文本
34
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
差别
RCR=2.33%
RAR=2.64%
脱机中文手写识别—从孤立汉字到真实文本
35
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
差别
RCR=1.16%
RAR=1.29 %
脱机中文手写识别—从孤立汉字到真实文本
36
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
二次判别函数(QDF):
源于Bayes分类理论
假设类条件概率密度为高斯分布
修改的QDF(MQDF2):
假设给类别等概率出现
修改协方差估计公式
• 对大的特征值仍采用最大似然估计
• 对小的特征值截止为
7 结论
存在问题
脱机中文手写识别—从孤立汉字到真实文本
37
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
加入先验信息
可以从训练集估计
也可以从大型语料库估计
记作MQDF3
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
38
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
39
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
实验结论
加入先验之后,六个系统有明显提升
用语料库估计的先验更具稳定性
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
40
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
41
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
42
哈尔滨工业大学 计算机学院
滑动窗
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
W
S
改进特征提取
6 双策略组合
7 结论
..., oi, oi+1, ...
脱机中文手写识别—从孤立汉字到真实文本
43
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
44
哈尔滨工业大学 计算机学院
拓扑结构
1 研究依据
2 HIT-MW库
3 文本识别评价
数字、标点等
HMM
4 切分识别
5 无切分识别
总体结构
滑动窗
汉字HMM
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
45
哈尔滨工业大学 计算机学院
核心概念
1 研究依据
2 HIT-MW库
手写行
3 文本识别评价
4 切分识别
o1 o 2 o3 .. .. .. oi .. .. .. oT
手写行的观测序列
5 无切分识别
总体结构
中文手写识别
滑动窗
手写行的标记真值
...
嵌入训练算法
“中”
解码算法
...
...
与切分方法比较
“别”
缓解数据不足
字符HMM
...
...
改进特征提取
6 双策略组合
中
文
手
写
识
别
语句HMM
7 结论
脱机中文手写识别—从孤立汉字到真实文本
46
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
...
...
...
...
...
3 文本识别评价
第q个HMM
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
...
...
i
与切分方法比较
j
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
47
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
...
...
i
3 文本识别评价
j
4 切分识别
5 无切分识别
总体结构
滑动窗
...
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
48
哈尔滨工业大学 计算机学院
解码算法
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
49
哈尔滨工业大学 计算机学院
解码算法
1 研究依据
2 HIT-MW库
t时刻
t-1时刻
3 文本识别评价
...
4 切分识别
5 无切分识别
总体结构
...
滑动窗
i
j
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
50
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
无切分系统
特征: 四平面交叉特征+网格特征
切分系统
特征: 四平面交叉特征+网格特征
分类器
• 多模板匹配法(MPTM)
• 改进的MQDF(MQDF3)
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
51
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
12模板匹配法
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
52
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
包含Box-Cox变换的MQDF3
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
53
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
不含Box-Cox变换的MQDF3
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
54
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
小结
无切分识别策略具有巨大潜力
同类型特征上的表现,无切分系统优于多模板匹配法
同类型特征上的表现,无切分系统优于不含Box-Cox变
换的MQDF
同类型特征上的表现,无切分系统劣于含Box-Cox变换
的MQDF
• 原因:无切分系统没有任何的矫形手段
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
55
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
主成分分析(PCA)
巨方差绑定方法(GVS)
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
56
哈尔滨工业大学 计算机学院
缓解数据不足
16DCELL
64DFPF
80DFUS
36DPCA
36DGVS
脱机中文手写识别—从孤立汉字到真实文本
57
哈尔滨工业大学 计算机学院
缓解数据不足
脱机中文手写识别—从孤立汉字到真实文本
58
哈尔滨工业大学 计算机学院
缓解数据不足
脱机中文手写识别—从孤立汉字到真实文本
59
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
60
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
小结
有效缓解数据不足问题对汉字识别至关重要
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
61
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
竖平面记为VT
更新公式:
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
横平面记为HT
撇平面RT
捺平面LT
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
62
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
63
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
汉字识别率达到50%
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
64
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
65
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
66
哈尔滨工业大学 计算机学院
边界精化
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
67
哈尔滨工业大学 计算机学院
字符切分比较
1 研究依据
2 HIT-MW库
SCR比较
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
68
哈尔滨工业大学 计算机学院
识别比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
69
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
70
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
71
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
72
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
73
哈尔滨工业大学 计算机学院
识别结果
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
74
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别系统
5
基于无切分策略的文本识别系统
6
双策略组合的文本识别系统
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
75
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
1. 建立手写文本研究的基本评价体系
为评价文本的识别优劣,定义了识别正确率和识别准确率。
两种准则可以有效刻画系统在删除错误、插入错误和替换错
误上的平衡能力。
为了评价不同字符切分方法,定义了切分正确率、切分精确
率和切分偏差率等准则。综合应用这三种准则,可以发现切
分方法在数字、标点和汉字等不同字符类型上的切分能力以
及在过切分和弱切分上的偏向性。
2. 从全新角度构建HIT-MW库
HIT-MW库是国际上首个文本级别的中文手写库,它的收集
成功昭示着手写文本时代的开端。
大量的支撑证据表明,这些基础数据可以视为全体中文手写
文本的代表子集;其上的识别结果,具有统计意义。
目前,该库已为十多家科研机构采用。
3. 提出基于无切分策略的中文手写识别思路并证
实其可行性
训练时直接采用手写行,不需要对字符位置进行标记。
可以刻画相邻字符间的连接关系。
脱机中文手写识别—从孤立汉字到真实文本
76
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
4. 无切分识别框架下提出增强的四平面交叉特征
(en-FPF)
en-FPF的方向平面包含了重构原始图像的全部重要信息。
en-FPF在融合了简单的网格特征,并结合主成分分析和数据
共享方法之后,对汉字的识别正确率,在训练数据稀疏的条
件下,仍超过50%。
5. 给出切分框架下手写矫形方面的指导意见
设计新算法时,如果其支持证据仅依据于一种手写矫形配置
上表现出的优势,那么其可信性可能并不成立。
理想的方案是比较待评价新、旧系统各自最优手写矫形配置
上的结果。
6. 给出切分框架下改进的MQDF分类器
MQDF分类器需要改进,以加入先验概率信息。
进一步的分析显示,采用大规模语料估计的先验信息比直接
从训练集估计的先验更具稳定性。
脱机中文手写识别—从孤立汉字到真实文本
77
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
7. 扩展多分类器研究的内容和范围
组合输出分别为一串类和单个类(或候选列表)的系统,提
高单个识别器的性能,是一个迄今仍未研究的问题。
定义字符匹配率用以反映两系统在某个识别正确率上的互补
能力。
分别设计了串行结构和并行结构的双策略组合系统。
脱机中文手写识别—从孤立汉字到真实文本
78
哈尔滨工业大学 计算机学院
结论
识别技术
1 研究依据
2 HIT-MW库
无切分和切分相结合的手写识别
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
手写预处理
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
79
哈尔滨工业大学 计算机学院
致谢
导师张田文教授
各位评审专家
所有提供无私帮助的人
关德军、邓毅平、宋玲、张迪、夏辉、喻学才、谢海丹,孙
玉凤、苏灿、邵光金
刘成林教授、金连文教授、丁晓青教授、付强博士、郭军教
授、张洪刚教授、黎运阳、殷飞、陈霞等
李培华博士、马波博士、吴江华博士、张海英博士、王海晶
博士、全红艳博士、王晓华博士、陈冬、邱兆文、蔺想红、
王雪华、梅峰平、庞俊彪、江志勇、周宇、赵琦、刘小珍、
武斌博、苏先宇等
张强博士、谢宗武博士、邱灵博士、李超、李彬、孟范伟、
刘力平、汪春等
陈淑艳、宫美娜、张其顺、姜春晖等
张牧、张新波、李金松等
所有提供手写样本的朋友
论文的匿名审稿人
脱机中文手写识别—从孤立汉字到真实文本
80
哈尔滨工业大学 计算机学院