脱机中文手写识别

Download Report

Transcript 脱机中文手写识别

脱机中文手写识别
—从孤立汉字到真实文本
(申请
哈尔滨工业大学
博士研究生:苏
工学博士学位)
统
华
博士生导师:张田文教授
哈尔滨工业大学 计算机学院
二〇〇八年七月十六日
研究内容概要
识别技术
无切分和切分相结合的手写识别
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
多
层
次
处
理
LM纠错
判别学习
手写预处理
识
别
性
能
提
升
基于合成样本的数据稀疏克服方法
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
2
哈尔滨工业大学 计算机学院
研究内容概要
扩展关键技术
基本
关键
技术
基础关键数据
脱机中文手写识别—从孤立汉字到真实文本
3
哈尔滨工业大学 计算机学院
研究内容概要
识别技术
特
征
提
取
与
变
换
识
别
性
能
提
升
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
4
哈尔滨工业大学 计算机学院
研究内容概要
识别技术
无切分和切分相结合的手写识别
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
手写预处理
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
5
哈尔滨工业大学 计算机学院
目录
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
脱机中文手写识别—从孤立汉字到真实文本
6
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
7
哈尔滨工业大学 计算机学院
手写库评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
8
哈尔滨工业大学 计算机学院
手写库评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 英文手写库:




数字
字母
单词
句子
 中文手写库:
 孤立汉字
 实 际 需 求:
 真实手写文本
脱机中文手写识别—从孤立汉字到真实文本
9
哈尔滨工业大学 计算机学院
识别策略评述
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 英文:
 基于切分策略的识别系统
 基于无切分策略的识别系统
 单词整体(holistic)识别系统
 中文:
 基于切分策略的识别系统
 研究侧重点:
• 孤立汉字识别方面
• 基本没有涉及复杂手写对象
脱机中文手写识别—从孤立汉字到真实文本
10
哈尔滨工业大学 计算机学院
小结
1 研究依据
手写库评述
识别策略评述
小结
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
 手写汉字识别的未来需求:





文本级别的手写库
切分系统的重新检视
无切分系统的评估
性能评价体系
定位其中的真正问题
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
11
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
12
哈尔滨工业大学 计算机学院
总体过程
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
文本分割
Text Splitting
版面设计
Layout Design
样张收集
Form Collecting
手写样本扫描
Handwriting Scan
图像级预处理
Image Preprocessing
手写行提取
Textline Extraction
真值标记
Database Labeling
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
13
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
语言材料采样
1 研究依据
 数据源:人民日报语料
2 HIT-MW库
总体过程
手写样本扫描
 内建语言上下文
Handwriting Scan
文本分割
 方便未来扩展
Text Splitting
 根据语用分配样本数量图像级预处理
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
Image Preprocessing
版面设计
 分层随机采样策略
Layout Design
书写者抽样
Writer Sampling
4 切分识别
手写行分割
 04年1到10月新闻按月份划成10类
Textline Extraction
样张收集
 Form
每类内,等额非重复抽取25篇
Collecting
真值标记
Database Labeling
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
14
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
语言材料采样
1 研究依据
100
2 HIT-MW库
总体过程
书写者抽样
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
覆盖率(%)
语言材料采样
样本示例
手写样本扫描
Handwriting Scan
90
文本分割
80
Text Splitting
图像级预处理
Image Preprocessing
70版面设计
Layout Design
手写行分割
Textline Extraction
60
样张收集
Form
50 Collecting
真值标记
Database Labeling
5 无切分识别
40
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
100 700
手写样本收集阶段
Handwriting Collection
1300 手写库处理阶段
1900 2500 3041
Database Processing
字表大小(字数)
脱机中文手写识别—从孤立汉字到真实文本
15
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
 目标人群
2 HIT-MW库
 在校大学生
 高年级高中生
文本分割
Text Splitting
 政府公务人员
总体过程
语言材料采样
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
图像级预处理
Image Preprocessing
 目标人群确定理由
版面设计
 笔迹定型的证据
 减少抽样偏差
样张收集
Collecting
 Form
适合应用背景
 减少资源的开销
Layout Design
书写者抽样
Writer Sampling
4 切分识别
5 无切分识别
6 双策略组合
7 结论
手写样本扫描
Handwriting Scan
采样策略设计阶段
Sampling Design
手写行分割
Textline Extraction
真值标记
Database Labeling
 采样策略
手写样本收集阶段
手写库处理阶段
 全国分成南、中和北三个区域
Handwriting
Collection
Database Processing
 按照就近原则选择书写者
脱机中文手写识别—从孤立汉字到真实文本
16
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
理科生比例(%)
100
书写者抽样
样本示例
文本分割
Text Splitting
80
图像级预处理
61.37
Image Preprocessing
60.69
60
版面设计
Layout Design
手写行分割
Textline Extraction
40
样张收集
20
Form Collecting
真值标记
Database Labeling
0
5 无切分识别
采样数据
6 双策略组合
7 结论
手写样本扫描
Handwriting Scan
采样策略设计阶段
Sampling Design
脱机中文手写识别—从孤立汉字到真实文本
手写样本收集阶段
Handwriting Collection
17
04年统计数据
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
书写者抽样
1 研究依据
2 HIT-MW库
100
总体过程
书写者抽样
样本示例
语言材料采样
Text Sampling
手写行提取
授权使用者
3 文本识别评价
书写者抽样
Writer Sampling
4 切分识别
5 无切分识别
6 双策略组合
7 结论
采样策略设计阶段
Sampling Design
男性高中生、大学生比例 (%)
语言材料采样
手写样本扫描
采样数据
Handwriting Scan
98年统计数据
80 文本分割
Text Splitting
57.25 57.26
60 版面设计
Layout Design
40 样张收集
手写行分割
Textline Extraction
Form Collecting
真值标记
Database Labeling
20
手写样本收集阶段
Handwriting
Collection
0
高中
脱机中文手写识别—从孤立汉字到真实文本
图像级预处理
63.29
62.54
Image Preprocessing
18
手写库处理阶段
Database Processing
大学
哈尔滨工业大学 计算机学院
样本示例
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
19
哈尔滨工业大学 计算机学院
手写行提取
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
书写者抽样
样本示例
手写行提取
授权使用者
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 横笔划特征点提取
 数据量为原来的4%
 纠斜算法
 特征点旋转集
 角度投影
 判决规则
图像级预处理
Image Preprocessing
 水平投影法切分手写行
 得到5667个手写行
 共8677个手写行
手写样本收集阶段
 行边界的切分正确率72.51%
Handwriting Collection
脱机中文手写识别—从孤立汉字到真实文本
手写样本扫描
Handwriting Scan
20
手写行提取
Textline Extraction
真值标记
Database Labeling
手写库处理阶段
Database Processing
哈尔滨工业大学 计算机学院
手写行提取
1 研究依据
2 HIT-MW库
总体过程
语言材料采样
 中科院自动化所的进展
 最小生成树方法+距离学习算法
 匹配度90%时的检测率为95.02%
手写样本扫描
Handwriting Scan
书写者抽样
图像级预处理
Image Preprocessing
样本示例
手写行提取
授权使用者
手写行提取
Textline Extraction
3 文本识别评价
4 切分识别
真值标记
Database Labeling
5 无切分识别
6 双策略组合
手写库处理阶段
Database Processing
7 结论
脱机中文手写识别—从孤立汉字到真实文本
21
哈尔滨工业大学 计算机学院
HIT-MW库的使用者
脱机中文手写识别—从孤立汉字到真实文本
22
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
23
哈尔滨工业大学 计算机学院
实验数据集
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 第一步 随机抽取383幅手写行作为测试
集(共含8471字符)。
 第二步 在剩余5284幅手写行中,删去
与测试集中手写行同源(同一个书写者)的
全部手写行。执行删除操作后,3172幅手
写行保留下来,进入下一步处理。
 第三步 类似第一步,选择189幅手写行
作为验证集(共含4100字符)。
 第四步 进一步删除与验证集同源的手写
行(2306幅手写行保留下来)。
 第五步 随机在2306幅手写行中抽出953
份作为训练集(共含20701字符)。
脱机中文手写识别—从孤立汉字到真实文本
24
哈尔滨工业大学 计算机学院
实验数据集
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
25
哈尔滨工业大学 计算机学院
识别率
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 识别正确
D 删除错误
S 替换错误
I 插入错误
脱机中文手写识别—从孤立汉字到真实文本
 识别正确率RCR
 识别准确率RAR
26
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
5 无切分识别
6 双策略组合
7 结论
 Hong算法
 Liu算法
 改进:加入识别信度信息
脱机中文手写识别—从孤立汉字到真实文本
27
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
3 文本识别评价
Hong算法示例
实验数据集
识别率
字符切分率
4 切分识别
Liu算法示例
5 无切分识别
6 双策略组合
7 结论
 Ns表示切分正确的字符块
 Nb表示切分总块数
 Nt表示实际总块数
脱机中文手写识别—从孤立汉字到真实文本
28
哈尔滨工业大学 计算机学院
字符切分率
1 研究依据
2 HIT-MW库
 切分正确率SCR
3 文本识别评价
实验数据集
识别率
字符切分率
4 切分识别
 切分精确率SPR
5 无切分识别
6 双策略组合
7 结论
 切分偏差率SBR
脱机中文手写识别—从孤立汉字到真实文本
29
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
30
哈尔滨工业大学 计算机学院
总体结构
手写文本行
1 研究依据
字符切分
2 HIT-MW库
Hong算法
Liu算法
3 文本识别评价
4 切分识别
汉字图像
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
孤
预处理
立
汉
字
识
别
缩放比率:自适应 vs 固定
坐标变换:线性 vs 非线性
网格划分:均匀 vs 弹性
特征提取
/选择
Cell+FPF
梯度
en-FPF
模式分类
MPTM
MQDF2
字符
字符串
脱机中文手写识别—从孤立汉字到真实文本
31
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
 设计新的字符切分方法时,如果证据仅来
自一种矫形配置,其可信性可能并不成立
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
 设计新的特征时,如果证据仅来自一种矫
形配置,其可信性可能并不成立
6 双策略组合
7 结论
 设计新的分类器时,如果证据仅来自一种
矫形配置,其可信性可能并不成立
脱机中文手写识别—从孤立汉字到真实文本
32
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
 不同矫形手段构成8种配置
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
33
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
 差别
 RCR=0.95%
 RAR=0.82%
脱机中文手写识别—从孤立汉字到真实文本
34
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
 差别
 RCR=2.33%
 RAR=2.64%
脱机中文手写识别—从孤立汉字到真实文本
35
哈尔滨工业大学 计算机学院
手写矫形的新观点
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
 差别
 RCR=1.16%
 RAR=1.29 %
脱机中文手写识别—从孤立汉字到真实文本
36
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
 二次判别函数(QDF):
 源于Bayes分类理论
 假设类条件概率密度为高斯分布
 修改的QDF(MQDF2):
 假设给类别等概率出现
 修改协方差估计公式
• 对大的特征值仍采用最大似然估计
• 对小的特征值截止为
7 结论
 存在问题
脱机中文手写识别—从孤立汉字到真实文本
37
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
 加入先验信息
 可以从训练集估计
 也可以从大型语料库估计
 记作MQDF3
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
38
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
39
哈尔滨工业大学 计算机学院
改进MQDF分类器
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
 实验结论
 加入先验之后,六个系统有明显提升
 用语料库估计的先验更具稳定性
总体结构
矫形新观点
改进MQDF
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
40
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
41
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
42
哈尔滨工业大学 计算机学院
滑动窗
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
W
S
改进特征提取
6 双策略组合
7 结论
..., oi, oi+1, ...
脱机中文手写识别—从孤立汉字到真实文本
43
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
44
哈尔滨工业大学 计算机学院
拓扑结构
1 研究依据
2 HIT-MW库
3 文本识别评价
数字、标点等
HMM
4 切分识别
5 无切分识别
总体结构
滑动窗
汉字HMM
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
45
哈尔滨工业大学 计算机学院
核心概念
1 研究依据
2 HIT-MW库
手写行
3 文本识别评价
4 切分识别
o1 o 2 o3 .. .. .. oi .. .. .. oT
手写行的观测序列
5 无切分识别
总体结构
中文手写识别
滑动窗
手写行的标记真值
...
嵌入训练算法
“中”
解码算法
...
...
与切分方法比较
“别”
缓解数据不足
字符HMM
...
...
改进特征提取
6 双策略组合
中
文
手
写
识
别
语句HMM
7 结论
脱机中文手写识别—从孤立汉字到真实文本
46
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
...
...
...
...
...
3 文本识别评价
第q个HMM
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
...
...
i
与切分方法比较
j
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
47
哈尔滨工业大学 计算机学院
嵌入训练算法
1 研究依据
2 HIT-MW库
...
...
i
3 文本识别评价
j
4 切分识别
5 无切分识别
总体结构
滑动窗
...
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
48
哈尔滨工业大学 计算机学院
解码算法
1 研究依据
2 HIT-MW库
手写行
手写
真值
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
基于
滑动窗
的特征
提取
B-W
算法
性
能
字符
HMM
Viterbi
算法
字符串
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
49
哈尔滨工业大学 计算机学院
解码算法
1 研究依据
2 HIT-MW库
t时刻
t-1时刻
3 文本识别评价
...
4 切分识别
5 无切分识别
总体结构
...
滑动窗
i
j
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
50
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
 无切分系统
 特征: 四平面交叉特征+网格特征
 切分系统
 特征: 四平面交叉特征+网格特征
 分类器
• 多模板匹配法(MPTM)
• 改进的MQDF(MQDF3)
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
51
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
 80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
 12模板匹配法
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
52
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
 80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
 包含Box-Cox变换的MQDF3
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
53
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
 80维融合特征的无切分系统
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
 不含Box-Cox变换的MQDF3
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
54
哈尔滨工业大学 计算机学院
与切分系统的比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
 小结
 无切分识别策略具有巨大潜力
 同类型特征上的表现,无切分系统优于多模板匹配法
 同类型特征上的表现,无切分系统优于不含Box-Cox变
换的MQDF
 同类型特征上的表现,无切分系统劣于含Box-Cox变换
的MQDF
• 原因:无切分系统没有任何的矫形手段
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
55
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
 主成分分析(PCA)
 巨方差绑定方法(GVS)
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分方法比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
56
哈尔滨工业大学 计算机学院
缓解数据不足
16DCELL
64DFPF
80DFUS
36DPCA
36DGVS
脱机中文手写识别—从孤立汉字到真实文本
57
哈尔滨工业大学 计算机学院
缓解数据不足
脱机中文手写识别—从孤立汉字到真实文本
58
哈尔滨工业大学 计算机学院
缓解数据不足
脱机中文手写识别—从孤立汉字到真实文本
59
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
60
哈尔滨工业大学 计算机学院
缓解数据不足
1 研究依据
2 HIT-MW库
3 文本识别评价
 小结
 有效缓解数据不足问题对汉字识别至关重要
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
61
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
 竖平面记为VT
 更新公式:
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
 横平面记为HT
 撇平面RT
 捺平面LT
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
62
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
63
哈尔滨工业大学 计算机学院
改进特征提取
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
总体结构
滑动窗
嵌入训练算法
解码算法
与切分系统比较
 汉字识别率达到50%
缓解数据不足
改进特征提取
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
64
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别研究
5
基于无切分策略的文本识别研究
6
双策略组合的文本识别研究
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
65
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
66
哈尔滨工业大学 计算机学院
边界精化
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
67
哈尔滨工业大学 计算机学院
字符切分比较
1 研究依据
2 HIT-MW库
SCR比较
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
68
哈尔滨工业大学 计算机学院
识别比较
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
69
哈尔滨工业大学 计算机学院
总体结构
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
70
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
71
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
72
哈尔滨工业大学 计算机学院
信度公式
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
73
哈尔滨工业大学 计算机学院
识别结果
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
串行结构
并行结构
7 结论
脱机中文手写识别—从孤立汉字到真实文本
74
哈尔滨工业大学 计算机学院
目录
1 研究依据
1
研究依据
2
HIT-MW文本库的构建
3
文本识别的基本评价准则
4
基于切分策略的文本识别系统
5
基于无切分策略的文本识别系统
6
双策略组合的文本识别系统
7
结论
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
脱机中文手写识别—从孤立汉字到真实文本
75
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
1. 建立手写文本研究的基本评价体系
 为评价文本的识别优劣,定义了识别正确率和识别准确率。
两种准则可以有效刻画系统在删除错误、插入错误和替换错
误上的平衡能力。
 为了评价不同字符切分方法,定义了切分正确率、切分精确
率和切分偏差率等准则。综合应用这三种准则,可以发现切
分方法在数字、标点和汉字等不同字符类型上的切分能力以
及在过切分和弱切分上的偏向性。
2. 从全新角度构建HIT-MW库
 HIT-MW库是国际上首个文本级别的中文手写库,它的收集
成功昭示着手写文本时代的开端。
 大量的支撑证据表明,这些基础数据可以视为全体中文手写
文本的代表子集;其上的识别结果,具有统计意义。
 目前,该库已为十多家科研机构采用。
3. 提出基于无切分策略的中文手写识别思路并证
实其可行性
 训练时直接采用手写行,不需要对字符位置进行标记。
 可以刻画相邻字符间的连接关系。
脱机中文手写识别—从孤立汉字到真实文本
76
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
4. 无切分识别框架下提出增强的四平面交叉特征
(en-FPF)
 en-FPF的方向平面包含了重构原始图像的全部重要信息。
 en-FPF在融合了简单的网格特征,并结合主成分分析和数据
共享方法之后,对汉字的识别正确率,在训练数据稀疏的条
件下,仍超过50%。
5. 给出切分框架下手写矫形方面的指导意见
 设计新算法时,如果其支持证据仅依据于一种手写矫形配置
上表现出的优势,那么其可信性可能并不成立。
 理想的方案是比较待评价新、旧系统各自最优手写矫形配置
上的结果。
6. 给出切分框架下改进的MQDF分类器
 MQDF分类器需要改进,以加入先验概率信息。
 进一步的分析显示,采用大规模语料估计的先验信息比直接
从训练集估计的先验更具稳定性。
脱机中文手写识别—从孤立汉字到真实文本
77
哈尔滨工业大学 计算机学院
结论
1 研究依据
2 HIT-MW库
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
7. 扩展多分类器研究的内容和范围
 组合输出分别为一串类和单个类(或候选列表)的系统,提
高单个识别器的性能,是一个迄今仍未研究的问题。
 定义字符匹配率用以反映两系统在某个识别正确率上的互补
能力。
 分别设计了串行结构和并行结构的双策略组合系统。
脱机中文手写识别—从孤立汉字到真实文本
78
哈尔滨工业大学 计算机学院
结论
识别技术
1 研究依据
2 HIT-MW库
无切分和切分相结合的手写识别
3 文本识别评价
4 切分识别
5 无切分识别
6 双策略组合
7 结论
特
征
提
取
与
变
换
无切分识别
多
种
特
征
变
换
切分识别
特征提取
手写预处理
手写文本切分、识别的评价准则
非限定人的、非限制书写的中文手写文本库
基础数据及处理
脱机中文手写识别—从孤立汉字到真实文本
79
哈尔滨工业大学 计算机学院
致谢
 导师张田文教授
 各位评审专家
 所有提供无私帮助的人
 关德军、邓毅平、宋玲、张迪、夏辉、喻学才、谢海丹,孙
玉凤、苏灿、邵光金
 刘成林教授、金连文教授、丁晓青教授、付强博士、郭军教
授、张洪刚教授、黎运阳、殷飞、陈霞等
 李培华博士、马波博士、吴江华博士、张海英博士、王海晶
博士、全红艳博士、王晓华博士、陈冬、邱兆文、蔺想红、
王雪华、梅峰平、庞俊彪、江志勇、周宇、赵琦、刘小珍、
武斌博、苏先宇等
 张强博士、谢宗武博士、邱灵博士、李超、李彬、孟范伟、
刘力平、汪春等
 陈淑艳、宫美娜、张其顺、姜春晖等
 张牧、张新波、李金松等
 所有提供手写样本的朋友
 论文的匿名审稿人
脱机中文手写识别—从孤立汉字到真实文本
80
哈尔滨工业大学 计算机学院