讲座PPT下载

Transcript 讲座PPT下载

数字图像处理综合实验
案例五
印刷体汉字识别
本章要点




汉字识别简介
印刷体汉字识别发展
印刷体汉字识别系统设计
印刷体汉字图像预处理





二值化
去噪
行字切分
汉字特征提取
汉字识别
汉字识别



汉字识别是模式识别的重要应用领域，也
是光学字符识别OCR的重要组成部分。
汉字识别技术涉及到模式识别、图像处理
、人工智能、模糊数学、组合论、信息论、
计算机等多个学科，也涉及到语言文字学、
心理学等学科，是一门综合性的技术。
目前汉字识别技术已经呈现出了广泛的应用
前景，它主要应用在中文信息处理、办公室
自动化、机器翻译、人工智能等高技术领域
。
汉字识别

根据应用情况的不同，汉字识别分类:
联机（on-line）手写
手写汉字识别
脱机（off-line）手写
汉字识别
多体
印刷体汉字识别
单体
汉字识别
联机手写体:依靠电磁式或压电式等手写
输入板来完成的。书写时，笔在板上的
运动轨迹(在板上的坐标)被转化为一系
列的电信号，电信号可以串行地进入到
计算机中。从这些电信号我们可以比较
容易地抽取笔划和笔顺的信息。
汉字识别



印刷体识别
 最容易,本案例主要针对印刷体汉字识别。
 已经有了大量实际应用，图书馆数字化
联机手写体识别
 相对容易，大量应用
脱机手写体识别——最难
 脱机手写体数字的识别已有实际应用外，比
如邮政编码的自动识别
 汉字等文字的脱机手写体识别还处在实验室
阶段。
印刷体汉字识别发展
印刷体汉字的识别最早可以追溯到60年代。
1966年，IBM公司的Casey和Nagy发表了第一
篇关于印刷体汉字识别的论文，在这篇论文
中他们利用简单的模板匹配法识别了1000个
印刷体汉字。
70年代以来，日本学者做了许多工作。
印刷体汉字识别发展



我国对印刷体汉字识别的研究大致可以
分为三个阶段：
第一阶段：从70年代末期到80年代末期，
主要是算法和方案探索。
第二阶段：90年代初期，中文OCR由实验
室走向市场，初步实用。
第三阶段：也就是目前，主要是印刷汉字
识别技术和系统性能的提高，包括汉英双
语混排识别率的提高和稳健性的增强。
印刷体汉字识别系统设计
印刷体汉字识别系统的主要构成：
 图像预处理
 行字切分
 汉字特征提取
 汉字识别
印刷体汉字图片
图像预处理
二值化图片
文本行切分
行位置信息
文本字切分
单字
归一化
汉字特征提取
汉字识别
识别结果
图像预处理
图像预处理包括对去噪、倾斜校正。
少量的倾斜对行字切割和识别影响都不
大。倾斜严重时，相邻两行文字图像的
水平投影可能互相重叠，使它们之间的
空白间隙被填满而无法实现行切割。将
文字图像旋转适当的角度来解决。

二值化
文字二值化的基本要求是，二值化
后图像能忠实地再现原文字。具体
为：
 笔画中不出现空白；
 二值化后的笔画基本保持原来文
字的特征。
 应采用自动确定阈值的方法。

二值化
1．迭代阈值法
1)选择阈值T，通常可以选择图像的平均灰
度值来作为初始阈值；
2)通过初始阈值T，把图像的平均灰度值分
成两组R1和R2；
3)计算着两组平均灰度值μ1和μ2；
4)重新选择阈值T，新的T定义为：
T=(μ1+μ2)/2;
5)循环做第二步到第四步，直到两组的平
均灰度值不再发生改变。
二值化
2．二次定值法
1）选取初步阈值T1，根据阈值标记背景点
和前景点；
2）计算背景点的像素值的和以及前景点的
像素值的和；
3）求背景点的平均值和图像点的平均值，
以两个平均值的平均值T2作为二次阈值；
4）根据二次阈值对图像做二值化处理。

噪声消除
摄像头拍摄的图片不可避免地会出
现一些噪声，直接给特征提取和文
字识别带来困难。
 消除图像噪声的工作称之为图像平
滑或滤波。
 采用中值滤波，去噪。

汉字切分
 我国现在的汉字文本有横排版和
竖排版两种。
 本案例以横排版面为例说明行切
割、字切割的方法和所遇到的问
题。
汉字切分
汉字切分包括两方面的内容：行切分和字切分。
——将大幅的图像先切割为行


——从图象行中分离出单个字符
行切分：利用文字行间空白间隔造成的水平投影
空隙。
字切分：利用字与字之间的空白间隔在图像行垂
直投影上形成的空白间隙。
行切分
1）对汉字图片做水平投影，记录每行黑像素点的个
数并保存在数组里；
2）若从某行值大于一个试验常数，则可认为该行是
一汉字文本行的开始，即行上界。
3）同理，当出现满足条件的连续情况后突然出现一
系列小累加和甚至零值时，判定为行下界。
4）找到每行字符的上界，下界和高度信息并保存。
行切分
字切分
字切分比行切分困难得多：
（1）汉字中有相当数量二根字和三根字。如“八、北
、非川、排、衍”等。垂直投影内部会出现空白间隙
，单纯使用垂直投影空白间隙切分会产生误分。
（2）行间混有英文、数字、符号、和字间污点干扰。
 大致分为两个过程：首先是求出文字、符号或部件的
左右界线；其次是合并部件成为完整的汉字。

字切分
1）确定每个字的大体宽度cW，c为定常数
，一般取1～1.5之间，可以取=1.2。
2）确定左边界点，右边界点，计算设切分
以后最大宽度为W。
3）如果W小于cW，则认为该字需要与后一
个字合并，若合并后小于cW，继续取下
一个字，直到不满足条件。
归一化
大小归一化方法：先判断汉字点
阵的上下左右外边框，然后按比
例将汉字线性放大或缩小成规定
大小的点阵。
 本案例汉字的归一化大小为
48×48。

特征提取
本案例提取特征：粗网格特征和粗外围特征。
 粗网格特征提取过程：
1）首先求出文字的外边框；
2）把文字分割成n×n份，n通常取8；
粗网格特征体现了文字整体形状分布，但
抗笔画位置变动干扰的能力差。

特征提取
特征提取
p2i
p1i
粗外围特征提取过程：
1）从文字四边框各向对边扫描，计算最初与
文字笔划相碰的非文字部分的面积和全部面
积之比作为一次粗外围特征；
2）再将第二次与文字线相碰的非文字部分面
积和全部文字面积之比作为二次粗外围特征
一次粗外围特征反映了文字轮廓特征，
二次粗外围特征反映了文字内部结构。

相似性度量

考夫斯基距离（Minkowsky distance）

D ( X , G )    xi  g i
 i 1
m

q



当q＝1时，为常用的绝对值距离
m

当q＝2时，为欧式距离
D( X , G ) 
i 1

1/ q
xi  g i
特征识别
使用欧式距离作为相似性距离测度，印刷体汉字
识别的具体实现：
1）在字库选取与待测字符的粗外围特征距离最小
的M个；
2）在字库选取与待测字符的粗网格特征距离最小
的N个；
3）按照不同情况合并粗网格特征和粗外围特征特
征，计算新的距离；
4）最小的字即为和待测字最相似的字，记录字
库中最相似字的位置。

特征识别
特征识别
任务：对这个案例进一步分析
讨论一下
1）怎样校正位置？
2）怎样去噪？
3）怎样对汉字切分？
4）怎样提取汉字特征？
5）实现的流程的核心代码？
6）进一步改进方案？
印刷体汉字图片
图像预处理
二值化图片
文本行切分
行位置信息
文本字切分
单字
归一化
汉字特征提取
汉字识别
识别结果
汉字切分
汉字切分包括两方面的内容：行切分和字切分。
——将大幅的图像先切割为行


——从图象行中分离出单个字符
行切分：利用文字行间空白间隔造成的水平投影
空隙。
字切分：利用字与字之间的空白间隔在图像行垂
直投影上形成的空白间隙。
特征提取
特征提取
p2i
p1i

讲座PPT下载

Transcript 讲座PPT下载

Directory