讲座PPT下载

Download Report

Transcript 讲座PPT下载

数字图像处理综合实验
案例五
印刷体汉字识别
本章要点




汉字识别简介
印刷体汉字识别发展
印刷体汉字识别系统设计
印刷体汉字图像预处理





二值化
去噪
行字切分
汉字特征提取
汉字识别
汉字识别



汉字识别是模式识别的重要应用领域,也
是光学字符识别OCR的重要组成部分。
汉字识别技术涉及到模式识别、图像处理
、人工智能、模糊数学、组合论、信息论、
计算机等多个学科,也涉及到语言文字学、
心理学等学科,是一门综合性的技术。
目前汉字识别技术已经呈现出了广泛的应用
前景,它主要应用在中文信息处理、办公室
自动化、机器翻译、人工智能等高技术领域
。
汉字识别

根据应用情况的不同,汉字识别分类:
联机(on-line)手写
手写汉字识别
脱机(off-line)手写
汉字识别
多体
印刷体汉字识别
单体
汉字识别
联机手写体:依靠电磁式或压电式等手写
输入板来完成的。书写时,笔在板上的
运动轨迹(在板上的坐标)被转化为一系
列的电信号,电信号可以串行地进入到
计算机中。从这些电信号我们可以比较
容易地抽取笔划和笔顺的信息。
汉字识别



印刷体识别
 最容易,本案例主要针对印刷体汉字识别。
 已经有了大量实际应用,图书馆数字化
联机手写体识别
 相对容易,大量应用
脱机手写体识别——最难
 脱机手写体数字的识别已有实际应用外,比
如邮政编码的自动识别
 汉字等文字的脱机手写体识别还处在实验室
阶段 。
印刷体汉字识别发展
印刷体汉字的识别最早可以追溯到60年代。
1966年,IBM公司的Casey和Nagy发表了第一
篇关于印刷体汉字识别的论文,在这篇论文
中他们利用简单的模板匹配法识别了1000个
印刷体汉字。
70年代以来,日本学者做了许多工作。
印刷体汉字识别发展



我国对印刷体汉字识别的研究大致可以
分为三个阶段:
第一阶段:从70年代末期到80年代末期,
主要是算法和方案探索。
第二阶段:90年代初期,中文OCR由实验
室走向市场,初步实用。
第三阶段:也就是目前,主要是印刷汉字
识别技术和系统性能的提高,包括汉英双
语混排识别率的提高和稳健性的增强。
印刷体汉字识别系统设计
印刷体汉字识别系统的主要构成:
 图像预处理
 行字切分
 汉字特征提取
 汉字识别
印刷体汉字图片
图像预处理
二值化图片
文本行切分
行位置信息
文本字切分
单字
归一化
汉字特征提取
汉字识别
识别结果
图像预处理
图像预处理包括对去噪、倾斜校正。
少量的倾斜对行字切割和识别影响都不
大。倾斜严重时,相邻两行文字图像的
水平投影可能互相重叠,使它们之间的
空白间隙被填满而无法实现行切割。将
文字图像旋转适当的角度来解决。

二值化
文字二值化的基本要求是,二值化
后图像能忠实地再现原文字。具体
为:
 笔画中不出现空白;
 二值化后的笔画基本保持原来文
字的特征。
 应采用自动确定阈值的方法。

二值化
1.迭代阈值法
1)选择阈值T,通常可以选择图像的平均灰
度值来作为初始阈值;
2)通过初始阈值T,把图像的平均灰度值分
成两组R1和R2;
3)计算着两组平均灰度值μ1和μ2;
4)重新选择阈值T,新的T定义为:
T=(μ1+μ2)/2;
5)循环做第二步到第四步,直到两组的平
均灰度值不再发生改变。
二值化
2.二次定值法
1)选取初步阈值T1,根据阈值标记背景点
和前景点;
2)计算背景点的像素值的和以及前景点的
像素值的和;
3)求背景点的平均值和图像点的平均值,
以两个平均值的平均值T2作为二次阈值;
4)根据二次阈值对图像做二值化处理。

噪声消除
摄像头拍摄的图片不可避免地会出
现一些噪声,直接给特征提取和文
字识别带来困难。
 消除图像噪声的工作称之为图像平
滑或滤波。
 采用中值滤波,去噪。

汉字切分
 我国现在的汉字文本有横排版和
竖排版两种。
 本案例以横排版面为例说明行切
割、字切割的方法和所遇到的问
题。
汉字切分
汉字切分包括两方面的内容:行切分和字切分。
——将大幅的图像先切割为行


——从图象行中分离出单个字符
行切分:利用文字行间空白间隔造成的水平投影
空隙。
字切分:利用字与字之间的空白间隔在图像行垂
直投影上形成的空白间隙。
行切分
1)对汉字图片做水平投影,记录每行黑像素点的个
数并保存在数组里;
2)若从某行值大于一个试验常数,则可认为该行是
一汉字文本行的开始,即行上界。
3)同理,当出现满足条件的连续情况后突然出现一
系列小累加和甚至零值时,判定为行下界。
4)找到每行字符的上界,下界和高度信息并保存。
行切分
字切分
字切分比行切分困难得多:
(1)汉字中有相当数量二根字和三根字。如“八、北
、非川、排、衍”等。垂直投影内部会出现空白间隙
,单纯使用垂直投影空白间隙切分会产生误分。
(2)行间混有英文、数字、符号、和字间污点干扰。
 大致分为两个过程:首先是求出文字、符号或部件的
左右界线;其次是合并部件成为完整的汉字。

字切分
1)确定每个字的大体宽度cW,c为定常数
,一般取1~1.5之间,可以取=1.2。
2)确定左边界点,右边界点,计算设切分
以后最大宽度为W。
3)如果W小于cW,则认为该字需要与后一
个字合并,若合并后小于cW,继续取下
一个字,直到不满足条件。
归一化
大小归一化方法:先判断汉字点
阵的上下左右外边框,然后按比
例将汉字线性放大或缩小成规定
大小的点阵。
 本案例汉字的归一化大小为
48×48。

特征提取
本案例提取特征:粗网格特征和粗外围特征。
 粗网格特征提取过程:
1)首先求出文字的外边框;
2)把文字分割成n×n份,n通常取8;
粗网格特征体现了文字整体形状分布,但
抗笔画位置变动干扰的能力差。

特征提取
特征提取
p2i
p1i
粗外围特征提取过程:
1)从文字四边框各向对边扫描,计算最初与
文字笔划相碰的非文字部分的面积和全部面
积之比作为一次粗外围特征;
2)再将第二次与文字线相碰的非文字部分面
积和全部文字面积之比作为二次粗外围特征
一次粗外围特征反映了文字轮廓特征,
二次粗外围特征反映了文字内部结构。

相似性度量

考夫斯基距离(Minkowsky distance)

D ( X , G )    xi  g i
 i 1
m

q



当q=1时,为常用的绝对值距离
m

当q=2时,为欧式距离
D( X , G ) 
i 1

1/ q
xi  g i
特征识别
使用欧式距离作为相似性距离测度,印刷体汉字
识别的具体实现:
1)在字库选取与待测字符的粗外围特征距离最小
的M个;
2)在字库选取与待测字符的粗网格特征距离最小
的N个;
3)按照不同情况合并粗网格特征和粗外围特征特
征,计算新的距离;
4) 最小的字即为和待测字最相似的字,记录字
库中最相似字的位置。

特征识别
特征识别
任务:对这个案例进一步分析
讨论一下
1)怎样校正位置?
2)怎样去噪?
3)怎样对汉字切分?
4)怎样提取汉字特征?
5)实现的流程的核心代码?
6)进一步改进方案?
印刷体汉字图片
图像预处理
二值化图片
文本行切分
行位置信息
文本字切分
单字
归一化
汉字特征提取
汉字识别
识别结果
汉字切分
汉字切分包括两方面的内容:行切分和字切分。
——将大幅的图像先切割为行


——从图象行中分离出单个字符
行切分:利用文字行间空白间隔造成的水平投影
空隙。
字切分:利用字与字之间的空白间隔在图像行垂
直投影上形成的空白间隙。
特征提取
特征提取
p2i
p1i