Transcript 讲座PPT下载
数字图像处理综合实验 案例五 印刷体汉字识别 本章要点 汉字识别简介 印刷体汉字识别发展 印刷体汉字识别系统设计 印刷体汉字图像预处理 二值化 去噪 行字切分 汉字特征提取 汉字识别 汉字识别 汉字识别是模式识别的重要应用领域,也 是光学字符识别OCR的重要组成部分。 汉字识别技术涉及到模式识别、图像处理 、人工智能、模糊数学、组合论、信息论、 计算机等多个学科,也涉及到语言文字学、 心理学等学科,是一门综合性的技术。 目前汉字识别技术已经呈现出了广泛的应用 前景,它主要应用在中文信息处理、办公室 自动化、机器翻译、人工智能等高技术领域 。 汉字识别 根据应用情况的不同,汉字识别分类: 联机(on-line)手写 手写汉字识别 脱机(off-line)手写 汉字识别 多体 印刷体汉字识别 单体 汉字识别 联机手写体:依靠电磁式或压电式等手写 输入板来完成的。书写时,笔在板上的 运动轨迹(在板上的坐标)被转化为一系 列的电信号,电信号可以串行地进入到 计算机中。从这些电信号我们可以比较 容易地抽取笔划和笔顺的信息。 汉字识别 印刷体识别 最容易,本案例主要针对印刷体汉字识别。 已经有了大量实际应用,图书馆数字化 联机手写体识别 相对容易,大量应用 脱机手写体识别——最难 脱机手写体数字的识别已有实际应用外,比 如邮政编码的自动识别 汉字等文字的脱机手写体识别还处在实验室 阶段 。 印刷体汉字识别发展 印刷体汉字的识别最早可以追溯到60年代。 1966年,IBM公司的Casey和Nagy发表了第一 篇关于印刷体汉字识别的论文,在这篇论文 中他们利用简单的模板匹配法识别了1000个 印刷体汉字。 70年代以来,日本学者做了许多工作。 印刷体汉字识别发展 我国对印刷体汉字识别的研究大致可以 分为三个阶段: 第一阶段:从70年代末期到80年代末期, 主要是算法和方案探索。 第二阶段:90年代初期,中文OCR由实验 室走向市场,初步实用。 第三阶段:也就是目前,主要是印刷汉字 识别技术和系统性能的提高,包括汉英双 语混排识别率的提高和稳健性的增强。 印刷体汉字识别系统设计 印刷体汉字识别系统的主要构成: 图像预处理 行字切分 汉字特征提取 汉字识别 印刷体汉字图片 图像预处理 二值化图片 文本行切分 行位置信息 文本字切分 单字 归一化 汉字特征提取 汉字识别 识别结果 图像预处理 图像预处理包括对去噪、倾斜校正。 少量的倾斜对行字切割和识别影响都不 大。倾斜严重时,相邻两行文字图像的 水平投影可能互相重叠,使它们之间的 空白间隙被填满而无法实现行切割。将 文字图像旋转适当的角度来解决。 二值化 文字二值化的基本要求是,二值化 后图像能忠实地再现原文字。具体 为: 笔画中不出现空白; 二值化后的笔画基本保持原来文 字的特征。 应采用自动确定阈值的方法。 二值化 1.迭代阈值法 1)选择阈值T,通常可以选择图像的平均灰 度值来作为初始阈值; 2)通过初始阈值T,把图像的平均灰度值分 成两组R1和R2; 3)计算着两组平均灰度值μ1和μ2; 4)重新选择阈值T,新的T定义为: T=(μ1+μ2)/2; 5)循环做第二步到第四步,直到两组的平 均灰度值不再发生改变。 二值化 2.二次定值法 1)选取初步阈值T1,根据阈值标记背景点 和前景点; 2)计算背景点的像素值的和以及前景点的 像素值的和; 3)求背景点的平均值和图像点的平均值, 以两个平均值的平均值T2作为二次阈值; 4)根据二次阈值对图像做二值化处理。 噪声消除 摄像头拍摄的图片不可避免地会出 现一些噪声,直接给特征提取和文 字识别带来困难。 消除图像噪声的工作称之为图像平 滑或滤波。 采用中值滤波,去噪。 汉字切分 我国现在的汉字文本有横排版和 竖排版两种。 本案例以横排版面为例说明行切 割、字切割的方法和所遇到的问 题。 汉字切分 汉字切分包括两方面的内容:行切分和字切分。 ——将大幅的图像先切割为行 ——从图象行中分离出单个字符 行切分:利用文字行间空白间隔造成的水平投影 空隙。 字切分:利用字与字之间的空白间隔在图像行垂 直投影上形成的空白间隙。 行切分 1)对汉字图片做水平投影,记录每行黑像素点的个 数并保存在数组里; 2)若从某行值大于一个试验常数,则可认为该行是 一汉字文本行的开始,即行上界。 3)同理,当出现满足条件的连续情况后突然出现一 系列小累加和甚至零值时,判定为行下界。 4)找到每行字符的上界,下界和高度信息并保存。 行切分 字切分 字切分比行切分困难得多: (1)汉字中有相当数量二根字和三根字。如“八、北 、非川、排、衍”等。垂直投影内部会出现空白间隙 ,单纯使用垂直投影空白间隙切分会产生误分。 (2)行间混有英文、数字、符号、和字间污点干扰。 大致分为两个过程:首先是求出文字、符号或部件的 左右界线;其次是合并部件成为完整的汉字。 字切分 1)确定每个字的大体宽度cW,c为定常数 ,一般取1~1.5之间,可以取=1.2。 2)确定左边界点,右边界点,计算设切分 以后最大宽度为W。 3)如果W小于cW,则认为该字需要与后一 个字合并,若合并后小于cW,继续取下 一个字,直到不满足条件。 归一化 大小归一化方法:先判断汉字点 阵的上下左右外边框,然后按比 例将汉字线性放大或缩小成规定 大小的点阵。 本案例汉字的归一化大小为 48×48。 特征提取 本案例提取特征:粗网格特征和粗外围特征。 粗网格特征提取过程: 1)首先求出文字的外边框; 2)把文字分割成n×n份,n通常取8; 粗网格特征体现了文字整体形状分布,但 抗笔画位置变动干扰的能力差。 特征提取 特征提取 p2i p1i 粗外围特征提取过程: 1)从文字四边框各向对边扫描,计算最初与 文字笔划相碰的非文字部分的面积和全部面 积之比作为一次粗外围特征; 2)再将第二次与文字线相碰的非文字部分面 积和全部文字面积之比作为二次粗外围特征 一次粗外围特征反映了文字轮廓特征, 二次粗外围特征反映了文字内部结构。 相似性度量 考夫斯基距离(Minkowsky distance) D ( X , G ) xi g i i 1 m q 当q=1时,为常用的绝对值距离 m 当q=2时,为欧式距离 D( X , G ) i 1 1/ q xi g i 特征识别 使用欧式距离作为相似性距离测度,印刷体汉字 识别的具体实现: 1)在字库选取与待测字符的粗外围特征距离最小 的M个; 2)在字库选取与待测字符的粗网格特征距离最小 的N个; 3)按照不同情况合并粗网格特征和粗外围特征特 征,计算新的距离; 4) 最小的字即为和待测字最相似的字,记录字 库中最相似字的位置。 特征识别 特征识别 任务:对这个案例进一步分析 讨论一下 1)怎样校正位置? 2)怎样去噪? 3)怎样对汉字切分? 4)怎样提取汉字特征? 5)实现的流程的核心代码? 6)进一步改进方案? 印刷体汉字图片 图像预处理 二值化图片 文本行切分 行位置信息 文本字切分 单字 归一化 汉字特征提取 汉字识别 识别结果 汉字切分 汉字切分包括两方面的内容:行切分和字切分。 ——将大幅的图像先切割为行 ——从图象行中分离出单个字符 行切分:利用文字行间空白间隔造成的水平投影 空隙。 字切分:利用字与字之间的空白间隔在图像行垂 直投影上形成的空白间隙。 特征提取 特征提取 p2i p1i