研究所における研究

Download Report

Transcript 研究所における研究

電子技術総合研究所における
研究
文字認識に関連する研究
1. 正規化
2. 観測
3. 印字品質評価
1
文字認識装置のモデル
文
字
観
測
前
処
理
特
徴
抽
出
識
別
結
果
2
1. 前処理(正規化)方式の検討
《意図/背景》
• 文字パターンの濃淡,伸縮,回転は認識
に無関係である.
• 一定の濃さ,大きさ,方向に揃え,認識
性能の向上を図る.
3
1. 前処理(正規化)方式の検討
《方法》
• 観測された文字パターンのモーメント
を用いて自動的に正規化する.
4
モーメント-1
• 0次,1次,…モーメントが定義される.
• 文字パターンは紙の上に描かれている.
• 文字の背景の白い部分は質量ゼロ,文字ス
トロークの黒部分は濃淡に応じた質量がある
と考える.
5
モーメント-2
• 0次モーメント:重さ
→濃淡の正規化に利用
• 1次モーメント:重心
→位置の正規化に利用
• 2次モーメント(3種類):
水平/垂直方向の拡がり量
→大きさの正規化に利用
主軸の方向
→回転の正規化に利用
6
自動正規化の例−位置の正規化−
観測パターン
正規化後
7
自動正規化回路の基礎方程式
f(x, y, t): 時刻tにおける文字パターン
とするとき,
f  x , y, t  f  x , y, 0  

t
0
C  Op f  x , y, tdt
ここで
C: 制御量
Op: 微分演算子
8
自動正規化回路の基本構成
太い線は2次元パターン(ベクトル量)
9
微分演算子Opと制御量C
正規化要素
微分演算子Op
制御量C
濃 淡
1
 f  x, y, t dx dy  1

 x f  x, y, t dx dy
位置-水平
x

位置-垂直
伸 縮
回 転
R
R
 y f  x, y, t dx dy
y
x
x

x

y
R
y
y

y

x
  x  y  f  x, y, t dx dy  1
2
2
R
 xy f  x, y, t dx dy
R
10
1. 前処理(正規化)方式の検討
《明らかになったこと》
• 積分微分方程式の形の式を誘導
• アナログ計算機が使えそう
11
1. 前処理(正規化)方式の検討
《社会への貢献》《その他》
• 正規化/前処理の重要性の喚起
• 自分自身の勉強
12
2. 位置自動正規化装置
(1次元5点モデル)の試作
《意図/背景》
自動正規化方式のアナログ回路による実
現可能性の検証
13
自動位置正規化回路-基本要素
14
試作した装置
15
2. 位置自動正規化装置
(1次元5点モデル)の試作
《明らかになったこと》
乗算器の精度向上が鍵
16
2. 位置自動正規化装置
(1次元5点モデル)の試作
《社会への貢献》
アナログ回路の不安定さの再認識
17
3. 観測機構の解析
《意図/背景》
• 認識に必要な情報は漏れなく観測したい
→できるだけ細かく観測
• 文字認識装置を廉価に実現したい
→できるだけ粗く観測
• 最小の標本点数で情報損失少なく観測する
方法を検討.
18
観測機構のモデル
ボ
ケ
付
加
標
本
化
19
3. 観測機構の解析
《方法》
• 観測の際には必然的にボケが伴う.
• ボケは帯域制限フィルタとして働く.
• 帯域制限された信号波形は情報損失なく標
本化できる(染谷-Shannonの標本化定理/
Nyquist定理)
20
ボケの関数とその周波数成分
左半分:
右半分:
ボケの関数
そのFourier成分
21
3. 観測機構の解析
《明らかになったこと》
• ボケを利用して過不足なく情報を
観測する装置の設計基準
• 文字ストロークの幅とボケの関数
(Gauss分布の確率密度関数)と
の関係を確定.
22
正方パルスとボケの関数との対応
標準偏差=1
-3.5
-1.4
0
1.4
3.5
23
3. 観測機構の解析
《社会への貢献》
• この仕事に関する論文が最も引用回数
が多い.
• 文字認識装置の設計の際には参考にし
ているのではないかと推察.
24
4. タイプフェイス(フォント)の設計法−
感覚量の定量化
《意図/背景》
• 文字の心理的感覚的な特性として美しさ,大
きさ,統一性,調和性,安定感,読みやすさ,
弁別性などがある.
• これらの特性−感覚量−を定量化したい.
25
4. タイプフェイス(フォント)の設計法−
感覚量の定量化
《方法》
• 読みやすさ,安定感:文字の重心(1次
モーメント)
• 大きさ:文字の拡がり量(重心まわりの2
次モーメント)
26
「見え」の大きさ
27
同じ2次モーメントをもつ○△□
(同じ大きさに見える○△□)
28
4. タイプフェイス(フォント)の設計法−
感覚量の定量化
《明らかになったこと》
• 横書き用の文字の場合,垂直方向重心
の上下動がないと読み易い.
• 重心まわりの2次モーメントを一定にする
と,フォント全体として文字大きさが揃っ
て見える.
29
4. タイプフェイス(フォント)の設計法−
感覚量の定量化
《社会への貢献》
• 機械的な文字認識用のタイプ活字設計
指針を明らかにした.
• 光学文字認識用カタカナフォントOCR-K
の設計に利用.
30
5. 文字パターンの重心と拡がり量と
の高精度/高速計算方法
《意図/背景》
文字パターンを
碁盤目状の領域に表現してから
重心や拡がり量を計算すると
標本化による誤差が存在する.
31
5. 文字パターンの重心と拡がり量と
の高精度/高速計算方法
《方法》
直線/円弧で定義される芯線の両側に
等しく肉付けする文字パターンの場合,
芯線の情報と文字線の幅から,
重心と拡がり量とを直接計算できる.
32
作図の例
碁盤目状の2次元パターンに展開しなくても
モーメントの計算可能.
33
5. 文字パターンの重心と拡がり量と
の高精度/高速計算方法
《検討事項》
線素の重なりによる計算誤差の見積
34
5. 文字パターンの重心と拡がり量と
の高精度/高速計算方法
《社会への貢献》
光学文字認識用カタカナフォントOCR-Kの
設計に利用.
35
4. タイプフェイス(フォント)の設計法−
感覚量の定量化
5. 文字パターンの重心と拡がり量
との高精度/高速計算方法
《その他》
ラインプリンタは
レーザプリンタで置き換えられ,
OCR-Kも
現在は用済みになってしまった.
36
6. 標準文字パターンの
計算機による生成
《意図/背景》
文字認識方式の研究,
印字文字の品質評価法の研究において
標準文字パターンが不可欠.
37
6. 標準文字パターンの
計算機による生成
《方法》
芯線の両側に肉付けする形で生成.
38
LP用活字の設計図
定規コンパス型
芯線座標型
39
作図の例
40
6. 標準文字パターンの
計算機による生成
《明らかになったこと》
• 芯線が直線/円弧で定義されるフォント
OCR-A, OCR-Kの生成方法.
• 芯線の座標がある適当な間隔で定義さ
れるフォントのOCR-Bの生成方法.
41
6. 標準文字パターンの
計算機による生成
《社会への貢献》
参考にしたメーカは多いと信ずる.
42
7. 文字パターンの白黒2値化法
《意図/背景》
• 文字は本来白黒2値図形であるから濃
淡図形として観測された文字パターンを
適切に白黒2値パターンに変換したい.
• 如何に閾値を設定すればよいか.
43
7. 文字パターンの白黒2値化法
《方法》
• タイプライタやラインプリンタから出力される
文字パターンの線幅は基準値を中心にして
ばらついている.
• このばらつきは基準値を平均値とする正規
分布であると仮定し,
本来白黒2値図形である文字パターンが,
濃淡図形として観測される過程をモデル化し,
その逆過程として閾値設定法を検討.
44
文字線(断面)のモデル
基準値:1
45
7. 文字パターンの白黒2値化法
《明らかになったこと》
経験的に言われてきた,
紙面の最も明るいところと
最も暗いところとの平均値を
閾値とすることの妥当性.
46
7. 文字パターンの白黒2値化法
《社会への貢献》
多分,安心感を与えた.
47
8. 印字品質の定量的評価方法
《意図/背景》
• 文字認識装置の読み取り精度は入力さ
れる文字の「品質」によって決まる.
• 「品質」の定量化が不可欠.
• 個々の文字の品質ばかりではなく書類
全体の文字の品質も定量化が必要.
48
ラインプリンタで出力された文字
49
8. 印字品質の定量的評価方法
《方法》
• 印刷鮮明度,平均線幅,重心偏位,類似度を
用いて文字の品質を定量化する.
– 印刷鮮明度:紙面の白さに対する印字の濃さを
表す量.
– 類似度:パターンを多次元空間内のベクトルと考
えたとき,2つのベクトルがなす角の余弦を表す
量.
• 走査装置を小型計算機に接続した「印字品
質評価装置」を試作
50
試作した印字品質評価装置
ミニコンピュータ
Interdata
走査装置
ハードディスク装置
51
8. 印字品質の定量的評価方法
《明らかになったこと》
大量印字データの品質を客観的,
機械的かつ高速に
評価する方式の実現可能性.
52
8. 印字品質の定量的評価方法
《社会への貢献》
• 日本電子工業振興協会OCR印字仕様分科
会における作業の一環として実施.(会社の
人とのつきあいができた)
• 業界新聞に載ったので,2社からそれぞれ講
演依頼と問い合わせとがあった.(世の中に
役立っているという実感を得た)
• 大分県知事平松守彦氏(当時通商産業省重
工業局電子政策課長)見学
53
8. 印字品質の定量的評価方法
《その他》
• 日本規格協会に話をもちこんで
印字物の評価を業務にするよう働きかけ
たらどうかという勧めが
元上司(当時東京工業大学教授飯島泰蔵
氏)からあったが,立ち消え.
• 自分自身は計算機を使う技術の習得
54