Transcript 研究所における研究
電子技術総合研究所における 研究 文字認識に関連する研究 1. 正規化 2. 観測 3. 印字品質評価 1 文字認識装置のモデル 文 字 観 測 前 処 理 特 徴 抽 出 識 別 結 果 2 1. 前処理(正規化)方式の検討 《意図/背景》 • 文字パターンの濃淡,伸縮,回転は認識 に無関係である. • 一定の濃さ,大きさ,方向に揃え,認識 性能の向上を図る. 3 1. 前処理(正規化)方式の検討 《方法》 • 観測された文字パターンのモーメント を用いて自動的に正規化する. 4 モーメント-1 • 0次,1次,…モーメントが定義される. • 文字パターンは紙の上に描かれている. • 文字の背景の白い部分は質量ゼロ,文字ス トロークの黒部分は濃淡に応じた質量がある と考える. 5 モーメント-2 • 0次モーメント:重さ →濃淡の正規化に利用 • 1次モーメント:重心 →位置の正規化に利用 • 2次モーメント(3種類): 水平/垂直方向の拡がり量 →大きさの正規化に利用 主軸の方向 →回転の正規化に利用 6 自動正規化の例−位置の正規化− 観測パターン 正規化後 7 自動正規化回路の基礎方程式 f(x, y, t): 時刻tにおける文字パターン とするとき, f x , y, t f x , y, 0 t 0 C Op f x , y, tdt ここで C: 制御量 Op: 微分演算子 8 自動正規化回路の基本構成 太い線は2次元パターン(ベクトル量) 9 微分演算子Opと制御量C 正規化要素 微分演算子Op 制御量C 濃 淡 1 f x, y, t dx dy 1 x f x, y, t dx dy 位置-水平 x 位置-垂直 伸 縮 回 転 R R y f x, y, t dx dy y x x x y R y y y x x y f x, y, t dx dy 1 2 2 R xy f x, y, t dx dy R 10 1. 前処理(正規化)方式の検討 《明らかになったこと》 • 積分微分方程式の形の式を誘導 • アナログ計算機が使えそう 11 1. 前処理(正規化)方式の検討 《社会への貢献》《その他》 • 正規化/前処理の重要性の喚起 • 自分自身の勉強 12 2. 位置自動正規化装置 (1次元5点モデル)の試作 《意図/背景》 自動正規化方式のアナログ回路による実 現可能性の検証 13 自動位置正規化回路-基本要素 14 試作した装置 15 2. 位置自動正規化装置 (1次元5点モデル)の試作 《明らかになったこと》 乗算器の精度向上が鍵 16 2. 位置自動正規化装置 (1次元5点モデル)の試作 《社会への貢献》 アナログ回路の不安定さの再認識 17 3. 観測機構の解析 《意図/背景》 • 認識に必要な情報は漏れなく観測したい →できるだけ細かく観測 • 文字認識装置を廉価に実現したい →できるだけ粗く観測 • 最小の標本点数で情報損失少なく観測する 方法を検討. 18 観測機構のモデル ボ ケ 付 加 標 本 化 19 3. 観測機構の解析 《方法》 • 観測の際には必然的にボケが伴う. • ボケは帯域制限フィルタとして働く. • 帯域制限された信号波形は情報損失なく標 本化できる(染谷-Shannonの標本化定理/ Nyquist定理) 20 ボケの関数とその周波数成分 左半分: 右半分: ボケの関数 そのFourier成分 21 3. 観測機構の解析 《明らかになったこと》 • ボケを利用して過不足なく情報を 観測する装置の設計基準 • 文字ストロークの幅とボケの関数 (Gauss分布の確率密度関数)と の関係を確定. 22 正方パルスとボケの関数との対応 標準偏差=1 -3.5 -1.4 0 1.4 3.5 23 3. 観測機構の解析 《社会への貢献》 • この仕事に関する論文が最も引用回数 が多い. • 文字認識装置の設計の際には参考にし ているのではないかと推察. 24 4. タイプフェイス(フォント)の設計法− 感覚量の定量化 《意図/背景》 • 文字の心理的感覚的な特性として美しさ,大 きさ,統一性,調和性,安定感,読みやすさ, 弁別性などがある. • これらの特性−感覚量−を定量化したい. 25 4. タイプフェイス(フォント)の設計法− 感覚量の定量化 《方法》 • 読みやすさ,安定感:文字の重心(1次 モーメント) • 大きさ:文字の拡がり量(重心まわりの2 次モーメント) 26 「見え」の大きさ 27 同じ2次モーメントをもつ○△□ (同じ大きさに見える○△□) 28 4. タイプフェイス(フォント)の設計法− 感覚量の定量化 《明らかになったこと》 • 横書き用の文字の場合,垂直方向重心 の上下動がないと読み易い. • 重心まわりの2次モーメントを一定にする と,フォント全体として文字大きさが揃っ て見える. 29 4. タイプフェイス(フォント)の設計法− 感覚量の定量化 《社会への貢献》 • 機械的な文字認識用のタイプ活字設計 指針を明らかにした. • 光学文字認識用カタカナフォントOCR-K の設計に利用. 30 5. 文字パターンの重心と拡がり量と の高精度/高速計算方法 《意図/背景》 文字パターンを 碁盤目状の領域に表現してから 重心や拡がり量を計算すると 標本化による誤差が存在する. 31 5. 文字パターンの重心と拡がり量と の高精度/高速計算方法 《方法》 直線/円弧で定義される芯線の両側に 等しく肉付けする文字パターンの場合, 芯線の情報と文字線の幅から, 重心と拡がり量とを直接計算できる. 32 作図の例 碁盤目状の2次元パターンに展開しなくても モーメントの計算可能. 33 5. 文字パターンの重心と拡がり量と の高精度/高速計算方法 《検討事項》 線素の重なりによる計算誤差の見積 34 5. 文字パターンの重心と拡がり量と の高精度/高速計算方法 《社会への貢献》 光学文字認識用カタカナフォントOCR-Kの 設計に利用. 35 4. タイプフェイス(フォント)の設計法− 感覚量の定量化 5. 文字パターンの重心と拡がり量 との高精度/高速計算方法 《その他》 ラインプリンタは レーザプリンタで置き換えられ, OCR-Kも 現在は用済みになってしまった. 36 6. 標準文字パターンの 計算機による生成 《意図/背景》 文字認識方式の研究, 印字文字の品質評価法の研究において 標準文字パターンが不可欠. 37 6. 標準文字パターンの 計算機による生成 《方法》 芯線の両側に肉付けする形で生成. 38 LP用活字の設計図 定規コンパス型 芯線座標型 39 作図の例 40 6. 標準文字パターンの 計算機による生成 《明らかになったこと》 • 芯線が直線/円弧で定義されるフォント OCR-A, OCR-Kの生成方法. • 芯線の座標がある適当な間隔で定義さ れるフォントのOCR-Bの生成方法. 41 6. 標準文字パターンの 計算機による生成 《社会への貢献》 参考にしたメーカは多いと信ずる. 42 7. 文字パターンの白黒2値化法 《意図/背景》 • 文字は本来白黒2値図形であるから濃 淡図形として観測された文字パターンを 適切に白黒2値パターンに変換したい. • 如何に閾値を設定すればよいか. 43 7. 文字パターンの白黒2値化法 《方法》 • タイプライタやラインプリンタから出力される 文字パターンの線幅は基準値を中心にして ばらついている. • このばらつきは基準値を平均値とする正規 分布であると仮定し, 本来白黒2値図形である文字パターンが, 濃淡図形として観測される過程をモデル化し, その逆過程として閾値設定法を検討. 44 文字線(断面)のモデル 基準値:1 45 7. 文字パターンの白黒2値化法 《明らかになったこと》 経験的に言われてきた, 紙面の最も明るいところと 最も暗いところとの平均値を 閾値とすることの妥当性. 46 7. 文字パターンの白黒2値化法 《社会への貢献》 多分,安心感を与えた. 47 8. 印字品質の定量的評価方法 《意図/背景》 • 文字認識装置の読み取り精度は入力さ れる文字の「品質」によって決まる. • 「品質」の定量化が不可欠. • 個々の文字の品質ばかりではなく書類 全体の文字の品質も定量化が必要. 48 ラインプリンタで出力された文字 49 8. 印字品質の定量的評価方法 《方法》 • 印刷鮮明度,平均線幅,重心偏位,類似度を 用いて文字の品質を定量化する. – 印刷鮮明度:紙面の白さに対する印字の濃さを 表す量. – 類似度:パターンを多次元空間内のベクトルと考 えたとき,2つのベクトルがなす角の余弦を表す 量. • 走査装置を小型計算機に接続した「印字品 質評価装置」を試作 50 試作した印字品質評価装置 ミニコンピュータ Interdata 走査装置 ハードディスク装置 51 8. 印字品質の定量的評価方法 《明らかになったこと》 大量印字データの品質を客観的, 機械的かつ高速に 評価する方式の実現可能性. 52 8. 印字品質の定量的評価方法 《社会への貢献》 • 日本電子工業振興協会OCR印字仕様分科 会における作業の一環として実施.(会社の 人とのつきあいができた) • 業界新聞に載ったので,2社からそれぞれ講 演依頼と問い合わせとがあった.(世の中に 役立っているという実感を得た) • 大分県知事平松守彦氏(当時通商産業省重 工業局電子政策課長)見学 53 8. 印字品質の定量的評価方法 《その他》 • 日本規格協会に話をもちこんで 印字物の評価を業務にするよう働きかけ たらどうかという勧めが 元上司(当時東京工業大学教授飯島泰蔵 氏)からあったが,立ち消え. • 自分自身は計算機を使う技術の習得 54