Nara Women`s University

Download Report

Transcript Nara Women`s University

Nara Women’s University
近代書籍に特化した
多フォント活字認識法
芦田尚美*,髙田雅美*,木目沢司†,城和貴*
*奈良女子大学大学院
†国立国会図書館
発表の流れ
1.
2.
3.
4.
5.
背景
目的と問題点
文字認識の手法
実験
まとめ
Nara Women’s University
背景
国立国会図書館 近代デジタルライブラ
リー
– 蔵書のデジタルアーカイブ化
– Webでの閲覧が出来るサービス
Nara Women’s University
問題点
テキスト化の必要性
– 明治~大正期の書籍 約160,000冊
• そのほとんどが画像データ
→全文検索の適用不可
書籍の問題
– フォントの種類が不明
– 旧字体/異字体を含む
– 低品質の印刷
→従来のOCR技術を適用できない
近代活字OCRの必要性
Nara Women’s University
旧字体
Nara Women’s University
文字認識の流れ
入力
前処理
特徴抽出
識別
Nara Women’s University
前処理
入力
前処理
特徴抽出
ノイズの除去
画像余白の除去
大きさの補正
位置の補正
識別
Nara Women’s University
特徴抽出
入力
前処理
特徴抽出
識別
PDC(Peripheral Direction Contribution:
外郭方向寄与度)特徴
– 文字線の
1. 複雑さ
2. 方向
3. 接続関係
4. 相対位置関係
を抽出する
Nara Women’s University
PDC特徴
8方向から走査
示
走査
ぶつかった点から8方向に矢印
を伸ばす
長さが方向寄与度となる
Nara Women’s University
PDC特徴
•方向寄与度→どの向きの
成分が大きいかを表す
走査方向
深度1
深度2
深度3
•第2,第3深度の成分が
–0でない→文字線が複雑
–0である→文字線が単純
•正反対の方向の矢印の長
さを足し合わせ,4方向の長
さを得る
Nara Women’s University
PDC特徴
第1外郭形状
第2外郭形状
元画像
第3外郭形状
Nara Women’s University
PDC特徴
特徴ベクトル
– 特徴ベクトルの次元
• 全走査方向(8方向) ×
深度(外郭深度N=3) ×
寄与度成分(4方向) ×
区画(16区画※)
= 1536次元ベクトル
※各方向128回の走査の後,
16等分して平均
あ
となる
Nara Women’s University
文字の識別
入力
前処理
特徴抽出
識別
SVM(Support Vector Machines)を
使用
–機械学習の一種
–高い汎化性能
–マージン最大化
–カーネルトリック
Nara Women’s University
Support Vector Machines
原理
×
線形分離不可能な
データ
分離超平面
wx b  0
x
○
w
高次元特徴空間に射影
→平面で分離可能
b
•比較的単純な仕組み
•他の機械学習と比較し同等以上の性能
Nara Women’s University
実験
実験データ
– 近代デジタルライブラリーの書籍画像から切り
出した文字
– 文字種:10種類の文字
• 「行」,「三」,「人」,「生」,「十」,「来」,「小」,「中」,
「年」,「彼」の10種
– 教師データを各クラスにつき50個生成し,訓練
LIB-SVMを使用
Nara Women’s University
文字画像例
Nara Women’s University
実験手順(1)
1. 前処理
1.
2.
3.
4.
5.
2値化
3×3のメディアンフィルタ(ノイズ除去)
余白の除去
大きさの補正(線形なサイズ補正)
位置の補正
2. 特徴抽出
•
PDC特徴の抽出
Nara Women’s University
実験手順(2)
3. SVMでの学習
•
•
•
各クラスにつき50個の画像を教師として選択
グリッドサーチによってSVMのパラメータを
決定
教師データの学習
4. 未知データを用いて評価
Nara Women’s University
実験環境
CPU:Intel Pentium D 2.80GHz
OS:Windows XP
SVM:LIB-SVM ver 2.88
Nara Women’s University
実験結果
認識率 97.8%
– 内訳:
クラス
クラス1(行)
クラス2(三)
クラス3(人)
クラス4(生)
クラス5(十)
クラス6(来)
クラス7(小)
クラス8(中)
クラス9(年)
クラス10(彼)
正答数/テスト
データ数
52/52
52/53
83/84
50/50
49/50
84/85
50/50
147/159
103/103
50/50
誤答数
認識率
0
1
1
0
1
1
0
12
0
0
100.0%
98.1%
98.8%
100.0%
98.0%
98.8%
100.0%
92.5%
100.0%
100.0%
Nara Women’s University
誤認識した文字(1)
ケース1
クラス6(来)と誤認識
ケース2
クラス7(小)と誤認識
ノイズ
ケース3
クラス7(小)と誤認識
ケース4
クラス7(小)と誤認識
長い縦線,左右斜め下に延びる線
→類似形状
Nara Women’s University
誤認識した文字(2)
ケース5
ケース11
クラス5(十)と誤認識
ケース6
ケース7
ケース8
ケース9
ケース10
クラス6(来)と誤認識
クラス5(十)と誤認識
クラス5(十)と誤認識
クラス9(年)と誤認識
クラス9(年)と誤認識
クラス7(小)と誤認識
ケース12
ケース13
ケース14
ケース15
ケース16
クラス7(小)と誤認識
クラス1(行)と誤認識
クラス7(小)と誤認識
クラス7(小)と誤認識
クラス5(十)と誤認識
Nara Women’s University
誤認識した文字(3)
ケース6
クラス6(来)と誤認識
ケース11
ケース12
クラス7(小)と誤認識
ケース13
ケース10
クラス9(年)と誤認識
クラス7(小)と誤認識
クラス1(行)と誤認識
ノイズが多い
Nara Women’s University
誤認識した文字(4)
ケース5
ケース7
クラス5(十)と誤認識
クラス5(十)と誤認識
ケース8
クラス5(十)と誤認識
ケース16
クラス5(十)と誤認識
「中」と「十」は共に垂直・水平方向に太い文字線
がある
類似した文字形状
Nara Women’s University
誤認識した文字(5)
ケース14
クラス7(小)と誤認識
ケース15
クラス7(小)と誤認識
「中」と「小」は共に画像中央に長い縦線とその左
右の短い縦線を持つ
類似した文字形状
ケース9
クラス9(年)と誤認識
Nara Women’s University
ニューラルネットワークに
よる実験
3層の階層型
中間層:64ユニット
誤差逆伝播法
1000回の学習
– 教師データに対する誤答率0.8%
– 学習時間:12248[sec]
(参考)中間層32ユニット
– 3000回の学習で教師データに対する誤答率10%
Nara Women’s University
ニューラルネットによる
実験結果
テストデータに対する認識率 77.6%
クラス
クラス1(行)
クラス2(三)
クラス3(人)
クラス4(生)
クラス5(十)
クラス6(来)
クラス7(小)
クラス8(中)
クラス9(年)
クラス10(彼)
全体
正答数/テスト
データ数
42/52
47/53
79/84
40/50
38/50
65/85
41/50
107/159
75/103
37/50
571/736
誤答数
10
6
5
10
12
20
9
52
28
13
165
認識率
80.8%
88.7%
94.0%
80.0%
76.0%
76.5%
82.0%
67.3%
72.8%
74.0%
77.6%
Nara Women’s University
考察(SVMによる認識)
誤認識
– ノイズが多い
• ノイズの点を文字線と認識
• 余白の除去が適切に行われなかった
– 明瞭な文字画像を誤認識する場合もある
• 類似した特徴を持つ文字と誤認
– 明確な理由が判明しない誤認もあった
誤認が多いクラス
– 学習例がテストデータ数と比較し少ない
Nara Women’s University
考察(NNによる学習)
中間層64個で学習
– 認識率77.6%
– 中間層32個では不足
学習時間はSVMより長い
– SVMの約7.7倍
Nara Women’s University
まとめ
近代書籍の活字認識を行った
97.8%の精度で10種の文字を認識できた
– SVMはNNより適している
改善点
– ノイズ除去アルゴリズムの改良
– 文字種が多くなる→階層的な分類で対応
– 文字領域の切り出しの自動化
Nara Women’s University