文字列照合アルゴリズム 情報知識ネットワーク特論 喜田拓也

Download Report

Transcript 文字列照合アルゴリズム 情報知識ネットワーク特論 喜田拓也

文字列照合アルゴリズム
情報知識ネットワーク特論
喜田拓也
参考文献:
Flexible pattern matching in strings: Practical on-line search algorithm for
texts and biological sequences, Gonzalo Navarro and Mathieu Raffinot,
Cambridge University Press, 2002, ISBN 0-521-81307-7.
2016/5/23
情報知識ネットワーク特論 授業資料
1
準備
Prefix, Factor, Suffix
有限オートマトン
文字列照合問題とは
2016/5/23
情報知識ネットワーク特論 授業資料
2
Prefix, Factor (Substring), Suffix
- 接頭辞、部分文字列、接尾辞
∑:有限なアルファベット
ある文字列 w∈∑* に対して、
w = xyz
Prefix
接頭辞
suffix
接尾辞
factor
(substring)
部分文字列
3
Prefix, Factor, Suffix の例
w = cocoa
factor
prefix
c
co
coc
coco
cocoa
o
oc
oco
suffix
a
oa
coa
ocoa
cocoa
演習:w=cacao のprefix, factor, suffix を列挙せよ。
4
文字列照合問題
(Pattern Matching Problem)とは?
• テキストT中に含まれるパタンPの出現を求める問題
有名なアルゴリズム:
– KMP法 (Knuth&Morris&Pratt[1974])
– BM法 (Boyer&Moore[1977])とその変種
– Karp-Rabin法 (Karp&Rabin[1987])
パタン P compress
テキスト T
6
We introduce a general framework which is suitable to capture an
essence of compressed pattern matching according to various dictionary
based compressions. The goal is to find all occurrences of a pattern in a
text without decompression, which is one of the most active topics in
string matching. Our framework includes such compression methods as
Lempel-Ziv family, (LZ77, LZSS, LZ78, LZW), byte-pair encoding, and the
static dictionary based method. Technically, our pattern matching
algorithm extremely extends that for LZW compressed text presented by
Amir, Benson and Farach [Amir94].
Existence problem と
All-occurrences problem
Existence problem
テキスト T: テクマクマヤコンテクマクマヤコン
パタン P: クマクマ
Yes!
All-occurrences problem
テキスト T: テクマクマヤコンテクマクマヤコン
パタン P: クマクマ
2
10
全文検索で文書を単位として検索する場合は、Existence problemで充分
しかし、一般的にはAll-Occurrences problemを指すことが多い
7
索引データ構造を用いた検索との違い
文字列照合による検索
索引データ構造を用いた検索
 長所
 余計なデータ構造が不要
 DBの更新に対して柔軟
 短所
O(n)
 検索がおそい
 スケーラビリティが低い
 長所
O(mlog n)
 検索がはやい
 スケーラビリティが高い
 短所
 索引構造を構築する手間がかかる
 DBの更新に対して柔軟性に欠ける
 索引構造のためのスペースが必要
小規模文書群に対する検索向き
(例:UNIX の grep)
8
中・大規模DBに対する検索向き
(例:mg, namazu, Google)
※ 文字列照合ベースの大規模全文検索システムもある!
(富士通の瞬索システム)
Prefix型アルゴリズム
Naïve アルゴリズム
KMP アルゴリズム
Aho-Corasick アルゴリズム
2016/5/23
情報知識ネットワーク特論 授業資料
9
Naïve アルゴリズム
Naïve-String-Matching (T, P)
1 n ← length[T].
2 m ← length[P].
3 for s ← 0 to n – m
4
do if P[1..m] = T[s+1…s+m]
5
then report an occurrence at s.
テキストT:
パタンP:
ababbabcabbaa…
ababc
ababc
ababc
ababc
一文字づつずらして
マッチングしていく
テキスト上のポインタを
バックする必要がある!
最悪の場合 O((n-m+1)m) 時間かかる。(T=an, P=am の場合を考えよ)
10
Knuth-Morris-Pratt アルゴリズム
D. E. Knuth, J. H. Morris, Jr, and V. R. Pratt. Fast pattern matching in strings.
SIAM Journal on Computing, 6(1):323-350, 1977.
KMP-String-Matching (T, P)
1 n ← length[T].
2 m ← length[P].
3 q ← 1.
4 next ← ComputeNext(P).
5 for i ← 1 to n do
6
while q>0 かつ P[q]≠T[i] do q ← next[q];
7
if q=m then report an occurrence at i-m;
8
q ← q+1.
テキストT:
ababbabcabbaa…
パタンP:
ababc
ababc
next[5] = 3
ababc
next[3] = 0
next関数によって次にPの何文字目とテキストを
比較するかがわかる。(シフト量は q-next[q])
値が0のときは、テキストの次の文字と比較する。
テキストの各文字との比較はO(1)回ずつである。
最悪の場合でも O(n+m) 時間 (nextはあらかじめ配列として計算)
11
next関数の計算
ComputeNext (P)
1 m ← length[P].
2 next[1] ← 0.
3 k ← 0.
4 for q ← 1 to m do
5
while k>0 かつ P[q]≠P[k] do k ← next[k];
6
k ← k+1;
7
if P[q+1]=P[k] then
8
next[q+1] ← next[k]
9
else
パタンのどこまで一致して
10
next[q+1] ← k;
いたかを記録している
q+1
パタンP:
12
a b a b
a b a
a b
k a
c
b
a
b
a
パタンをずらしながら比較し、
next[q]を計算
c
b c
a b c
b a b c
q 1 2 3 4 5 6
P[q] a b a b c
next(q) 0 1 0 1 3 1
決定性オートマトンによる照合
パタン P = ababb を受理する決定性有限オートマトン (KMPオートマトン)
任意の
文字
0
a
b
1
-1
a
テキスト:
状態:
0
b
1
2
a
2
3
4
7
: goto関数
: failure関数
a
b
3
a
4
2
13
b
5
Next関数に対応
b
3
b
b
4
a
5
0
前処理は O(m|∑|) 時間かかる。走査時間はKMPと同じ O(n)
1
Aho-Corasick(AC) アルゴリズム
A. V. Aho and M. J. Corasick. Efficient string matching: an aid to bibliographic search.
Communications of the ACM, 18(6):333-340, 1975.
パタン集合 ={AC,BA,BB,BAA,BACD} を受理する(ε遷移付き)順序機械
(AC照合機械)
A
1
B
2
4
C
A
3
5
¬{A,B}
A
BA
C
B
6
: goto関数
: failure関数
7
AC
7
8
※状態1へのfailureは省略
BAA
D
AC
9
BACD
BB
KMPオートマトンは、パタンが一つの場合のAC照合機械に等しい
※ 初期状態のとりかたが違うように見えるが、原理的には同じように構成できる
14
構成アルゴリズム
パタン集合 ={AC,BA,BB,BAA,BACD} を受理するAC照合機械
(ε遷移付きの)順序機械
A
1
B
2
4
C
A
3
5
¬{A,B}
BA
C
B
15
A
6
: goto関数
: failure関数
7
AC
7
8
BAA
D
AC
9
BACD
BB
1. パタンを処理しながらtrie(gotoグラフ)を作る
2. 幅優先探索しfailure関数を求めつつ、出力関数を補完する
3. 最適化する
※ 詳細は配布資料を参照
擬似コード
MatchingAlgorithm (P, T)
1 m ← length[P].
2 n ← length[T].
3 i ← 1.
4 while i ≦ n – m +1 do
5
i が出現位置であるか否かを決定する;
6
if i が出現位置 then report an occurrence at i;
7
パタンを右へシフトする量Δを求める;
8
i ← i + Δ.
16
瞬索システム(富士通)
http://software.fujitsu.com/jp/shunsaku/
• AC照合機械をフルに活用
• 分散処理・フォールトトレラント機構
• 複数のクエリをまとめて処理することで
高速なレスポンスを確保(山手線方式)
クエリ
クエリ
17
テキストDBを一括走査
クエリをまとめて
一つのAC照合機械を構築
Suffix型アルゴリズム
Boyer-Moore アルゴリズム
Galil アルゴリズム
Horspool アルゴリズム
Sunday アルゴリズム
2016/5/23
情報知識ネットワーク特論 授業資料
18
効率的照合アルゴリズムの一般形
MatchingAlgorithm (P, T)
1 m ← length[P].
2 n ← length[T].
3 i ← 1.
4 while i ≦ n – m +1 do
5
i が出現位置であるか否かを決定する;
6
if i が出現位置 then report an occurrence at i;
7
パタンを右へシフトする量Δを求める;
8
i ← i + Δ.
KMP法、BM法をはじめとする多くの効率的パタン照合アルゴリズムが
この枠組みに入る※
※竹田正幸「全文テキスト処理のための高速パターン照合アルゴリズム」、情報学シンポジウム、1991年1月.
アルゴリズムの高速化のために大事なこと:
• 5行目をいかに最小の手間で決定できるか
• 7行目においてシフト量をどれだけ大きくできるか
19
Boyer-Moore アルゴリズム
R. S. Boyer and J. S. Moore. A fast string searching algorithm. Communications of the ACM, 20(10):762-772, 1977.
特徴:
• パタンの右から左へ文字を比較していく
• 二つの関数(delta1とdelta2)の値を比較し、より大きいほうを使って
パタンをシフトする
• 最悪 O(mn) 時間だが、平均的には O(n/m) 時間となる (sub linear!!)
delta1(char) := パタン内のcharの最右の出現位置に合わせるようにシフトした際の
ポインタ(文字比較位置)のとび幅 (出現しない場合はパタン長)
(bad-character heuristic)
delta1(c) = 5
テキストT:
パタンP:
a a b c d a a c b c a b c c a ・・・
abcbabab
abcbabab
‘c’の位置を合わせるようにシフトする
20
Δ=delta1(char) – j + 1 = 5 – 0 = 5
delta2(j)
delta2(j) := パタンPの長さ j-1 のsuffixのP中の他の出現位置(あるいは最長一致する
Prefix)に合わせた際のポインタのとび幅 (出現しない場合はパタン長)
(good-suffix heuristic)
delta2(3) = 8
テキストT:
パタンP:
a a b c d a a b b c a b c c a ・・・
abcbabab
abcbabab
‘ab’の位置を合わせるようにシフトする
※delta2(3) の候補としては1と5の二つある。
しかし5の出現位置の左隣は’b’で既に一致しない
ことが分かっているので、この場合は1となる。
Δ=delta2(3) – 3 + 1 = 8 – 2 = 6
delta2(5) = 10
テキストT:
パタンP:
a a b c a b a b b c a b c c a ・・・
abcbabab
abcbabab
‘ab’の位置を合わせるようにシフトする
21
Δ=delta2(5) – 5 + 1 = 10 – 4 = 6
BM法の問題点
• delta関数を計算するのが難しい
– 単純なやり方だと O(m2) 時間かかる
– O(m) 時間の手法は結構複雑
→ 実はKMP(の裏返し)に対応している
• delta1 と delta2 の値をいちいち比較するので、手間がか
かりすぎる
– delta1 だけを用いる方法が一般的
(ただしそのままでは、パタンがうまくシフトできないことがあるので、
工夫が必要)
• 最悪の場合には、O(mn) 時間かかってしまう
– T = an, P = am の場合を考えよ
• アルファベット∑のサイズが小さいときには効率が悪くなる
– テキストもパタンも0,1の列の場合は、ほとんどシフトできない!
22
Galil アルゴリズム
Z. Galil. On improving the worst case running time of the Boyer-Moore string searching algorithm.
Communications of the ACM, 22(9):505-508, 1979.
• 元のBM法では、一致した文字列の情報を「忘れてしまう」ので、
O(mn)時間かかる
• Prefixが何文字一致しているかを記憶しておけばよい
• 理論的には、テキスト走査をO(n)時間で行える
• 実際には処理が煩雑になり、遅くなる
delta2(5) = 10
テキストT:
パタンP:
a a b c a b a b c b a b a b a ・・・
abcbabab
abcbabab
テキストの各文字はせいぜい
2回しか比較されなくなる!
比較する残りの部分はここだけ
この部分は「すでに比較ずみ」
であることを記憶しておく
23
Horspool アルゴリズム
R. N. Horspool. Practical fast searching in strings. Software Practice and Experience, 10(6):501-506, 1980.
• ∑が十分に大きい場合は、delta1(bad-character heuristic)が大抵の
場合一番よいシフト量を与える
→ 少しの変更を加えることで、よりとび幅を増やすことができる!
delta1(c) = 5
テキストT:
パタンP:
a a b c d c a d b c a b c c a b a c a・・・
abcbabad
abcbabad
delta1’(d) = 10
テキストT:
パタンP:
a a b c d c a d b c a b c c a b a c a・・・
abcbabad
abcbabad
24
delta1’(b) = 3
常にパタンの最後の位置に
対応するテキストの文字で
とび幅を決定する
擬似コード
Horspool (P, T)
1 m ← length[P].
2 n ← length[T].
3 Preprocessing:
4
For each c∈∑ do delta1’[c] ← m.
5
For j←1 to m – 1 do delta1’[ P[j] ] ← m – j .
6 Searching:
7
i ← 0.
8
while i ≦ n – m do
9
j ← m;
10
while j > 0 かつ T[i+j] = P[j] do j ← j – 1;
11
if j = 0 then report an occurrence at i+1;
12
i ← i + delta1’[ T[i+m] ].
25
Sunday アルゴリズム
D. M. Sunday. A very fast substring search algorithm. Communications of the ACM, 33(8):132-142, 1990.
• 基本はBM型アルゴリズムと同じ
• 異なる点
– パタンが一致するか否かを、パタン中の任意の文字順で比較する
• 例えば、統計的に出現頻度の低い文字から順次比較を行う
– delta1を引く際、パタンの最後の位置の右隣に対応するテキスト上の
文字を使う (BMにおけるdelta2も計算し、長いほうを選択する)
• Horspoolよりもとび幅は長くなる傾向がある
– ただし、メモリ消費量はHorspoolより大きい
– また、とび幅を計算する手間がHorspoolよりかかる
delta1’(d) = 9
テキストT:
パタンP:
delta1’(c) = 6
a a b c d c a b d c a b c c a b a c a・・・
abcbabab
abcbabab
26
常にパタンの最後の位置の
右隣に対応するテキストの文字で
delta1を計算する
Factor型アルゴリズム
BDM アルゴリズム
BOM アルゴリズム
2016/5/23
情報知識ネットワーク特論 授業資料
27
Backward Dawg Matching (BDM)アルゴリズム
M. Crochemore, A. Czumanj, L. Gasieniec, S. Jarominek, T. Lecroq, W. Plandowski, and W. Rytter.
Speeding up two string matching algorithms. Algorithmica, 12(4/5):247-267, 1994.
• 基本はBM型アルゴリズムと同じ
• 異なる点
– パタンのSuffixと一致しているかではなく、
Factorと一致しているかどうかでパタンの出現を判定する
– Factorかどうかの判定はSuffix Automatonを使う(suffix treeでも可)
• Suffix automatonの特徴
– 文字列uがパタンPのFactorであるかどうかがO(|u|)時間で分かる
– 文字列uがパタンPのSuffixであるかどうかも判定できる
– P=p0p2…pm に対して、O(m)時間のオンラインアルゴリズムがある
Factor search
テキストT:
パタンP:
Prefixかどうかは、SAの2
番目の特徴からわかる
σ u
a a b c d c a b d c a b c c a b a c a・・・
abcbabab
abcbabab
cc はFactorではないし、
また、cはPrefixでもないので
次の文字までパタンをずらせる
abcbabab
28
Suffix Automaton
A. Blumer, J. Blumer, D. Haussler, A. Ehrenfeucht, M. T. Chen and J. Seiferas.
The smallest automation recognizing the subwords of a text. Theoretical Computer Science (40):31-55, 1985.
a
o
c
e
0
c
1
n
2
c
n
u
u
o
o
n
n
n
n
a
29
a
4
o
n
5
n
u
n
a
n
a
c
n
6
7
a
n
u
o
o
Suffix tree
u
o
n
n
n
n
a
n
n
a
a
a
a
8
a
9
e
Suffix trei
3
u
n
u
n
n
o
u
n
c
a
e
n
u n
o
a
n
n
a
c
a
u
o
n
n
a
o
n
n
u
n
a
o
n
n
a
On-line 構築アルゴリズム
とっても複雑なので、
SuffixAutomaton(P=p1p2…pm)
構築するのは
1 Create the one-node graph G=DAWG(e).
結構たいへん!
2 root ← sink ← the node of G. suf[root] ←θ.
3 for i ← 1 to m do
4
create a new node newsink;
5
make a solid edge (sink, newsink) labeled by a;
6
w ← suf[sink];
7
while w≠θ かつ son(w,a)=θ do
8
make a non-solid a-edge (w, newsink);
9
w ← suf[w];
10
v ← son(w,a);
11
If w=θthen suf[newsink] ← root
12
else if (w,v) is a solid edge then suf[newsink] ← v
13
else
14
create a node newnode;
15
newnode has the same outgoing edges as v except that they are all non-solid;
16
change (w,v) into a solid edge (w, newnode);
17
suf[newsink] ← newnode;
18
suf[newnode] ← suf[v]; suf[v] ← newnode;
19
w ← suf[w];
20
while w≠θかつ (w,v) is a non-solid a-edge do
21
redirect this edge to newnode; w ← suf[w].
22
sink ← newsink.
30
Backward Oracle Matching (BOM)アルゴリズム
C. Allauzen, M. Crochemore, and M. Raffinot. Efficient experimental string matching by weak factor recognition.
In Proceedings of the 12th Annual Symposium on Combinatorial Pattern Matching, LNCS2089:51-72, 2001.
• BDMとアイデアは同じ
• 異なる点
– 複雑なSuffix automatonではなく、Factor oracleを使う
• BDMにおいて必要なことは、文字列uがFactorであることではなく、
σuがFactorではないこと。
• Factor oracleの性質
– パタンPのFactor以外の文字列も受理してしまう可能性がある
• 例:下の図で、cnnはPrvのFactorではない
– O(m)時間で構築できるうえに、実装が容易で少メモリ
• 状態数m+1個、遷移関数の実現サイズ2m-1
a
n
c
0
31
e
1
c
2
a
n
u
3
u
4
n
o
5
n
6
n
o
P=announceの場合の、PRvに対するFactor oracle
7
a
8
Factor oracleの構築アルゴリズム
Oracle-on-line (P=p1p2…pm)
1 Create Oracle(ε) with
2
One single initial state 0, S(0) ←θ.
3 for i∈1…m do
4
Oracle(P=p1p2…pj)
5
← Oracle_add_letter (Oracle(P=p1p2…pj-1), pj).
Oracle_add_letter (Oracle(P=p1p2…pm),σ)
1 Create a new state m+1.
2 δ(m,σ) ← m+1.
3 k ← S(m)
4 while k≠θかつδ(k,σ)=θ do
5
δ(k,σ) ← m+1;
6
k ← S(k).
7 If k =θthen s ← 0;
8 else s ← δ(k,σ).
9 S(m+1) ← s.
10 return Oracle(P=p1p2…pmσ).
32
Suffix・Factor型アルゴリズムの
複数パタン照合への拡張
Commentz-Walterアルゴリズム
B. Commentz-Walter. A string matching algorithm fast on the average. In Proceedings of the 6th International
Colloquium on Automata, Languages and Programming, LNCS71:118-132, 1979.
• BMアルゴリズムの直接的な拡張
Set Horspoolアルゴリズム
• Commentz-WalterのアルゴリズムをHorspoolのアイデアに基づいて簡略化したもの
Uratani-Takedaアルゴリズム
• ACアルゴリズムのアイデアをBM型に転用したもの。CWより高速
Set Backward Oracle Matching (SBOM)アルゴリズム
C. Allauzen and M. Raffinot. Factor oracle of a set of words.
Techinical report 99-11, Institut Gaspard-Monge, Universite de Marne-la-Vallee, 1999.
• Factor oracleを複数文字列に拡張したものを利用。
Wu-Manberアルゴリズム
S. Wu and U. Manber. A fast algorithm for multi-pattern searching.
Report TR-94-17, Department of Computer Science, University of Arizona, Tucson, AZ, 1994.
• 実用的に高速なアルゴリズム。Agrepにも用いられている
33
BM型複数パタン照合アルゴリズムの
パフォーマンスが悪い理由
delta (≦ ℓmin)
テキストT:
可能なとび幅の
最大値は
ℓmin
パタンP:
に制限される
ℓmax
ℓmin
パタンの個数が多くなると、
各文字の出現頻度が高くなり
bad-character heuristicが
うまく働かない!
34
Set Horspool algorithm
• パタン集合の各要素を反転(reverse)した文字列のtrieを作る
• あとはHorspoolと同じ
– Suffix search をしながらtrieをたぐる
– どのパタンのSuffixでもないことが判ったら、delta1’でパタンをシフトする
パタンの
リバースtrie
α
テキストT:
※Cf. Uratani-Takedaアルゴリズムでは、
trieのかわりにACマシンを使い、
failure関数によってとび幅を決定する
σ
suffix search
テキストT:
β
どのパタンの中にもβ
が出現しない部分
35
delta1’
Wu-Manberアルゴリズム
S. Wu and U. Manber. A fast algorithm for multi-pattern searching.
Report TR-94-17, Department of Computer Science, University of Arizona, Tucson, AZ, 1994.
• テキストの照合位置からB文字分(T[i-B+1…i])を用いて、
パタンが出現する可能性を調べる
– SHIFT[ T[i-B+1…i] ] : T[i-B+1…i]が、あるパタンの接尾辞であるとき0。
そうでなければ、可能な最大シフト長を返す。
– HASH[ T[i-B+1…i] ] : SHIFTが0 (すなわちT[i-B+1…i]があるパタンの
接尾辞)だった場合、出現の可能性があるパタンのリストを返す。
パタンP:
announ c e
annua l
annua l l y
テキストT:
CPM
SHIFT[Bl] =
36
SFHIT[al]=0
HASH[al]=2, → シフト1
annua l
c on f e r en c e
announ c e
SFHIT[an]=4
SFHIT[l ]=5
文字列
ll
no ou
an
un nc
ua al
ly
nn nu
シフト量
1
3
4
1
0
0
2
文字列
HASH[Bl] =
パタン出現の
可能性あり!
パタン番号
ce ly
ua al
*
3, 1
2
φ
ce *
0
5
擬似コード
※agrep ver4.02 の実装(mgrep.c)では、SFHIT・HASH・B
はそれぞれ、4096、8192、3となっている(ようだ)
Construct_SHIFT (P={p1,p2,…,pr})
1 initialize SHIFT table by ℓmin–B+1.
2 For each Bl=pi[j–B+1…j] do
3
If SHIFT[h1(Bl)] > mi – j do SHIFT[h1(Bl)] = mi – j.
Wu-Manber (P={p1,p2,…,pr}, T=T[1…n])
1 Preprocessing:
2
Computation of B.
3
Construction of the hash tables SHIFT and HASH.
4 Searching:
5
pos ← ℓmin.
6
while pos≦n do
7
i ← h1( T[pos–B+1…pos] );
8
If SHIFT[i] = 0 then
9
list ← HASH[ h2( T[pos–B+1…pos] ) ];
10
Verify all the patterns in list one by one against the text;
11
pos ← pos + 1;
12
else pos ← pos + SHIFT[i].
37
その他の手法
Karp-Rabin アルゴリズム
2016/5/23
情報知識ネットワーク特論 授業資料
38
Karp-Rabinアルゴリズム
KARP R.M., RABIN M.O., Efficient randomized pattern-matching algorithms. IBM J. Res. Dev. 31(2):249-260, 1987.
• Hashingを使ったRandomizedアルゴリズム
– 文字列を一個の整数とみなして照合する!
• O(mn)時間でテキストを走査する
• 平均時間計算量はO(n+m)
• Extra spaceがO(1)!
パタン:
3
1
4
1
5
テキスト: 2
3
5
9
0
2
3
1
7 mod 13
∑ = { 0,1,2,…,9 }
4
6
1
5
・・・
8
9
3 11 0
以前の高位の
数字(文字)
39
1
4
1
7
8
5
2
7
3
9
・・・
1
7
8
正しい!
3
2
4
9
2
1
・・・ mod 13
5 10 11 7
9 11
間違い!
14152 ≡ (31415 – 3×10000)×10 + 2 (mod 13)
≡ (7 – 3×3)×10 + 2 (mod13)
新たな低位の
≡ 8 (mod 13)
数字(文字)
擬似コード
Karp-Rabin (P, T, d, q)
1 m ← length[P].
2 n ← length[T].
3 h ← dm–1 mod q.
4 p ← 0.
5 t0 ← 0.
6 for i ← 1 to m do
7
p ← (d・p + P[i]) mod q;
8
t0 ← (d・t0 + T[i]) mod q.
正しい出現かど
9 for s ← 0 to n – m do
うかを確認
10
if p = ts then
11
if P[1…m] = T[s+1…s+m] then
12
report an occurrence at s;
13
else if s < n – m then
14
ts+1 ← (d・(ts – T[s+1]・h)+T[s+m+1]) mod q.
40
参考: FFTを利用した確率的近似文字列照合
K. Baba, A. Shinohara, M. Takeda, S. Inenaga, and S. Arikawa. A Note on Randomized Algorithm for String Matching
with Mismatches. Nordic Journal of Computing, 10(1):2-12, 2003.
• Fast Fourier Transform (FFT)は
ハードウェア上で高速に計算可能
• 文字列を数値に置き換え、スコアベクトルの列
をFFTにより高速に計算することで、(近似)文
字列照合を行う
馬場(九州大)
i 1
T a
P a
2
c
b
a
3
b
b
b
a
4
a
a
b
b
a
スコアベクトル
ci 3
41
1
1
5
5 6 7 8 9 10
b b a c c b
c
a c
b a c
b b a c
a b b a c
a b b a c
2 0
1 a  b
0 a  b
 ( a, b)  
m
ci    (ti 
j 1
, pj )
j 1
Bit-parallel手法
Shift-And アルゴリズム
Shift-Or アルゴリズム
BNDM アルゴリズム
2016/5/23
情報知識ネットワーク特論 授業資料
42
Shift-And アルゴリズム
R. A. Baeza-Yates and G. H. Gonnet. A new approach to text searching. Proceedings of the 12th International
Conference on Research and Development in Information Retrieval, 168-175. ACM Press, 1989.
S. Wu and U. Manber. Fast text searching allowing errors. Communications of the ACM, 35(10):83-91, 1992.
• レジスタ長のビット演算が並列に計算されることを利用
• パタン長mがワード長wよりも短い場合には、
O(n)時間で非常に高速に動作する
– 一般には O(n・m/w)時間、前処理はO(m+|∑|)
パタン P = ababb を受理する決定性有限オートマトン
任意の
文字
0
a
1
b
2
a
3
b
4
b
5
-1
このNFAを
シミュレートする
パタン P = ababb を受理する非決定性有限オートマトン
任意の
文字
43
0
a
1
b
2
a
3
b
4
b
5
NFAの動き(状態遷移の様子)
パタン P = ababb を受理する非決定性有限オートマトン
任意の
文字
状態番号
a
1
テキストT= a
0
1
2
3
4
5
1: アクティブ
0: 非アクティブ
44
0
1
0
0
0
0
0
b
b
1
1
0
0
0
0
2
a
a
1
0
1
0
0
0
3
b
1
1
0
1
0
0
b
4
a
1
0
1
0
1
0
b
5
b
1
1
0
1
0
0
b
1
0
1
0
1
0
a
1
0
0
0
0
1
1
1
0
0
0
0
Bit-parallel手法のアイデア
a b a b b
パタン P:
テキスト T: a
1
2
3
4
5
0
1
0
0
0
45
0
0
0
0
0
b
1
0
0
0
0
a
0 1
1 0
0 1
0 0
0 0
1
1
0
0
1 & 1
0
0
0
0
Mask table M
b
a
0 1
1 0
0 1
1 0
0 0
1
0
1
0
0
b
b
0
1
0
1
0
a
0
0
0
0
1
1
0
0
0
0
a
b
a
b
b
a
b
1
0
1
0
0
0
1
0
1
1
Ri = (Ri-1<<1 | 1) & M(T[i])
O(1)時間で
計算可能
※つまり、マスクビット列Mと「&」をとることで、
正しい遷移だけを残している!
擬似コード
Shift-And (P, T)
1 m ← length[P].
2 n ← length[T].
3 Preprocessing:
4
for c ∈ ∑ do M[c] ← 0m .
5
for j ← 1 to m do M[ P[j] ] ← M[ P[j] ] | 0m–j10j–1.
6 Searching:
7
R ← 0m.
8
for s ← 1 to n do
9
R ← ((R << 1) | 0m-11) & M[ T[s] ];
10
If R & 10m-1 ≠ 0m then report an occurrence at s.
46
Shift-Or アルゴリズム
• Shift-Andにおけるビット列を反転させたもの
– 利点: Shift-Andよりも演算が少なくなる
a b a b b
パタン P:
テキスト T: a
1
2
3
4
5
1
1
1
1
1
b
0
1
1
1
1
a
1 0
0 1
1 0
1 1
1 1
b
Mask table M
a
1 0
0 1
1 0
0 1
1 1
b
b
1
0
1
0
1
Ri = (Ri-1<<1) | M(T[i])
47
a
1
1
1
1
0
0
1
1
1
1
a
b
a
b
b
a
b
0
1
0
1
1
1
0
1
0
0
Bit-parallel手法の文字クラスへの拡張
ab[ab]bb
パタン P:
テキスト T: a
1
2
3
4
5
0
1
0
1
0
48
0
0
0
0
0
b
1
0
0
0
0
a
0 1
1 0
0 1
0 0
0 0
1
0
0
1
1 & 1
0
1
1
0
Mask table M
b
b
0
1
0
1
0
0
0
1
0
0
b
0
0
1
0
0
b
0
0
0
1
0
a
0
0
0
0
1
1
0
0
0
0
a
b
[ab]
b
b
a
b
1
0
1
0
0
0
1
1
1
1
これだけ!
ここは同じ
Ri = (Ri-1<<1 | 1) & M(T[i])
BNDM アルゴリズム
G. Navarro and M. Raffinot. Fast and flexible string matching by combining bit-parallelism and suffix automata.
ACM Journal of Experimental Algorithmics (JEA), 5(4), 2000.
• 基本はBDMと同じ
• 異なる点
– パタンのfactorかどうかを調べるため、
非決定性(nondeterministic)のSuffix automataを用いる
– そのNFAの状態遷移をBit-parallel手法でシミュレートする
パタンP = announce の反転Prvのsuffixを受理する非決定性オートマトン
I
ε
ε
0
e
ε
1
c
ε
2
n
ε
3
u
ε
4
o
ε
5
n
ε
6
n
49
7
a
8
このNFAを
シミュレートする
初期状態:R0 = 1m
状態遷移:R = (R << 1) & M[ T[i] ]
ε
Shift-Andと同じ
Mask table
擬似コード
BNDM (P, T)
1 m ← length[P].
2 n ← length[T].
3 Preprocessing:
4
for c ∈ ∑ do M[c] ← 0m.
5
for j ← 1 to m do M[ P[j] ] ← M[ P[j] ] | 0m–j10j–1.
6 Searching:
7
s ← 0.
8
while s ≦ n – m do
9
j ← m, last ← m, R ← 1m;
10
while R ≠ 0m do
11
R ← (R << 1) & M[ T[s+j] ];
12
j ← j – 1;
13
If R & 10m-1 ≠ 0m then
14
If j > 0 then last ← j;
15
else report an occurrence at s+1;
16
R ← R << 1;
17
s ← s + last.
50
正規表現の照合
正規表現について
照合処理のながれ
構文木(parse tree)の構築
Thompson’s NFA
Glushkov’s NFA
2016/5/23
情報知識ネットワーク特論 授業資料
51
正規表現とは?
• ファイル名の正規表現
> rm *.txt
> cp Important[0-9].doc
• 検索ツールGrepの正規表現
> grep –E “for.+(256|CHAR_SIZE)” *.c
• プログラミング言語Perlの正規表現
$line = m|^http://.+\.jp/.+$|
52
正規表現の定義
• アルファベットΣ上の正規表現とは、
A={ε,|,・,*,(,)} を用いて次のように定義される。
–
–
–
–
–
(1) εとΣの要素は正規表現である
(2) αとβが正規表現ならば (α・β)も正規表現である
(3) αとβが正規表現ならば (α|β)も正規表現である
(4) αが正規表現ならば α* も正規表現である
(5) 上から導かれるものだけが正規表現である
簡略のために、(α・β)を単に
αβと記述する
• 例: (a・(a|b)*)
• “+”は、αを正規表現とすると、α+ =α・α*の意味で使用され
ることがある。
53
正規表現の意味づけ
• 正規表現をΣ*の部分集合(言語L)に写像する
–
–
–
–
–
(i) ||ε|| ={ε}
(ii) a∈Σに対して || a || = {a}
(iii) 正規表現α,βに対して ||(α・β)|| = ||α||・||β||
(iv) 正規表現α,βに対して ||(α|β)|| = ||α||∪||β||
(v) 正規表現αに対して ||α*|| = ||α||*
• 例:
– ||(a・(a|b)*)||
= {ax | x∈{a,b}*}
q0
b
q2
54
a
a,b
q1
a,b
正規表現と有限オートマトンの関係
• 正規表現の照合問題とは、
– 正規表現αで定義される言語L(α)=||α||の任意の要素を
探し出す問題
– 正規表現で表現できる言語は有限オートマトンでも表現できる。
またその逆も真。
• 正規表現と有限オートマトンは言語を定義する能力が等しい!
• 正規表現に対応する有限オートマトンを作成し、
その動きをシミュレートすればよい。
– 初期状態は常にアクティブ
– テキストを読んでいく過程で、オートマトンが受理状態に
到達したらパタン出現
55
照合処理のながれ
NFAはO(mn)時間で
模倣できる
一般的な方法
Thompson法によるNFA構築
構文解析
(Parsing)
テキスト走査
正規表現
構文木
出現位置の報告
NFA
Glushkov法によるNFA構築
DFA
Filter手法による方法
正規表現
56
抽出
複数パタン
Verify
照合
文字列集合
候補位置決定
DFAはO(2m)のス
ペースが必要
出現位置の報告
Thompson’s NFA
K. Thompson. Regular expression search algorithm. Communications of the ACM, 11:419-422, 1968.
• 用語の定義
– 正規表現 RE を表す構文木 ThRE
– vを頂点とするThRE の部分木Th(v)
• NFAの性質
– 状態数 < 2m、 遷移関数の大きさ<4m →O(m)
– ε遷移を含む
– ε遷移以外の遷移は必ず i番目から i+1番目に遷移する
RE = (AT|GA)((AG|AAA)*) のNFA
ε
1
0
ε
58
4
A
G
2
5
T
A
9
ε
3
ε
ε
6
ε
7
8
ε
12
ε
A
A
13
10
A
G
14
ε
11
A
ε
15
ε
16
ε
17
NFA構築アルゴリズム
構文木ThREに対して、ボトムアップにノードを探索(post order traverse)
しつつ、各ノードについて以下を実行
(iv) ノードvが連結”|”の場合 → (vL| vR)
(i) ノードvが空語εの場合
I
ε
F
ε
I
(ii) ノードvが文字aの場合
I
a
59
vL
F
ε
ε
vR
F
(iii) ノードvが連結”・”の場合
→ (vL・vR)
I
ε
vL
vR
F
(v) ノードvが閉包”*”の場合 → v*
ε
ε
I
v*
ε
ε
F
擬似コード
Thompson_recur (v)
1 if v = “|”(vL, vR) or v = “・”(vL, vR) then
2
Th(vL) ← Thompson_recur(vL);
3
Th(vR) ← Thompson_recur(vR);
4 else if v=“*”(vC) then Th(v) ← Thompson_recur(vC);
5 /* ここまでが再帰的な処理 (post order traverse) */
6 if v=(ε) then return construction (i);
7 if v=(α), α∈Σ then return construction (ii);
8 if v=“・”(vL, vR) then return construction (iii);
9 if v=“|”(vL, vR) then return construction (iv);
10 if v=“*”(vC) then return construction (v);
Thompon(RE)
11 vRE ← Parse(RE$, 1); /* 構文木を構築する */
12 Th(vRE) ← Thompson_recur(vRE);
60