power point

Transcript power point

擬似クリークを列挙する
多項式時間遅延アルゴリズム
宇野毅明（国立情報学研究所
＆総合研究大学院大学）
2007年3月9日第111回アルゴリズム研究会
問題定義と動機
密な部分構造
・グラフから密な構造を見つけ出す、という手法は、データマイニングや
データ工学を始めとする情報学の分野で非常に基礎的であり、多くの研
究で用いられている
（クラスタリング・webコミュニティー、
グループ化、カテゴリー発見．．．）
・従来、密な構造としてクリーク（特に極大）が重宝されてきた
 クリーク・極大クリークは、十分速く列挙できるようになった
・次のステップとして、よりモデルを豊かにするため、あるいはエラーやあ
いまいさ、不完全さに対して頑強な結果を得るため「クリークっぽいもの」
の発見が注目されつつある
（いくつもの重なり合う極大クリークが１つになる、データにノイズやエラー
があっても大丈夫）
応用：クラスタリング
対象：データの関連を現すグラフ
（データの項目が頂点、関係のある、類似する項目間に枝）
類似する、あるいは互いに
関連するグループ
互いに背反だが、
立場が同じ項目のグループ
・データの種類・規模で大きさが変わる
・通常、それほど密ではない（次数高々100）
・局所的に密な部分が存在
・パワー則、スモールワールドが成り立つことが多
Web コミュニティ発見
Webコミュニティ：内容や嗜好が似ているweb サイトの集合
モデル： webページ、又はwebサイトのリンク構造からグラフを作る
このグラフのクリーク・2部クリークは、webコミュニティになっている
だろう
（リンクは、似た内容・嗜好のページに貼られるから）
サイト
趣味バイク
バイク好き
サイト
ホンダ
カワサキ
バイク万歳
バイク人生
ラーメン
好き
ラーメン
命
博多
ラーメン
札幌
ラーメン
ヤマハ
・ごみページを除いた後のグラフの大きさは100万～1億程度
・平均次数10程度、パワー則が成り立ち、局所的に密
類義語群の発見
対象：単語ネットワーク
（単語が頂点、単語AとB を組合せて
複合語ができるとき、枝を張る）
関東
地方
関西
地区
中国
電力
北陸
2部クリークの片側が、
似た意味を持つ単語の集合
・大きなものでも、15万語程度
・通常、それほど密ではない（次数高々200）
・局所的に密な部分が存在
・パワー則、スモールワールドが成り立つ
類似論文のグループ化
対象：論文・アブストラクトグラフ
（論文が片側の頂点、単語がもう
片側の頂点で、論文のアブストラクト
が単語を含むときに枝を張る）
論文A
論文B
論文C
語1
語2
語3
論文D
語：研究分野を表す単語群
論文：その分野の論文のグループ
・大きなものでも、10万語程度
・通常、それほど密ではない（平均次数高々200）
・局所的に密な部分が存在
・パワー則、スモールワールドが成り立つ
擬似クリーク（密部分グラフ）
・頂点部分集合 S に対して、S の枝密度を
(S の頂点誘導グラフの枝数)
(|S|-1)|S| /2
クリークの
枝数
- S がクリーク  枝密度は 1
- S が独立集合  枝密度は 0
頂点の組のうち
結ばれているも
 S の枝密度が高ければ、クリークに近くなる
のの割合
閾値 θに対して S が擬似クリーク  (Sの枝密度) ≧ θ
与えられたグラフの擬似クリークを全て見つける問題を扱う
擬似クリークに関わる既存の結果
・１つ見つけるのは簡単
 空集合、１頂点の集合、枝の両端点が必ず擬似クリークになる
・大きさ k の擬似クリークを見つける問題はNP完全
 θ= 1 とすると、大きさ k のクリークを見つける問題になる
・最も枝密度の高い頂点数 k の部分グラフを見つける問題はNP完全
－ O(|V|1/3-ε) の近似率のアルゴリズムがある
－最適解がある程度濃い、とい条件では O((n/k)ε) 近似 [鈴木徳山]
－枝数が Ω(n2) ならPTASがある[Aroraら]
・データマイニングなどの分野で、擬似クリークを発見するアルゴリズムはいく
つか提案されているが、いずれも完全性がなく、列挙問題として捉えている研
究はない
分割法によるアプローチは困難
・列挙アルゴリズムの基本的な構築の仕方として、分割法
（分枝限定法）がある
・各反復で、ある頂点を含むものと
含まないものに解集合を分割し、
できた集合が空でなければ、
再帰的に列挙を行う
v
v1
1
v1, v2
解があるか判定
する問題がNP完全
v1, v2
v1, v2
v1, v2
困難性の証明
Theorem 1 与えられたグラフ G と閾値 θ、頂点部分集合 U
に対して、U を含む擬似クリークが存在するかどうかを判定
する問題はNP完全である
証明: 大きさkのクリークの存在判定を帰着
入力グラフ
G=(V,E)
|V|2 -1
枝密度 =
|V|2
2|V|2 個の
頂点を追加
し、Uとする
θ=
|V|2 -1
|V|2 +ε
・ (U + クリーク) のみが擬似クリーク
・大きくなると枝密度が真に増加）
・ εを適当に設定すると、大きさが
k 以上のクリークのみが擬似
クリークになる
果たして本当に困難か？
・この証明は「とても濃い」グラフの判定問題が難しいことを
証明しただけ
 密度が中くらいのところについては、良くわからない
 出力多項式時間アルゴリズムはできるかもしれない
θ= 1
出力多項式時間 計算時
間が入力の大きさと出力の
大きさに対して多項式
簡単
簡単
θ= 0
困難
?????
多項式時間（遅延）アルゴリズム
逆探索法によるアプローチ
・列挙する対象の間に、非巡回的な親子関係を定義
objects
親子関係が導く根付き木を深さ優先探索することで列挙
探索は、再帰的に子どもを見つけることで行えるので、
子どもを見つけるアルゴリズムがあれば十分
擬似クリークの親
・ v*(K) ： G[K] の最小次数頂点の中で最小添え字のもの
・擬似クリーク K の親を K＼v*(K) で定義
K
K の親
・ K の枝密度＝ G[K] の平均次数 ÷(|K|-1)
・親は、K から最も枝密度の薄い部分を取り除いたものなので、
やはり擬似クリークになる
・親は大きさがちょうど１小さい  親子関係は非巡回的
子どもの発見
・擬似クリークの親は、頂点を１つ取り去って得られる
 擬似クリークの子どもは頂点を１つつけることで得られる
（子どもの候補 |V| 個しかない）
・ K∪v が K の子どもである 
① 擬似クリークであり
② K∪v の親が K （つまりはv*(K∪v) = v ）
・この条件を各頂点について素朴に評価するとO(|V|+|E|) 時間
・もう少し速くしましょう
子どもである条件
・ degK(v): v に隣接する K の頂点の数
 degK(v) がある一定値以上であるときのみ、 K∪v は擬似ク
リークになる（① の条件）
・各反復でdegK(v)を更新し（O(deg(v)) 時間）、その値ごとに分類
しておくことで、 ① の条件を満たすものを１つあたり定数時間で
見つけられる
・②の条件 v*(K∪v) = v も、degK(v)の値で場合分けするとクリア
－ degK(v) < K の最小次数  K∪v は必ず Kの子ども
－ degK(v) > K の最小次数＋１  K∪v は Kの子どもでない
子どもである条件 (2)
・ S(K): K の最小次数の頂点を、添え字順に並べた列
・ degK(v) ＝ K の最小次数 or ＋１  v が、
－ v より degK、添え字ともに小さい頂点はない
－ degK(u) ＝ degK(v) かつ添え字が v より小さい u 、および
degK(u) ＝ degK(v)-1 かつ添え字が v より大きい u
は必ず v と隣接
・ K の頂点を次数順・添え字順に見て、隣接リストをスキャンし、
K に含まれない各頂点に対して「隣接しない初めての頂点」を
見つける  それと、自分の添え字を比べればよい
１反復のチェック・データ更新時間は O(Δ(Δ+log |V|)) となる
計算機実験
実装
実験環境： Pentium M 1.1GHz、256MBメモリ＋ cywin ＆ C
・実装は、単純なものを用いた
－ degK(v) の更新とグループ分けはするが、並び替えはしない
－ degK(v)＝ Kの最小添え字 or ＋１となる頂点に対して、素
朴にチェックをする
 この条件を満たす頂点はそれほど多くないだろう
 隣接しない頂点がすぐ見つかって、頂点１つに対する
チェックも結局は短時間でできるだろう
実験に用いたグラフ
- 通常のランダムグラフ
（確率 p で枝をはる）
- 局所的に密なランダムなグラフ
（自分と添え字が近い頂点のみに
確率1/2で枝を張る）
- ランダムに作成したスケールフリーグラフ
（頂点を順に追加し、次数に比例する確率で
他の頂点を定数本選び、枝を張る）
- 現実のデータ
（ソーシャルネットワークデータ）
ランダムグラフ
・枝の確率が 0.1 で、頂点数が 200-2000。閾値は90%。時間は
百万個あたり。クリーク列挙と比べると10倍程度遅い
r a ndom gr a ph p=0.1
#clique
time per 1M clique
time clique
#p-clique 0.9
time per 1M 0.9
time 0.9
#p-clique 0.8
time per 1M 0.8
time 0.8
1000000000
100000000
10000000
1000000
100000
1000
100
10
1
0.1
6400
4524
3200
2262
1600
1131
800
565
400
282
0.01
200
time (sec) & #cliques
10000
#vertices
次数が大きくなるにつれて、ほぼ線形に時間が伸びる
局所的に密なランダムグラフ
・自分の回り±30頂点に確率が 0.5で枝を張る
・ 100～25600 頂点、閾値は90%。同じくクリークより10倍遅い
locally dense random graph
#clique
1000000000
time per 1M clique
100000000
10000000
time clique
1000000
#p-clique 0.9
time per 1M 0.9
10000
1000
time 0.9
100
#p-clique 0.8
10
time per 1M 0.8
1
0.1
time 0.8
3E+05
64000
16000
4000
0.01
1000
time (sec) & #cliques
100000
#vertices
次数が変化しないので、時間は伸びない
ランダムに作成したスケールフリーグラフ
・大きさ10のクリークに１つずつ頂点を加える
・次数に比例する確率で他の頂点を10個選び、枝をはる
10000000
1000000
100000
#clique
time per 1M clique
time clique
#p-clique 0.9
time per 1M 0.9
time 0.9
#p-clique 0.8
time per 1M 0.8
time 0.8
10000
1000
100
1
0.1
16
00
0
32
00
0
64
00
12 0
80
0
25 0
60
00
80
00
40
00
20
00
0.01
10
00
time & #cliques
10
時間は非常にゆっくりと増加
#vertices
現実問題
・論文の共著関係を表すグラフ
・頂点数は3万、枝数は12万5千、スケールフリー
1000000000
real-world data
100000
#p-clique
time
time per 1M
1000
10
0.83
0.85
0.88
0.9
0.93
0.95
0.98
1
0.1
1
time & #p-cliques
10000000
threshold
1個あたりの計算時間は閾値によらないようだ
閾値を変化させる
・ 10000頂点の局所的に密なグラフで、閾値を変化させる
change of threathold
次数が小さくなると、候補が増えるため時間が増大
2
5
8
11
1
14
epsilon
10
20
10
25
40
55
70
85
1
100
17
10
time(sec) per 1M
100
10
0
time(sec) per 1M
change of threathold
epsilo
考察＋α
・実際の列挙の時間は、ひとつあたりほぼ定数時間
・理論的なバウンド、最大次数の２乗よりはるかに小さい
・なぜ現実的には速いのか？
－データの更新の時間は、追加された頂点の次数に線形
 degK を小さくする頂点の次数が大きいとは思えない
－子どもかどうかチェックしなければならない頂点は少ない
 子どもの数の定数倍
まとめ
・擬似クリーク（枝密度の高い部分グラフ）を列挙する初の多項式時間ア
ルゴリズムを提案
・分枝限定法的なアプローチは難しいであろうと思われることを、子問題
がNP困難となることで証明
・計算実験により、現実的な、疎なグラフに対して有効に働くことを実証
将来の課題：
・計算量と現実的な計算時間のギャップを、より良く説明できないか
・計算量は減らせないか
・困難性の証明を、より小さい閾値に適用できるよう、改良できないか
・極大な擬似クリーク、またはそれに類するものが効率良く列挙可能か

power point

Transcript power point

Directory