Web検索における リンク構造解析を利用した ランキング法
Download
Report
Transcript Web検索における リンク構造解析を利用した ランキング法
Web検索における
リンク構造解析を利用した
ランキング法
中窪 仁† 佐藤隆士‡
†大阪教育大学大学院総合基礎科学専攻
‡大阪教育大学情報処理センター
発表内容
背景
研究目的
関連研究
提案手法
考察
実験概要
まとめ
今後の課題
背景
WWW空間上には膨大な情報が存在
膨大な情報から必要な情報のみを抽出す
ることは困難
情報抽出支援ツールであるWeb検索シス
テムを利用
Web検索システムの検索精度は未だ十分
ではない
研究目的
現在のWeb検索システム
– Webページ本文と検索語句による全文検索
– Webページ間のリンク構造解析による文書抽出
Webページ特有の情報であるリンク構造を利用
した手法を提案
Web検索システムの精度向上を図る
関連研究
- PageRankアルゴリズム(1) -
PageRankアルゴリズム
– Webページ間のリンク構造にランダムウォー
クモデルを適用
– WWW空間上の全Webページへの遷移確率
をもとにスコアリング
関連研究
- PageRankアルゴリズム(2) -
PageRankアルゴリズム例
90
30
30
30
30
15
15
45
15
15
15
関連研究
- PageRankアルゴリズム(3) -
PageRankアルゴリズムの特徴
– WWW空間上の各Webページの被参照度を
示す固定値
– 検索語句によって左右されない静的スコア
PageRankアルゴリズムの問題点
– リンク構造上隣接していないWebページへの
影響が減少
関連研究
- HITSアルゴリズム(1) -
HITSアルゴリズム
– リンク構造を利用して検索語句に対して適切
なコミュニティを抽出
– “authority”
検索語句に関する的確な情報を持つWebページ
集合
– “hub”
リンク構造上,“authority”に含まれるWebページ
と隣接関係を持つWebページ集合
関連研究
- HITSアルゴリズム(2) -
HITSアルゴリズム例
auth: 0.408
hub: 0.000
auth: 0.000
hub: 0.408
auth: 0.816
hub: 0.000
auth: 0.000
hub: 0.816
auth: 0.408
hub: 0.000
auth: 0.000
hub: 0.408
関連研究
- HITSアルゴリズム(3) -
HITSアルゴリズムの特徴
– “authority”,“hub”の二種類のスコアを算出
– 検索語句によって左右される動的スコア
HITSアルゴリズムの問題点
– 常に適切なコミュニティを抽出できるとはかぎ
らない
提案手法概要(1)
提案概要
Webページ本文と検索語句による全文検索結果
+
リンク構造解析による静的スコアリング
+
リンク構造解析による動的スコアリング
Web検索システムの精度向上
提案手法概要(2)
提案手法手順
Corpus
Result
全文検索スコア
Link Structure
Data
動的スコア#1
動的スコア#2
静的スコア
グループ化
スコアリング
ランキング
Webページのグループ化(1)
Webページのグループ化
– Webページ群をグループとして扱う
– グループの定義
同一の作成者が作成し,類似分野の情報を持つと
思われるWebページ群
– グループ化手法
「類似分野の情報は同一の親を持つ部分木であ
る」と仮定
ディレクトリ構造,リンク構造の二通りのアプローチ
Webページのグループ化(2)
ディレクトリ構造方式
B
A
C
D
ディレクトリ構造を木構
造とみなしてグループ化
リンク構造解析が不要
作成者のディレクトリ分
類法によってグループ
の質が変化
ルート
:グループ
E
Webページのグループ化(3)
リンク構造方式
B
A
C
D
ルート
E
:グループ
リンク構造を木構造とみ
なしてグループ化
作成者の意図通りにグ
ループ化が可能
リンク構造によるグルー
プ化は難易度が高い
静的スコアリング(1)
静的スコアリング
– 小規模コミュニティのスコアリングが目的
– グループ化済みのリンク構造についてスコア
リング
– スコアリングにはPageRankアルゴリズムを
使用
静的スコアリング(2)
静的スコアリング例
F
A
B
G
C
D
ディレクトリ
構造方式
H
E
:Webサイト
(A..Eはグループ化例と同じ構造を持つ)
F
グ
ル
ー
プ
化
F
リンク
構造方式
A
BC
G
DE
H
AB
G
CDE
H
静的スコアリング(3)
静的スコア例
Grouping
Method
A
B
C
No
0.26 0.15 0.26
0.38
Dir.
0.22
0.22
Link
Page
D
E
0.11 0.11
0.22
0.36
F
0.00
0.00
0.00
G
0.06
0.09
0.22
グループからリンクされている
Webサイト外ページのスコアが増加
リンク構造上隣接関係にない
Webページへの影響度が増加
H
0.06
0.09
0.22
静的スコアリング(4)
静的スコア例
Grouping
Method
A
B
C
No
0.26 0.15 0.26
0.38
Dir.
0.22
0.22
Link
Page
D
E
0.11 0.11
0.22
0.36
F
0.00
0.00
0.00
G
0.06
0.09
0.22
グループ化によりスコアが均一化
本来のリンク構造が表す各Webページの
特性が失われている
H
0.06
0.09
0.22
動的スコアリング(1)
動的スコアリング
– 全文検索結果集合に含まれるリンク構造につ
いてスコアリング
– スコアリングにはPageRankアルゴリズムを
使用
– グループ化適用の前後二種のスコアを算出
グループ化適用前を#1,適用後を#2とする
動的スコアリング(2)
動的スコアリング#1(グループ化適用前)
– 全文検索結果集合内での有用なWebページ
の抽出が目的
動的スコアリング#2(グループ化適用後)
– 全文検索結果集合内のWebページを含む小
規模コミュニティのスコアリングが目的
– 動的スコアリング#1からスコアリング範囲を
グループ単位まで拡張
動的スコアリング(3)
動的スコアリング例
#1
#2
U
V
W
Y
X
:結果集合
Z
グ
ル
ー
プ
化
:グループ
U
V
W
XYZ
動的スコアリング(4)
動的スコア例
#
1
2
Page
U
V
W
X
Y
Z
1.00 0.00 0.00 0.00 0.00 0.00
0.50
0.50 0.00 0.00
各Webページの特性を明確に示す
スコアリングが可能
動的スコアリング(5)
動的スコア例
#
1
2
Page
U
V
W
X
Y
Z
1.00 0.00 0.00 0.00 0.00 0.00
0.50
0.50 0.00 0.00
複数のWebページにスコアリングされている
検索結果集合内Webページのみスコアを適用することにより
最終的なランキング時のノイズ混入を防止しつつ評価可能
ランキング(1)
ランキング
– 得られたスコアを最適な手法をもって併合
全文検索結果
– 検索語句に特化したスコア
静的スコア
– 各Webページ特性の大まかなスコア
動的スコア#1
– 検索語句に特化,各Webページ特性の明確なスコア
動的スコア#2
– 検索語句に特化,各Webページ特性の大まかなスコア
ランキング(2)
スコア併合手法
– 各スコアにそれぞれ一定の重みを付け,加算
Score ( p) w r Retrieval ( p) w s Static( p) wd Dynamic( p)
w : Weight ( w r wd w s , wd1 wd2 )
Retrieval ( p ) : Full - text Search Score of Document p.
Static( p ) : StaticScore of Document p.
D1 ( p ) : Dynamic Score of Document p without Grouping.
D2 ( p ) : Dynamic Score of Document p with Grouping.
Dynamic( p ) w d1 D1 ( p ) w d2 D2 ( p )
提案手法考察
考察
– 検索語句を含むWebページを高評価
– 類似情報を持つであろう小規模コミュニティを
考慮
Web検索システムの精度向上が可能
実験概要(1)
実験対象データ(NTCIR*テストコレクション)
– 検索対象
NW100G-01
– 100GbyteのHTMLデータ
– 上記HTMLデータに含まれるリンク構造データ
URI総数:約2370万ページ
– HTMLデータのあるもの:約1100万ページ
リンク総数:約8000万リンク
– 検索語句
トピック総数:153トピック
* NII-NACSIS Test Collection for IR Systems Project
情報検索システム評価用テストコレクション構築プロジェクト
実験概要(2)
実験環境
– ハードウェア
CPU:Pentium4 2.4GHz
Memory:1Gbyte
– OS
FreeBSD
実験概要(3)
プロトタイプ
– 全文検索プログラム
グラムベースインデクスによる検索システム
スコアリングには tf・idf 法を使用
– グループ化プログラム
ディレクトリ構造方式にてグループ化
– PageRankスコア算出プログラム
HTMLデータのないWebページも算出
実験概要(4)
収集データ
– グループ化
グループ作成手法を検討しつつ数パターン
– 静的スコア
グループ化適用前のスコア
グループ化適用後のスコア
– 動的スコア
全文検索結果上位5000件分のスコア
– ランキング
各スコアの重みを検討しつつ数パターン
実験結果(1)
全文検索システム
– 処理時間
前処理:20時間
インデクス作成処理:15時間
検索処理平均値:72ミリ秒/語
検索処理中央値:26ミリ秒/語
– 処理結果
インデクスサイズ:約30Gbyte
実験結果(2)
グループ化
– 処理結果
グループ総数:約467万グループ
最大値 21468ページ/グループ
最小値
1ページ/グループ
平均値
5ページ/グループ
中央値
1ページ/グループ
実験結果(3)
PageRankスコア算出
– 処理時間(算出対象:約2400万ページ)
前処理:20時間
算出:45分(未収束,50ループ)
– 処理結果
スコア最大値:0.0002352483
スコア最小値:0.0000000000
スコア中央値:0.0000000084
スコア平均値:0.0000000422
まとめ
リンク構造解析を利用したランキング法と
して,静的・動的スコアリング法を提案
検索語句を含むWebページに重点をおき
つつ,小規模コミュニティを考慮可能
ランキング時の各スコアの重みを検討することで
興味深い結果が得られると思われる
今後の課題
提案手法についての実験
精度に関するデータ収集・検討
ランキング時の重み最適値の検討
Webページグループ化手法の検討
処理コスト低減手法の検討
ご静聴ありがとうございました