地域ウェブ空間メトリックス - 北陸先端科学技術大学院大学

Download Report

Transcript 地域ウェブ空間メトリックス - 北陸先端科学技術大学院大学

地域ウェブ空間における構造特性
地域ウェブ空間における構造特性
と抽出の研究:八王子周辺地域
と抽出の研究:八王子周辺地域
-2004年3月5日(金)-
第2回 「ネットワーク生態系と空間デザイン」シンポジウム
東京工科大学メディア学部
学籍番号 00P033 石村 享久
東京工科大学 メディア学部 石村享久
1
インターネット空間生態系アーキテクチャ
目次
- 背景と研究目的 -
- データと考察 -
1.1.背景
1.2.研究目的
4.1.データ取得対象地域
4.2.地域ウェブ空間サイズ
4.3.地域ウェブ空間の大陸のデータ
地域ウェブ空間の大陸のグラフ
4.3.1.可視化データ
4.4.リンクハブ・被リンクハブ
4.5.連結度と連結密度
4.6.連結位置と連結方向
- 地域ウェブ空間メトリックス -
2.地域ウェブ空間メトリックス
2.1.地形的捉え方
2.1.1.地形的捉え方(補足1)
2.1.2.地形的捉え方(補足2)
2.2.クラスタ構造
2.3.リンクハブと被リンクハブ
2.4.リンクの種類
2.5.連結度と連結密度
2.6.連結位置と方向
大陸や島の変化
- ツールの説明 -
3.ツールの説明
- 今後の課題 -
5.今後の課題
- おわりに -
6.おわりに
- 謝辞 -
- 参考文献 -
東京工科大学 メディア学部 石村享久
2
インターネット空間生態系アーキテクチャ
1.背景と研究目的
1.1.背景
病気の感染ルート
ネットワークとは 様々なネットワークの存在
食物連鎖 ノードとリンクで成り立つもの
1. そのネットワーク自身の特徴
2. ネットワーク共通(普遍的)性質
遺伝子の染色体
B
細胞内生化学反応
A
リンク
ノード
論文の参考文献 ノード
分野 : ネットワーク分析
コンピュータウイルス
ネットワークという分野で世の中を
考えていく。
WWW情報空間
東京工科大学 メディア学部 石村享久
3
インターネット空間生態系アーキテクチャ
1.背景と研究目的
1.2.研究目的
地域ウェブ空間の構造
構造解明
可視化
比較
地域ウェブ空間の生態系
成長における規則性解明
定点観察
本研究 : 地域ウェブ空間の構造特性解明
インターネット空間を含めた都市デザイン
活動内容
評価指標(メトリックス)の考案
サイトを利用した連絡手段の作成を考える。
各メトリックス項目に対して取得ツール作成
データの取得と考察(現状把握)
地域の活性化を考える。
対象地域
他の都市との交流を考える。
比較
八王子とその周辺の7地域
(前期は八王子と三鷹)
地域ウェブ空間の利用状況
協力
サイト視聴率
山形大学
北陸先端科学技術大学院大学
リンク通過経路
東京工科大学 メディア学部 石村享久
4
2.地域ウェブ空間メトリックス
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
WWWネット
ワークの指標
メトリックス項目
地域独特の
指標
中央大陸
IN大陸
地形的捉え方
大陸
○
○
島
○
○
クラスタリング係数
○
○
無向グラフ隔たり数
○
○
リンクハブ
○
○
被リンクハブ
○
○
OUT大陸
半島
トンネル
地域単体を
見る
クラスタ構造
地域ウェブ空間
ハブの存在
リンクの種類
2地域の関係を見る
地域ウェブ空間内部リンク
○
地域ウェブ空間外部リンク
○
連結度
○
連結密度
○
連結位置(位置と方向)
○
大陸や島の変化
○
東京工科大学 メディア学部 石村享久
5
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.1.地形的捉え方

中央大陸


IN大陸


IN大陸やOUT大陸に接続しているが他には接続していない。
トンネル


中央大陸から出た先だが、中央大陸へ戻れない。
半島


中央大陸に辿り着けるが、中央大陸からは戻れない。
OUT大陸


この部分に含まれる2つのサイトは任意のリンクを通って行き
来できる。(自サイトへ戻ることができる)
IN大陸からOUT大陸へ向かうが、中央大陸を通過しない。
島

大陸とは繋がっていない。
※1. 中央大陸が複数存在した場合は、最も大きなものを中央大陸とする。
※2. 半島としかリンクを持たないサイトは、半島に含める。
補足. 向き付けの存在するネットワークでは以上の地形にわけることができる。
. WWW空間では、中央大陸:IN大陸:OUT大陸:半島と島=1:1:1:1
東京工科大学 メディア学部 石村享久
6
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.1.1.地形的捉え方(補足1)
※1. 中央大陸が複数存在した場合は、最も大きなものを中央大陸とする。
中央大陸ではない
D
中央大陸である
B
A
E
C
• A,B,Cの中央大陸と、D,Eの中央大
陸があるが、A,B,Cの方が大きいので、
そちらを中央大陸とする。
(中央大陸は1つだけとする。この図の
場合、D,EはIN大陸とする)
※2. 半島としかリンクを持たないサイトは、半島に含める。
A
B
D
C
半島に含めてしまう
• 半島(IN部分)はAがIN大陸のとき、B,Cが半
島となるが、DはIN部分から来ることは出来ない。
この場合、Dは半島(IN部分)に含んでしまう。
• 半島(OUT)やトンネルに関しても同様に行う。
東京工科大学 メディア学部 石村享久
7
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.1.2.地形的捉え方(補足2)
左図のようなネットワークでは
IN大陸
・ 地形的捉え方はこのようになり
S
半島IN部分
・ Sの文字からリンクで移動する場合
辿り付けるサイトは限られる。
中央大陸
S
S
半島OUT部分
OUT大陸
本来、IN大陸や島はリンクを辿ることでは探
し出せないのだが、先にノードを用意して、そ
のネットワークを地形的に分けていく場合、
IN大陸や島を含めた分類が可能になる。
東京工科大学 メディア学部 石村享久
8
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.2.クラスタ構造
クラスタ1
A
E
B
D
I

J
コミュニティC
• サイトH
• サイトI
• サイトJ
コミュニティB
• サイトE
• サイトF
• サイトG
クラスタ(集まり)を作ろうとする性質



F
H
C
G
コミュニティA
• サイトA
• サイトB
• サイトC
• サイトD
クラスタ2
クラスタリング係数(任意のノードの知り合い2つがまた知り合いである確率)
隔たり数(そのクラスタ内部間の平均経路長)
クラスタリング係数と隔たり数は、リンク関係のあるクラスタごとに調べる
(ただし、無向グラフとして考える)
補足. クラスタリング係数は一般的なネットワークでは0.50の値を取ると言われている。
. WWW空間は19次の隔たり(1998年)であった。
東京工科大学 メディア学部 石村享久
9
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.3.リンクハブと被リンクハブ


ハブとはリンクを多く所持している存在のことである。
向き付けのネットワークでは、リンクするハブ(リンクハブ)とリンクされる
ハブ(被リンクハブ)は同一のものとは限らない。
リンクハブ(多くリンクしている)
被リンクハブ(多くリンクされている)
補足. ハブの存在は、サイト数とそのサイトの所持リンク数をグラフにするとベキ法則をとる
. ハブには80対20の法則がある。(ネットワークの2割のノードが8割のリンクを所持している)
東京工科大学 メディア学部 石村享久
10
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.4.リンクの種類
ウェブドキュメントを点として、サイトを考える
内部リンク
外部リンク
サイトを点として、地域ウェブ空間を考える
地域ウェブ空間内部リンク
地域ウェブ空間外部リンク
地域ウェブ空間
サイトA
サイトB
ウェブドキュメント
ウェブドキュメント
内部リン
ク
ウェブドキュメント
外部リン
ク
外部リン
地域ウェブ空
ク
間外部リンク
外部リン
ク
地域ウェブ空
間外部リンク
外部リン
ク
ウェブドキュメント
地域ウェブ空
間内部リンク
地域ウェブ空
間外部リンク
東京工科大学 メディア学部 石村享久
11
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.5.連結度と連結密度
連結度
連結度は片方の地域ウェブ空間のサイトから、
もう片方の地域ウェブ空間へのリンク数を数え
る。(左図の場合AからBは6の値となる)
連結密度
連結密度は2つの地域ウェブ空間のサイト数
から、ひくことのできる最大リンク数を考え、実際
のリンク数の数を考える。
6
4 +4 +4
地域ウェブ空間A
=
実際のリンク数
Aのサイト数×Bのサイト数
地域ウェブ空間B
東京工科大学 メディア学部 石村享久
12
インターネット空間生態系アーキテクチャ
2.地域ウェブ空間メトリックス
2.6.連結位置と連結方向
大陸や島の変化


WWWのリンクは向き付けのネットワークなので連結位置と方向を見る
ことができる。
他方のクラスタへのリンクが存在する場合、結合後クラスタの数が減る
ことになる。(単純な足し算にならない)
地域情報空間A
地域情報空間B
+
単純な足し算なら…
=
ひとつの大陸となる
このようなリンク関係があるなら
東京工科大学 メディア学部 石村享久
13
インターネット空間生態系アーキテクチャ
3.ツールの説明
3.ツールの説明

カテゴリ情報入手ツール [ Visual Basic 6.0 ] [ 山形大学 ]


リンク関係判別ツール [ Visual Basic 6.0 ] [ 山形大学 ]


リストアップしたサイト間のリンクを探し出す。
地形的捉え方判別ツール [ Java ] [ 東京工科大学 ]



Yahooサイト内の指定したカテゴリに含まれるサイトをリストアップする。
得られたリンク関係を用いて、地形的判別を行う。
各サイトのデータを出力する。
可視化ツール [ Java ] [ 北陸先端科学技術大学院大学 ]


各クラスタ情報
得られたリンク関係を用いて、ネットワーク空間を可視化する。
可視化データ
クラスタリング係数・隔たり数の計算を行う。
サイト情報
リンク関係
サイトのリストアップ
東京工科大学 メディア学部 石村享久
14
インターネット空間生態系アーキテクチャ
4.データと考察
4.1.データ取得対象地域

対象地域:八王子とその周辺地域
八王子と周辺地域
昭島
58サイト
あきる野
80サイト
檜原
18サイト
日野
89サイト
八王子
462サイト
町田
361サイト
(画像)yahoo地図情報
相模原
533サイト
Yahoo登録サイト
東京工科大学 メディア学部 石村享久
総1601サイト
(12月28日)
15
インターネット空間生態系アーキテクチャ
4.データと考察
4.2.地域ウェブ空間サイズ
地域名
地域ウェブ空
間サイト数
リンクを持
つサイト数
最も大きい
クラスタ(大
次に大きい
クラスタ(最
陸)
も大きい島)
大陸が地域ウェブ空間の占
める割合(%)
檜原
18サイト
14サイト
14サイト
1サイト
77.8%
昭島
58サイト
19サイト
13サイト
3サイト
22.4%
あきる野
80サイト
42サイト
42サイト
1サイト
52.5%
日野
89サイト
50サイト
46サイト
1サイト
51.7%
町田
361サイト
152サイト
142サイト
2サイト
39.3%
八王子
462サイト
209サイト
177サイト
5サイト
38.3%
相模原
533サイト
203サイト
174サイト
3サイト
32.6%
7地域
1601サイト
759サイト
677サイト
5サイト
42.3%
※)次に大きいクラスタ(リンク関係があるもの)が存在しない場合、孤立したサイトが存在するので1を表示
0
20
40
60
80
100
リンクを持つサイトの大部分で形成される大きなクラスタ(大陸)の存在
地域ウェブ空間の規模に関係なく、島は比較的小さなクラスタのみとなる
地域ウェブ空間内のリンクでは5割6割のサイトへ到達(移動)不可能ということになる
東京工科大学 メディア学部 石村享久
16
インターネット空間生態系アーキテクチャ
4.データと考察
4.3.地域ウェブ空間の大陸データ
サイト数
OUT
半島IN 半島OUT トンネル
中央大
地形を3つに分類(島を除く)
地形を4つに分類
陸 (IN大陸/中央大陸/OUT大陸/半島)
大陸
大陸側 大陸側
(IN大陸と半島IN部分/中央大陸とトンネル/OUT大陸と半島OUT側)
大陸
内
IN大陸
クラスタリ
ング係数
隔たり数
0.5889
1.791
檜原
14
中央大陸が複数存在するため判別ができません
昭島
13
3
4
5
0
1
0
0.6709
2.243
あきる野
42
5
8
21
0
7
1
0.4411
2.616
日野
46
10
20
16
0
0
0
0.5847
2.244
町田
142
52
19
18
51
2
0
0.4518
3.432
八王子
177
63
17
39
52
4
2
0.3605
3.173
相模原
174
60
53
25
32
4
0
0.4719
3.538
7地域
677
191
172
190
88
24
12
0.4235
3.934
40%
60%
80%
100%
0%
20%
東京工科大学 メディア学部 石村享久
17
インターネット空間生態系アーキテクチャ
4.データと考察
4.3.地域ウェブ空間の大陸グラフ
大陸内を、IN大陸・中央大陸・OUT大陸・半島(トンネル含む)の4要素で分けた場合
IN大陸
昭島
中央大陸
あきる野
日野
OUT大陸
町田
半島トンネル
八王子
相模原
7地域
大陸内を、IN大陸側(IN大陸と半島IN部分)・中央大陸側(中央大陸とトンネル)・OUT大陸側(OUT大陸と半島OUT部分)で分けた場合
昭島
IN大陸側
あきる野
中央大陸側
日野
町田
OUT大陸側
八王子
相模原
7地域
※)檜原は地形的捉え方ができない地域ウェブ空間なので上の2つのグラフに含んでいません
東京工科大学 メディア学部 石村享久
18
インターネット空間生態系アーキテクチャ
4.データと考察
4.3.1.可視化データ
檜原
14サイト
昭島
13サイト
あきる野
42サイト
日野
46サイト
町田
八王子
相模原
7地域
142サイト
177サイト
174サイト
677サイト
※ クロスエントロピーによる可視化
(可視化には他に、多次元尺度法、ばねモデル、などがある。)
東京工科大学 メディア学部 石村享久
19
インターネット空間生態系アーキテクチャ
4.データと考察
4.4.リンクハブ・被リンクハブ
リンク上位5つ
(1位から5位の数は所持リンク数)
被リンク上位5つ
(1位から5位の数は所持リンク数)
檜
原
昭
島
あ
き
る
野
日
野
町
田
八
王
子
相
模
原
檜
原
昭
島
あ
き
る
野
日
野
町
田
八
王
子
相
模
原
14
13
42
46
142
177
174
14
13
42
46
142
177
174
1位
6
26
31
25
38
51
32
1位
27
11
28
27
64
66
61
2位
6
18
24
24
36
43
29
2位
9
7
11
21
54
14
49
3位
6
10
21
20
26
41
27
3位
7
5
10
19
53
12
49
4位
5
5
11
20
26
32
26
4位
3
4
9
14
21
12
48
5位
4
4
10
14
21
27
19
5位
2
3
7
12
21
12
18
※1)地域の名前の下の数は、リンクを所持しているサイト数(単独のサイトを除いた数)
※2)各サイトの所持リンク数は他の6地域とのリンクも含む
この丸で囲まれているサイトは、外部とのリンクを混ぜない場合でも上位5位に入っている
中央大陸
OUT大陸
IN大陸
東京工科大学 メディア学部 石村享久
20
インターネット空間生態系アーキテクチャ
4.データと考察
4.5.連結度と連結密度
連結度
TO
FROM
檜原
昭島
あきる野
日野
町田
八王子
檜原
(サイト数 18)
昭島
(58)
3
あきる野
(80)
14
6
日野
(89)
1
2
2
町田
(361)
2
7
6
23
八王子
(462)
1
8
10
60
43
相模原
(533)
1
5
1
19
89
0
相模原
10
0
0
0
0
3
12
15
12
9
7
15
21
1
19
36
16
45
85
47
50
連結密度(x1000)
TO
FROM
檜原
昭島
あきる野
日野
町田
八王子
檜原
(サイト数 18)
昭島
(58)
2.873
あきる野
(80)
9.722
1.293
日野
(89)
0.624
0.387
0.280
町田
(361)
0.307
0.334
0.207
0.715
八王子
(462)
0.120
0.298
0.270
1.459
0.257
相模原
(533)
0.104
0.161
0.023
0.400
0.259
0
相模原
6.944
0
0
0
0
0.646
2.324
0.716
0.447
0.291
0.983
0.519
0.568
0.023
0.591
0.875
0.337
0.269
0.441
東京工科大学 メディア学部 石村享久
0.190
0.361
21
インターネット空間生態系アーキテクチャ
4.データと考察
4.6.連結位置と連結方向
IN 大陸
中央大陸
OU T大陸
半島IN
半島OU T
ト ンネル
リンク
被リンク
島
0%
From
20%
40%
中央大陸
To IN大陸
60%
80%
半島IN
OUT大陸
100%
半島OUT
トンネル
島
IN大陸
76
94
58
89
2
0
56
中央大陸
12
68
25
23
0
1
23
OUT大陸
2
2
6
0
0
0
1
半島IN
5
3
1
6
0
0
2
半島OUT
1
1
1
0
0
0
0
トンネル
0
0
0
0
0
0
0
38
9
11
41
1
0
16
193
121
124
135
18
3
993
島
サイト数
東京工科大学 メディア学部 石村享久
22
インターネット空間生態系アーキテクチャ
5.今後の課題
5.今後の課題
メトリックスへのフィードバックは?
リンクの重みを測るBetweennessを用いたコミュニティ抽出方法
既存ツールの改良点は?
GUIを含め、ツールの使いやすさを考える
対象地域を増やして、地域ウェブ空間の共通的性質を考える
地域を結合し大きな集まりとしたときのフラクタル構造や相似を考える
同じ対象地域の一定期間おきの定点観察(本研究は12月のみのデータ)
東京工科大学 メディア学部 石村享久
23
インターネット空間生態系アーキテクチャ
6.おわりに
6.おわりに

本研究(地域ウェブ空間ネットワークの構造解明)を経て…
インターネット空間の指標に地形的捉え方を加えたかたちで地域ウェブ空間
のデータを取ることに成功した。
大陸の存在の確認
島が小さくなる
リンクハブと被リンクハブは別のものになる
(リンクハブはIN大陸と中央大陸、被リンクハブはOUT大陸が多い)
連結度や連結位置といった地域ウェブ空間独特の指標のデータを取ることに
成功した。
IN大陸から多くリンクする傾向の発見
結合後の大陸と島の変化の確認
東京工科大学 メディア学部 石村享久
24
インターネット空間生態系アーキテクチャ
謝辞

北陸先端科学技術大学院大学




山形大学



林幸雄先生(多くの論文提供)
松久保潤様(メトリックスの提案)
宮崎敏幸様(可視化ツール)
横山拓哉様(カテゴリ情報入手・リンク関係判別ツール)
山脇淳様(既存ツールの提供)
東京工科大学

上林憲行先生(一年間の指導)
他関係各位、この場を借りてお礼を申し上げます。
東京工科大学 メディア学部 石村享久
25
インターネット空間生態系アーキテクチャ
参考文献
























ミツエーリンクス社, “Web運用に活かせるマーケティングの法則”, http://www.mitsue.co.jp/case/index.html, 2003
安藤昌也, “「誰もが幹事になれる!」地域コミュニティの活性化を目的とした「コミュニティウェア」開発の試み”, http://www.abrain.com/HP/rep/rep14/, 2002
Albert-Laszlo Barabasi ,”新ネットワーク思考”, NHK出版, 2002
Steve Lawrence, C.Lee Giles, “Searching the World Wide Web”, Science, Vol. 280, No. 5360, pp. 98-100, 1998
Mark S.Granovetter, “The Strength of Weak Ties”, American Journal of Sociology 78, 1973
Takeshi Yamada, Kazumi Saito, Naonori Ueda, “Cross-Entropy Directed Embedding of Network Date”, 2003
Vilfredo Pareto, Trattato di Sociolosia Generale,The Mind and Soziety, 1897
黄林春, 林幸雄, “リンク構造解析によるページの価値計算とネットワーク分析”, 1999
小島秀一, 高州淳宏, 安達淳, “Webページ群の構造解析とグループ化”, NII Journal No.4, 2002
AltaVista, IBM, Compaq, “Graph structure in the web”, The 9th International World Wiede Web Conference, 2000
相馬亘, 下原勝憲, “スモールワールドネットワークの役割”, 第二種研究会, 2001
上林憲行, “インターネット空間を包含した地域社会デザイン”, 情報メディア研究会, 2001
山脇淳, “地域におけるWEBサイト群の静的構造の解明”, 山形大学平成14年度卒業論文, 2003
Ulrik Brandes, “A Faster Algorithm for BetWeenness Centrality” Journal of Mathematical Sociology:163-177,
2001
箕浦 正人, 林 幸雄, “さまざまなネットワークにおける除法伝播と構造の特徴”, 電気関係学会北陸支部連合大会講演論文集C49, pp.185, 2002
松久保潤, 林幸雄, “地域コミュニティにおけるWebアクセスの可視化”, 電子情報通信学会総合大会, 2002
林幸雄, “成長するネットワークの生態学-その共通構造と伝播の平均場解析に関して-”, 情報論的学習理論ワークショップ,
2003
横山拓哉, 山脇淳, 上林憲行, 小山明夫, “地域情報空間におけるWEBサイト群の静的構造の解明”, 情報処理学会東北支部
第4回研究会, 2002
石原元, “地域におけるインターネット動態特性をモニターする実験運用と分析に関する研究”, 山形大学工学部卒業論文, 2001
青木恭久, “地域におけるインターネット動態特性をモニターするオンライン定点観測網アーキテクチャの研究”, 山形大学大学
院修士論文, 2000
総務省「通信白書」, http://ascii24.com/news/i/topi/article/2003/07/04/644735-000.html
NetRatings, http://www.netratings.co.jp/
水野貴明, “自分でできるWEBアクセス解析とデータ活用術”, 日経BP企画, 2002
武井純孝, “役立つショートプログラムで学ぶJava”, セレンディップ, 2002
東京工科大学 メディア学部 石村享久
26