K - 地理空間的思考の教育研究プロジェクト

Download Report

Transcript K - 地理空間的思考の教育研究プロジェクト

2010年10月13日
第4章 空間解析
4. 点データの分析
貞広幸雄
[email protected]
地理情報科学教育用スライド ©貞広幸雄
ここで学ぶこと
• 点分布パターンの分類と記述
• 単一点分布の視覚的分析
• 単一点分布の統計的分析
• 標準距離偏差
• 標準偏差楕円
地理情報科学教育用スライド ©貞広幸雄
殺人は同じ場所で起きる?(http://gisturk.wordpress.com/crime-trends-in-orlando/)
この病気の原因は?(1854年,ジョン・スノーによる地図)
点分布パターンの分類と記述
• 単一点分布の数理分析では,主として点分布が
• 集中している
• 分散している
• そのいずれでもない
• の3つの状態を想定し,その程度を数量化する.
地理情報科学教育用スライド ©貞広幸雄
集中
分散
単一点分布の分布パターン
地理情報科学教育用スライド ©貞広幸雄
単一点分布の視覚的分析
1.地図化
2.空間集計
3.平滑化
地理情報科学教育用スライド ©貞広幸雄
地図化
• 点データが表などの形式で表されている場合
には,地図として表現することでパターンを見
つけやすくなる.
地理情報科学教育用スライド ©貞広幸雄
点分布の可視化
地理情報科学教育用スライド ©貞広幸雄
空間集計
• メッシュや町丁目などの空間集計単位を用い
て,各領域ごとに点の個数を数える.
• 結果は色の濃淡などで表現する.
地理情報科学教育用スライド ©貞広幸雄
格子網による空間集計
地理情報科学教育用スライド ©貞広幸雄
空間集計による可視化の問題点
• 空間集計では,境界部分で値が大きく変化す
るため,あまり見栄えが良くない.
• 結果が空間集計単位に大きく依存するため,
結果の解釈に注意を有する.
地理情報科学教育用スライド ©貞広幸雄
平滑化
• 各点の上に小さな「山」を置き,それらの積み
重ねとして,点分布全体を表現する.
地理情報科学教育用スライド ©貞広幸雄
点分布の平滑化
地理情報科学教育用スライド ©貞広幸雄
点分布の平滑化
地理情報科学教育用スライド ©貞広幸雄
平滑化の場合,結果は「山」の形状に大きく依存する.平
らな山ほど滑らかな分布となる.
地理情報科学教育用スライド ©貞広幸雄
様々な平滑化
地理情報科学教育用スライド ©貞広幸雄
単一点分布の統計的分析
•
•
•
•
•
最近隣距離法
K-関数法
格子法
標準距離偏差
標準偏差楕円
地理情報科学教育用スライド ©貞広幸雄
最近隣距離法
• 各点から最寄りの点までの距離の平均値を
用いる方法
• di: 点iから最寄りの点までの距離
• n:
点の総数
• W: 平均最近隣距離
地理情報科学教育用スライド ©貞広幸雄
W=23.45
W=35.71
平均最近隣距離
地理情報科学教育用スライド ©貞広幸雄
W=72.85
最近隣距離は,領域の大きさに依存する値であり,領域
が異なる分布間では比較ができない.
領域の大きさに応じて基準化することが望ましい.
地理情報科学教育用スライド ©貞広幸雄
どちらの点分布がより集中しているか?
地理情報科学教育用スライド ©貞広幸雄
ランダムな点分布
• 基準となる点分布として,ランダムな分布(ポア
ソン分布)を用いる.
• 点が密度lのランダム分布に従う場合,平均最
近隣距離の期待値は,
• となる.
地理情報科学教育用スライド ©貞広幸雄
• 従って,平均最近隣距離をこの期待値で除して,
• とすることで,点の分布領域の大きさに関して基
準化することができる.
地理情報科学教育用スライド ©貞広幸雄
• w < 1: 集中分布
• w  1: ランダム分布
• w > 1: 分散分布
地理情報科学教育用スライド ©貞広幸雄
w=0.5932
w=0.9034
基準化後の平均最近隣距離
地理情報科学教育用スライド ©貞広幸雄
w=1.8429
統計的検定
• 点の集中や分散の程度を,より明確に記述
するために,統計的検定を行う.
• 帰無仮説:点はポアソン分布に従う.
• 対立仮説:点は集中(分散)分布している.
地理情報科学教育用スライド ©貞広幸雄
統計的検定のためには,帰無仮説の下でのwの確率分
布が必要である.ポアソン分布に従う点分布の場合,wは
近似的に
に従うことが知られており,正規近似による検定が可能で
ある.
地理情報科学教育用スライド ©貞広幸雄
なお,この近似は厳密には点の個数が十分に大きいとき
にのみ有効であり,点が少数(数10個程度)の場合には,以
下の近似を用いる方が望ましい.
(AとLはそれぞれ点の分布領域の面積と周長)
地理情報科学教育用スライド ©貞広幸雄
最近隣距離法の問題点
• 最近隣距離法では区別できない点分布があ
る
地理情報科学教育用スライド ©貞広幸雄
最近隣距離法は,点の分布領域の定義によって,その結
果が大きく異なる.
地理情報科学教育用スライド ©貞広幸雄
K-関数法
• K-関数法は,最近隣距離法の問題点を解決する
ための方法である.この方法では,各点から距
離h以内にある点の個数を数え上げ,それを点
の個数nと密度lで除して基準化する.
• si(h):点iから距離h以内にある点の個数
地理情報科学教育用スライド ©貞広幸雄
K-関数の計算過程
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数の例
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数の例
地理情報科学教育用スライド ©貞広幸雄
K-関数の値は,距離hによって変化する.従って,点分布
の集中や分散も,距離hを媒介として記述する.例えば,「パ
ラメータ値h1では,点は集中分布しているが,パラメータ値
h2では,点は分散分布している」という具合である.
地理情報科学教育用スライド ©貞広幸雄
ポアソン分布に従う点分布の場合,K-関数の期待値の確
率分布は近似的に
となる.従って,K-関数の値をこの期待値と比較すること
で,点分布の集中分散を評価することができる.
K(h) > ph2: 集中分布
K(h)  ph2: ランダム分布
K(h) < ph2: 分散分布
地理情報科学教育用スライド ©貞広幸雄
K(h)
K(h)
E[K(h)]
h
K-関数とその期待値分布
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数とその期待値分布
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数とその期待値分布
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数とその期待値分布
地理情報科学教育用スライド ©貞広幸雄
K(h)
h
K-関数とその期待値分布
地理情報科学教育用スライド ©貞広幸雄
K-関数の基準化
• K-関数を前述の期待値で基準化することで,点の個数の
異なる分布間で比較を行うことができるようになる.
• こうして得られる関数をL-関数と呼ぶ.
• L(h) > 0:
• L(h)  0:
• L(h) < 0:
集中分布
ランダム分布
分散分布
地理情報科学教育用スライド ©貞広幸雄
1.6
1.4
1.2
1.0
L(h) 0.8
0.6
0.4
0.2
0.0
100
0
10
20
h
L-関数の例
地理情報科学教育用スライド ©貞広幸雄
30
統計的検定
• K-関数についても,点の集中や分散に関する
統計的検定が可能である.
• 帰無仮説:点はポアソン分布に従う.
• 対立仮説:点は集中(分散)分布している.
地理情報科学教育用スライド ©貞広幸雄
点の個数が十分大きい(100以上)の場合,ポアソン分布
に従う点分布のK-関数は近似的に
に従う.これを用いて,正規近似による統計的検定が可
能である.
地理情報科学教育用スライド ©貞広幸雄
モンテカルロシミュレーション
• 点の個数が少ない場合には,ランダム分布を
実際に実現し,K-関数の確率分布を求める必
要がある.
• 帰無仮説の状態を実際に再現して観察する
ことを,モンテカルロシミュレーションと呼ぶ.
モンテカルロシミュレーションは通常,10000
回程度の観察を行うことで,良い近似の確率
分布を求める.
地理情報科学教育用スライド ©貞広幸雄
格子法
• 視覚的分析で用いられる格子法は,数理分
析にも利用可能である.本来格子法は,統計
学の基本的技法の一つであり,統計的検定
によく用いられる.
地理情報科学教育用スライド ©貞広幸雄
格子法
地理情報科学教育用スライド ©貞広幸雄
統計的検定
• 格子法は本来,統計的検定のために考案さ
れた方法である.大きな特徴の一つは,最近
隣距離法やK-関数法とは帰無仮説・対立仮
説が大きく異なることである,
• 帰無仮説:点は一様分布(分散分布)に従う.
• 対立仮説:点は集中分布している.
地理情報科学教育用スライド ©貞広幸雄
• c:
点の分布領域を覆うセルの個数
• xi: セルiに含まれる点の個数
• : セル1つに含まれる点の平均値
• 格子法では.c2統計量を用いる.
地理情報科学教育用スライド ©貞広幸雄
• 帰無仮説の下では,c2統計量は小さな値をと
り,一様分布(分散分布)から乖離するほど大
きな値となる.
• 帰無仮説の下では, c2統計量は自由度cの
c2分布に従うことが知られていることから, c2
検定による統計的検定が可能である.
地理情報科学教育用スライド ©貞広幸雄
格子法の長所と短所
• 長所
• c2検定は本来,観測値が任意の確率分布に従うか否
かを検定する方法である.帰無仮説は自由に設定で
きるため,任意の点分布パターンとの相異を評価し,
検定することができる,自由度の大変高い方法である.
• 短所
• 格子法では,点の個数のみに依拠した分析を行い,
点の空間中での位置が考慮されない.そのため,異
なる点分布であっても同じ結果をもたらすことがある.
地理情報科学教育用スライド ©貞広幸雄
格子法の課題1:結果がセルの大きさに依存する.
地理情報科学教育用スライド ©貞広幸雄
格子法の課題2:結果が点の分布領域の定義に依存する.
地理情報科学教育用スライド ©貞広幸雄
格子法の課題3:格子法では区別できない点分布がある.
地理情報科学教育用スライド ©貞広幸雄
• 一般的に言って,格子法は十分に多くの点が
分布している場合には有効であるが,点が少
ない場合にはあまり良い結果を生まないこと
が多い.
• 点が少ないときには,他の方法をとるか,観
測データを(可能であれば)さらに多くとること
が望ましい.
地理情報科学教育用スライド ©貞広幸雄
標準距離偏差
• 標準距離偏差とは,点分布の全体的な広がり方を,
一つの円によって記述する方法である.
• vi: 点iから重心までの距離
• 点分布の重心を中心とし,半径が
• で与えられる円を描く.
地理情報科学教育用スライド ©貞広幸雄
標準距離偏差
地理情報科学教育用スライド ©貞広幸雄
標準距離偏差は,点分布の傾向を簡潔に表現する良い
指標の一つではある.しかしこの指標では,点の広がり具
合の概要は捉えられるものの,その方向に関する偏りまで
は表現できない.
地理情報科学教育用スライド ©貞広幸雄
標準偏差楕円
• 標準偏差楕円とは,標準距離偏差では表現でき
ない,点分布の向きの偏りも合わせて記述する
指標である.標準距離偏差と同様に,点分布の
重心を中心とし,分布を最も適切に表現する楕
円を描く.
• 楕円はその向きと長径,短径の3つの変数で定
められる.
• q: 楕円のY軸からの傾き(時計回り)
• r1: 楕円の長径
• r2: 楕円の短径
地理情報科学教育用スライド ©貞広幸雄
地理情報科学教育用スライド ©貞広幸雄
標準偏差楕円
地理情報科学教育用スライド ©貞広幸雄
参考文献
• 張長平 (2007): 空間データ分析. 古今書院.
• Ripley, B. D. (1981): Spatial Statistics. Wiley.
• Cressie, N. A. C. (1993): Statistics for Spatial
Data. Wiley.
• de Smith, M., Goodchild, M. F., & Longley, P. A.
(2009): Geospatial Analysis: A Comprehensive
Guide to Principles, Techniques and Software
Tools. Metador.
地理情報科学教育用スライド ©貞広幸雄