“人の流れデータセット”とは

Download Report

Transcript “人の流れデータセット”とは

1
発展途上国の諸都市における交通統計を用いた
人の流れデータセット構築手法の開発
東京大学新領域創成科学研究科
社会文化環境学専攻柴崎研究室
修士2年
渡邉淳人
2
本日の内容
• はじめに
• 本研究の目的
• 手法、考察
ー時間的平滑化
ー空間的平滑化
ー道路ネットワークデータ補正
ー時空間内挿
• データセット活用事例
• 結論
• 今後の課題
3
”人の流れデータセット”
都市化
近年,「人の流れ」を把握することが重要になってきている
“人の流れデータセット”とは
→「人の流れ」を把握することができるデータセット
(国内では,CSISのサービスとして,提供を開始済)
“人の流れデータセット”があれば...
• 鳥インフルエンザの伝染シミュレーション
• 通過客を含めた,需要予測
• 「どんな場所がいつ危険か」を考慮した,災害リスク予測
“人の流れデータセット”を開発するには...
• モバイルセンシングデータ:GPS,携帯のログデータ
→プライバシー等の問題で,実際には難しい.
• 統計データ:パーソントリップデータ(PTデータ)
統計データを用いて,“人の流れデータセット”を開発
人口増
大
4
PTデータに含まれる時空間データは;
 全て調査IDで記録
 出発・到着に関するデータのみ記録
PTデータとは?
PT データ = パーソントリップデータ
午後6:05に職
場を出る
トリップの中身に関
する情報はない...
午後6:45に帰
宅
姫路市HPより
PTデータに含まれる項目
−各個人の属性
−トリップ情報(サブトリップごと)
出発・到着時刻
出発・到着エリアID
交通機関
目的
全ての位置は,調査エリアの中
心にあると見なされる
午後6:30に買い物に
到着時刻
・・・・
寄り,5分間滞在
個人ID
・・・・
出発エリアID
出発時刻
到着エリアID
100932
・・・・
23
18:05
29
18:30
・・・・
100932
・・・・
29
18:35
5
18:45
・・・・
100934
・・・・
4
10:13
52
11:20
・・・・
・・・・
・・・・
・・・・
・・・・
・・・・
・・・・
・・・・
5
課題
しかし,国内で確立された手法を発展途上国で適用すると...
時空間内挿に必要なデータが不足したり、品質が低いことがあり、
時空間内挿が困難な場合がある
PTデータ,道路ネッ
トワークデータ,人
口分布,住宅地図
など
時間:時刻の回答が丸められてしまう傾向が強い
→ 出発・到着時刻がラウンドナンバーに偏る
空間的:調査エリアIDでのみ場所を表現
→ 各調査エリアの中心に空間的な偏りが生じる
経路:道路ネットワークデータの品質が不均一
→ 品質によっては,経路探索ができないことがあり,時空間内挿の精度
が低下
6
本研究の目的
時間:時刻の回答が丸められてしまう傾向が強い
空間的:調査エリアIDでのみ場所を表現
経路:道路ネットワークデータの品質が不均一
高精度な「人の流れ」の再現を実現するには...
→ これらの問題を限られたデータで解決する必要がある
グローバルで利用可能なデータと汎用的な統計的手
法を用いて、高精度な「人の流れデータセット」を構築
する手法を開発する
7
課題
解決策
時間的な偏り
時間的平滑化
空間的な偏り
空間的平滑化
道路ネットワークデータの品質
道路ネットワークデータ補正
手法
既存の手法
道路ネットワー
クデータ
JICA-PT
マスターデータ
ジオコーディング
経路探索
時空間内挿
人の流れデー
タセット
空間的平滑化
道路ネットワークデータ補正
時間的平滑化
補正済み
道路ネットワー
クデータ
本研究で提案
※本研究では、道路ネットワークデータにOpenStreetMap(OSM)データを使用
8
手法 –時間的平滑化–
トリップ発生時刻
15000
トリップ発生時刻(ハノイ)
5000
0
xi: 同じ分布からのn個の標本値(i>0)
n:
標本値数
h:
バンド幅
K(・): カーネル関数
人
数
(
人
)
人数(人)
n
 x  xi 
ˆf ( x)  1
K

 
nh i 1  h 
10000
• カーネル密度推定
6.0
確率密度関数を推定する手法であり,
時空間データの平滑化に有効であることが知られている。
 カーネル関数の選定
本研究では, Gaussian関数を採用。
 バンド幅の選定
• 既存の研究では、バンド幅を恣意的に決めて
いることが多い。
→本研究では、自動的にバンド幅を選定できる
手法を採用した。
6.5
7.0
7.5
出発時刻(時)
出発時刻(時)
ラウンドナンバーへの偏り
8.0
9
考察 –時間的平滑化–
平滑化の結果(ハノイ)
• 既存の統計手法4種類を用いて、バンド幅選定を
行い、比較・検討を行った。
→コスト関数を用いて、二乗誤差を最小にする
手法ⅳを採用。
ただし...
• 全ての時間帯で同じバンド幅を使用している。
→時間帯によって推定される分布は違うことも予想で
きるので、時間帯によってバンド幅を変える手法も
検討する必要がある。
平滑化の結果(マニラ)
平滑化の結果(バンド幅・計算時
間)
本研究では、これら4手法のうち、以下の点から手法を選定
• 1分区切りという特性を持つデータを平滑化できる
• 様々な都市に適用できる汎用性がある
10
エリア重心への偏り
手法 –空間的平滑化–
• PTデータでは、場所を調査エリアIDで表現する。
• 各調査エリアの重心を各調査エリアの重心の緯
度・経度を位置情報とする。
→郊外など調査エリアが大きい場合、調査エリ
アの重心に空間的な偏りがみられる(右図参照)
衛星画像から作られた土地被覆分類データを用いて、重みを付けて、空間的補間を行う
personalID sex
age
padd
work
tripNum subTripNum startTime
startArea arriveTime arriveArea mode
purpose
magfac magfac2
25015001
1
9
150
5
2
1
1800
123
1830
150
1
1
57
0
25015001
2
9
150
12
2
1
1800
123
1830
150
1
1
46
0
25006901
2
6
150
5
2
1
1680
148
1690
150
6
1
55
0
”出発・到着ゾーンID”を
“出発・到着lon, lat”に変換するイメージ
personalID sex
age
padd
work
tripNum subTripNum startTime
startArea dLat
dLon
arriveTi
arriveArea aLat
me
aLon
mode purpose magfac
magfac2
25015001
1
9
150
123
2
1
1236
123
14.646
121.03
1266
150
14.702 121.102
1
1
57
0
25006901
2
6
150
148
2
1
1240
148
14.67
121.09
1250
150
14.702
121.09
6
1
55
0
22015501
1
5
150
124
2
1
1211
124
14.634
121.042
1250
150
14.698
121.11
1
1
70
0
11
手法ー空間的平滑化ー(3)〜空間的平滑化のイメージ〜
川からトリップが
発生している
都市化された地域
緑地帯
砂漠
空間的
平滑化
各調査エリアの代表点(重心)
12
手法ー空間的平滑化ー(2)〜使用したデータ〜
MCD12Q1: 土地被覆分類データ
LandScan: 人口グリッドデータ
(約1km)
(約500m)
13
LandScanー精度ー
• 一般に信頼できる人口データと重ね合わせて、精度を確認
ー 東京の国勢調査の人口(3次メッシュ)
国勢調査
総人口
LandScan: 11,620,421
国勢調査: 12,547,841
LandScan
14
手法ー空間的平滑化ー(4)〜重みの設定〜
以下を各都市で行う
• PTエリア内のMCD12Q1の各グリッドの中心点にポイントを生成
• 各ポイントとLandScan*データを重ねて、各ポイントの人口を取得
• MCD12Q1分類ごとに人口の総数を集計
例(マニラ)
被覆分類
クラス
人口
重み
Evergreen Evergreen Deciduous Deciduous
Mixed
Closed
Open
Woody
Water
Needleaf Broadleaf Needleaf
Broadleaf
Savannas
forest shrublands shrublands savannas
forest
forest
forest
forest
1
0
2
3
4
5
6
7
8
9
702,224
0
68,524
0
9,433
1,064
20,697
0 114,375
1,986
0.03615
0.00000
0.00353
0.00000
0.00049 0.00005
0.00107
0.00000 0.00589 0.00010
Permanent
Urban and
Grasslands
Croplands
wetlands
built-up
10
121,907
0.00628
11
198,588
0.01022
12
13
371,079 15,740,919
0.01910
0.81035
Cropland/Nat
ural
Snow
vegetation and ice
mosaic
14
15
2,068,464
0
0.10649 0.00000
Barrent or
sparsely Unclassified Fill Value
vegetated
16
5,472
0.00028
255
0
0
0
0.00000 0.00000
手法ー空間的平滑化ー(5)
〜MCD12Q1・LandScanを用いた空間的平滑化〜
結果:空間的平滑化によって,空間的偏りが解消
出発場所(マニラ)
空間的平滑化前
空間的平滑化後
16
手法 –道路ネットワークデータ補正–
• 生のOSMデータだと、経路探索できないことが多い。
• リンク同士がつながっていないことが多く、これが↑の主な原因であると考えられる。
この問題を解決するために...
 ノードマッチング処理(下図参照)
− (a)の場合はノードを、(b)の場合はノードとリンクを追加する。
 経路探索結果の評価
− 経路探索ができるかどうか、得られた経路が最短経路かどうか
の2点において、評価を行った。
(a)
ノードマッチング処理
(b)
閾値以内な
ら接続
追加される
リンク
追加される
ノード
追加される
ノード
※リンクのグループ分け:
任意のノードを取り、それに接続するリンクを
全てつなげたものを1つのリンクのグループと
した。
リンク数の多いグループ上位5グループを,赤,
青,緑,水色,ピンクで,それ以外のリンクを黒
で表示
OSMデータのリンクグループ分けの結果
17
考察 –道路ネットワークデータ補正–
処理前のリンク(ハノイ)
• 都市によってOSMデータの品質に差がある。
完全なネットワークデータを作るには,地道なマッピン
グ(人による)が一番確実。
→本研究では,汎用的に使えるデータを用補正して,
より高精度な経路探索を目指す。
ノードマッチング処理の結果...
• 経路探索ができるようになった。
• 得られた経路のほとんどが迂回率が2以下であった。
→ノードマッチング処理によって、OSMデータの問題(経路探索ができ
ない)が解決された。
経路探索の結果の評価
結合前
出発・到着同 経路探索対象 経路探索
ゾーンの経路数
の経路数
成功率
都市
有効経路数
ハノイ
10834
149
10685
マニラ
20681
151
20530
ジャカルタ
20813
193
20620
経路数
(迂回率<2)
結合後
経路探索
経路数
成功率 (迂回率<2)
7532(78.2%
)
19855(97.8
99.5
19931(97.5%)
98.9
%)
16269(87.5
0.2
23(63.9%)
90.1
%)
※迂回率=経路長/OD間の直線距離
3.1
166(51.0%)
90.1
処理後のリンク(ハノイ)
18
手法ー時空間内挿ー
時空間内挿のイメージ
• トリップデータに欠けている部分を補間
自宅
徒歩で帰宅
スーパー
 経路探索
予測される経路を探索
バスで出勤
→ “どのように”目的地へ行ったか
 内挿
1分おきに,内挿する
→ 隙間をうめていく
バスでスーパーへ
職場
19
手法ー人の流れデータセット構築ー
• JICA-PTのトリップデータにデータ補正(時間的平滑化、空間的平滑化)を施す。
• 道路ネットワークデータとして使用したOSMを補正
• 補正されたトリップデータにデータ補間(時空間内挿)を施す。
人の流れデータセット
• 次の3ケースで時空間内挿を実施
Case
時間的平滑化
空間的平滑化 OSM補正
Case1
○
Case2
○
○
Case3
○
○
○
○
対象都市:
ーマニラ(フィリピン)
ーカイロ(エジプト)
ージャカルタ(インドネシア)
ーホーチミン(ベトナム)
ーハノイ(ベトナム)
20
人の流れデータセットの例
データの構造:
hanoi(PID int, TNO int, SNO int, LON double, LAT double,SEX int, AGE int, PADD int, WORK int,PURPOSE int, MAGFAC double, MAGFAC2 double, DATUM int,START_TIME int, END_TIME int);
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|348|349
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|349|350
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|350|351
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|351|352
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|352|353
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|353|354
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|354|355
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|355|356
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|356|357
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|357|358
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|358|359
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|359|360
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|360|361
1126503|1|1|105.854|21.274|2|7|148|12|6|47.0|47.0|2|361|362
1126503|1|1|105.852846228782|21.2693673690552|2|7|148|12|6|47.0|47.0|2|362|363
1126503|1|1|105.851692457563|21.2647347381105|2|7|148|12|6|47.0|47.0|2|363|364
1126503|1|1|105.850538686345|21.2601021071657|2|7|148|12|6|47.0|47.0|2|364|365
1126503|1|1|105.849178283615|21.2571883876003|2|7|148|12|6|47.0|47.0|2|365|366
1126503|1|1|105.847962951878|21.2594863226811|2|7|148|12|6|47.0|47.0|2|366|367
1126503|1|1|105.847570361503|21.2655890581449|2|7|148|12|6|47.0|47.0|2|367|368
1126503|1|1|105.847177771127|21.2716917936087|2|7|148|12|6|47.0|47.0|2|368|369
1126503|1|1|105.846785180751|21.2777945290724|2|7|148|12|6|47.0|47.0|2|369|370
1126503|1|1|105.846392590376|21.2838972645362|2|7|148|12|6|47.0|47.0|2|370|371
1126503|1|1|105.846|21.29|2|7|148|12|6|47.0|47.0|2|371|372
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|372|373
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|373|374
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|374|375
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|375|376
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|376|377
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|377|378
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|378|379
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|379|380
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|380|381
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|381|382
1126503|2|1|105.85|21.29|2|7|148|12|1|47.0|47.0|2|382|383
停滞
トリップ
停滞
21
人口グリッドデータとの比較(1)
• 0:00, 1:00, 2:00 〜 23:00の時点での人口をLandScanメッシュで集計し、その平
均とLandScanの人口を比較した。
都市
case1
相関係数
case2
case3
case1
Manila
0.304
0.581
ManilaCenter
0.235
0.339
0.310 20,311,207
0.246 11,385,760
Jakarta
0.333
JakartaCenter
popSum
case2
19,664,480
case3
LandScanPop
19,424,732
11,185,698
147,581
113,563
0.604
0.124 13,207,665 11,950,606
1,921,157
23,673,076
0.174
0.451
0.141
6,126,106
5,919,893
184,131
8,852,126
Hanoi
0.591
0.729
0.472
3,184,494
2,647,717
324,166
3,472,143
HanoiCenter
0.601
0.724
0.557
2,183,079
1,806,598
109,886
2,084,831
HCMC
0.478
0.154
5,995,090
7,600,481
0.552
0.391
3,308,730
5,064,751
3,289,981
187,860
HCMCCenter
0.745
0.691
33,631
4,319,800
Cairo
0.364
0.711
0.159
6,861,508
6,407,095
393,188
16,625,888
CairoCenter
0.316
0.642
0.156
4,826,489
4523080
148,798
11,924,042
※都市名Center: 各都市の中心部のみで比較した結果
9,206,244
22
人口グリッドデータとの比較(2)
Manila
LandScan
データセット集計(case3)
23
人口グリッドデータとの比較(3)
Cairo
LandScan
データセット集計(case3)
24
人口グリッドデータとの比較(4)
Jakarta
LandScan
データセット集計(case3)
25
人口グリッドデータとの比較(5)
Ho Chi Minh
LandScan
データセット集計(case3)
26
人口グリッドデータとの比較(6)
Hanoi
LandScan
データセット集計(case3)
27
人の流れデータセット活用事例(1)
•
アニメーション:都市での人の流れを直感的に把握
Manila
Jakarta
28
人の流れデータセット活用事例(2)
• 選択された範囲の人口の変化:
性別,年齢,時間,時間区切り,交通機関などを指定して検索
Cairo
• 性別:指定なし
• 8:00〜17:00
• 5分区切り
29
人の流れデータセット活用事例(2)
• 選択された範囲の人口の変化:
性別,年齢,時間,時間区切り,交通機関などを指定して検索
Hanoi
• 性別:男
• 8:00〜17:00
• 5分区切り
Hanoi
• 性別:女
• 8:00〜17:00
• 5分区切り
30
結論
• 時間的平滑化
ーパラメータを設定する必要がない汎用的なバンド幅選定手法を用いたカーネル
密度推定により、出発・到着時刻の平滑化を行った。
• 空間的平滑化
ー人口・土地被覆分類データをもとに空間的平滑化を行い、より尤もらしいデータ
セットの開発が可能になった。
• 道路ネットワークデータ補正
ートポロジー構造に問題があった(経路探索を行う上で)道路ネットワークデータに
ノードマッチング処理を施し、経路探索の成功率をあげた。
• 人の流れデータセット
ー様々な切り口から利用することで、都市の人の流れをマクロにも、局所的にも把
握することができる。
JICA-PTデータからデータセットを構築
→JICA-PTデータの精度・再現性に依存
31
今後の課題
• 時間的平滑化手法の改善
ーアンケートにおいて時刻をどの程度丸めるかがわかる研究・調査をもとに、手法
の改善
• 空間的平滑化手法の改善
ー拡大係数の数だけトリップを増やし、より現実に近い空間的平滑化を行う。
ー住宅地図などより現実に近い人口分布をもとに空間的平滑化を行う。
• 道路ネットワークデータ補正手法の改善
ー道路ネットワークデータの評価基準の作成
ー手のマッピングによる道路ネットワークデータの補正
• 人の流れデータセットの検証
ーLandScan以外の人口グリッドデータでの検証
ー調査または統計からわかる、ある任意の点における交通量を使った検証