土木計画学研究発表会2011秋大会

Download Report

Transcript 土木計画学研究発表会2011秋大会

第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
カテゴリ設定の影響を考慮した
初期マイクロデータ推定手法の比較
ドーコン
東京都市大学
東京都市大学
Kasetsart University
正員
フェロー
正員
正員
○杉木 直
宮本 和明
大谷 紀子
Varameth VICHIENSAN
1
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
背景
・土地利用-交通モデル分野におけるマイクロ
シミュレーションへの関心の高まりと研究事例
および実際の都市への適用事例の蓄積の進展
・土地利用マイクロシミュレーションにおける
シミュレーション初期年次の「マイクロデータ」
の必要性
・個人、個別世帯に関するデータの入手は困難
→入手可能データによる「人口データ推計」を実施
:集計データ(国勢調査等)+サンプル調査
2
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
目的
◆初期年次のマイクロデータ作成に関する
セルベースとエージェントベースによる手法の比較
→モデル適用の場面や目的を踏まえた推定手法選択のためのガイドライン作成にむけ
て
【先行研究】
質的な視点における比較
・データ特性、推定手法の規範、複雑性、データ入手可能性等
量的な視点における比較 →単一カテゴリ設定のみ
・セルベースデータの比較による推定の頑健性の評価
・エージェントベースデータの適合度評価によるマイクロ世帯推計への有効性の検
証
◆複数のカテゴリ設定を対象とした両手法の適合度検証実験
・カテゴリ集約が初期分布推計に与える影響の検証
・手法間の優位性の比較
3
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
カテゴリ設定を考慮したマイクロデータ推定手法の比較
◆比較検討手法
セルベース(集計データ)およびエージェントベース(非集計データ)
の適合度評価
◆推定手法
セルベース : IPF法
エージェントベース : モンテカルロシミュレーション(宮本ら2009)
◆検討対象 : 所属する世帯の属性を含む人口データ
◆属性 : 個人年齢+所属する世帯の人数
◆カテゴリ設定:2種類設定
・基本カテゴリ : 個人年齢18カテゴリ×世帯人数7カテゴリ
・集約カテゴリ : 個人年齢6カテゴリ×世帯人数3カテゴリ
4
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
マイクロデータ推定手法の比較
観測データ 属性2
観測データ
属性2
◆検討フロー
属性1
属性2
属性1
サンプルデータ
サンプルデータ
属性2
属性2
エージェントベース
エージェントベース
(非集計データ)
の適合度評価
の適合度評価
セルベース
セルベースの適合度
(集計データ)
評価
の適合度評価
属性1
属性1
属性1
周辺分布データ
周辺分布データ
属性1
属性2
モンテカルロ
シミュレーション
モンテカルロ
シミュレーション
IPF法
IPF法
属性1
非集計人口データ
集計人口データ
属性2
分解
分解
集計
集計
属性1
5
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
セルベースの推計手法
◆IPF法によるセルベースの人口推計
センサスデータ
サンプルデータセット
周辺分布
属性2:カテゴリー
1
2
j
1
2
j
Σ
属性1:カテゴリー
1
z1 1 z1 2
z1 j
1
z1 1 z1 2
z1 j
Σ
2
z2 1 z2 2
z2 j
2
z2 1 z2 2
z2 j
Σ
Σ
i
zi1
zi2
zij
i
zi1
zi2
zij
Σ
Σ
Σ
センサスデータ
周辺分布
Σ
Σ
Σ
Σ
Σ
Σ
Σ
・周辺分布を制約とした調整計算により、各セルの属性別人口を推計
6
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
エージェントベースの推計手法
◆エージェントベースの人口・世帯推定システム - 宮本ら (2009)
→手法としては総合的な属性(年齢、性別、続柄、住宅タイプ、居住地、自動車保有台数、
所得)からなる初期マイクロ世帯データの推定方法を開発済み
START
性別年齢階層別人口
t y ( y  1, Y )
m0
m  m 1
Y
m  M 1
Y
cs  Crare
年齢階層別人口
のチェック
t y  Ty ( y  1, Y )
N
N
s0
世帯 s の年齢構成
s  s 1
Y
hs  [ x1s , x2s ,, xms ]
 [ x1c , x2c ,, xmc ]
s  Sm  1
乱数発生
END
N
ranis i  1, m
累積関数
N
Y
ランダムサンプリング
pi
m, s
pis i  1, m
乱数発生
Y
xms が
性別年齢階層 y ; t y  Ty
に所属するか?
N
再生成された hs
によって t y と Ty の誤差が
改善されるか?
rans
線形関数
P  AX  X  BP
cs  C (rans )
m 人世帯サンプル N  [1,2,, Nm ]
I
pis   aik xks i  1, m
k
I
cs  C (rans )
=[世帯サンプル [ Nm * rans ] の世帯構成]
=[世帯主性別, 世帯構成員1の続柄・年齢
,世帯構成員2の続柄・年齢, ・・・
,世帯構成員m  1 の続柄・年齢]
N
xis   bik pks i  1, m
k
Y
xis i  1, m
世帯 s における
世帯構成員の年齢構成
(初期データセット計算時)
hs  [ x1s , x2s ,, xms ]
(収束計算時)
・モンテカルロサンプリングを用いた世帯構成員の個人ベースの推定
7
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
利用データ
◆第4回道央都市圏パーソントリップ調査データ
を利用
世帯構成員の詳細情報を含む
19,394世帯のマイクロデータ
10,000世帯データを母集団として
ランダム抽出(人口:24,115人)
1,000世帯データを
サンプルデータ
として抽出
IPF法、モンテカルロシミュレーション
のサンプルデータとして
年齢別人口、
世帯人数別人口
を集計
人口に関する周辺制約データとして
8
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
マイクロデータ推定手法の量的比較
◆カテゴリ設定
・基本カテゴリ
: 個人年齢18カテゴリ
×世帯人数7カテゴリ
・集約カテゴリ
: 個人年齢6カテゴリ
×世帯人数3カテゴリ
集約カテゴリ
基本カテゴリ
集約
基本
カテゴリ カテゴリ
1
0-4
1
2
5-9
3
10 - 14
4
15 - 19
2
5
20 - 24
6
25 - 29
7
30 -34
3
8
35 - 39
9
40 - 44
年齢
10
45 - 49
4
11
50 - 54
12
55 - 59
13
60 - 64
5
14
65 - 69
15
70 - 74
16
75 - 79
6
17
80 - 84
18
85 集約カテゴリ
基本カテゴリ
集約
基本
カテゴリ カテゴリ
1
0-4
1
2
5-9
3
10 - 14
4
15 - 19
2
5
20 - 24
6
25 - 29
7
30 -34
3
8
35 - 39
9
40 - 44
年齢
10
45 - 49
4
11
50 - 54
12
55 - 59
13
60 - 64
5
14
65 - 69
15
70 - 74
16
75 - 79
6
17
80 - 84
18
85 -
1
2
1
2
3
1人
2人
3人
1
2
3
1人
2人
3人
1
4
世帯人数
4人
5
3
6
7
5人
6人
7人 -
5
3
6
7
5人
6人
7人 -
2
4
世帯人数
4人
9
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
セルベースの適合度評価
◆観測データ集合と推定データ集合の適合度
→距離ベースの平均平方標準誤差(SRMSE)
観測データ
1
I
J
1
N1 j
1
i
j
推定データ
N i1
N ij
i
N I1
SRMSE 
Nˆ i1

1
IJ
N̂ ij
Nˆ 1J
Nˆ I 1
I
1
IJ
J
Nˆ 1 j
1
N1 J
j
ˆ N )
(
N
i, j
i, j
i, j

i, j
Ni, j
10
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
セルベースの適合度評価結果
1
2
3
4
5
6
◆基本カテゴリ設定
1
7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
◆集約カテゴリ設定
3
2
3
4
5
6
0.30
0.30
セルベース推定(IPF)
多くのケースで
エージェントベース推定(MCS)
エージェントベースの方が
適合度が大きく改善
セ
ル
ベ
ー
ス
適
合
度
2
1
0.20
セルベース推定(IPF)
エージェントベース推定(MCS)
0.197
0.180
0.10
セ
ル
ベ
ー
ス
適
合
度
0.20
セルベースの方がやや高い適合度
手法間の差は小さく優位性に大きな差は
存在しない
0.10
0.063
0.067
0.00
0.00
1
2
3
4
5
サンプルNo.
6
7
8
平均
1
2
3
4
5
6
7
8
平均
サンプルNo.
・セルベースの推定はカテゴリ数が少ない場合には初期分布推計手法として有効
・カテゴリ設定が詳細な場合はエージェントベースの採用が望ましい
11
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
エージェントベースの適合度評価
◆観測データと推定データの類似度
→2要素間距離二乗和の最小値
:GAの共生進化を用いた近似値探索(各ケース6回の適合度算出を試行)
観測データ
適合度
適合度
推定データ
推定データ
N
適合度=乖離量距離の最小和
Fit( E j )  min  Dis(a i , ej (i ) )
 Rn
Z
i 1
Dis(a i , e kj )   min((aik  eklj ) 2 , DiffMax)
l 1
観測データ
A  {ai  (ai1 , ai 2 ,, aiM ) | 1  i  N}
推定データ
j
E j  {eij  (ei1j , eij2 ,, eiM
) | 1  i  N}
12
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
エージェントベースの適合度評価結果①
1
2
3
4
5
6
7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
◆基本カテゴリ設定
大部分のケースで
エージェントベースの方が
適合度が改善
エージェントベースの方が
適合度の標準偏差が小さく安定した結果
5,000
60
セルベース推定(IPF)
エージェントベース推定(MCS)
セルベース推定(IPF)
エージェントベース推定(MCS)
50
4,000
セ
ル
ベ
ー
ス
適
合
度
の
平
均
値
3,379
2,763
3,000
2,000
1,000
0
セ
ル
ベ
ー
ス
適
合
度
の
標
準
偏
差
40
34.8
30
20
15.7
10
0
1
2
3
4
5
サンプルNo.
6
7
8
平均
1
2
3
4
5
6
7
8
平均
サンプルNo.
・マイクロシミュレーションで用いられる初期データ作成においては
エージェントベースの方が優位性が高い
13
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
エージェントベースの適合度評価結果②
1
2
3
1
◆集約カテゴリ設定
2
3
全てのケースで
エージェントベースの方が
大幅に高い適合度
4
5
集約カテゴリ設定では安定性に関する差は少ない
6
25,000
50
セルベース推定(IPF)
エージェントベース推定(MCS)
セルベース推定(IPF)
エージェントベース推定(MCS)
45
19,220
20,000
40
セ
ル 15,000
ベ
ー
ス
適
合 10,000
度
の
平
均 5,000
値
2,763
0
セ
ル
ベ
ー
ス
適
合
度
の
標
準
偏
差
35
30
25
20
18.2
15
15.7
10
5
0
1
2
3
4
5
サンプルNo.
6
7
8
平均
1
2
3
4
5
6
サンプルNo.
7
8
・セルベースでは非集計データへの変換時に集約カテゴリ内でのばらつきの
精度が大きく低下
・エージェントベースの優位性は、カテゴリが集約されるほど傾向が顕著
平均
14
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
まとめ
・セルベースとエージェントベースによるマイクロデータ
推定手法に関して、カテゴリ設定の影響の観点から比較
を行い検証
・セルベースとエージェントベースの適合度ともに、詳細
なカテゴリ設定ほどエージェントベースの推計(モンテ
カルロ法)による推計が有効
・セルベースの推計手法では、特にマイクロシミュレー
ションで用いるような非集計データの推計時に精度が
低下
15
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
杉木・宮本・大谷・他論文(1)
• 論点整理に向けて
– 研究目的:
• マイクロシミュレーションにおける初期設定デー
タ作成方法のうち、cell-basedとagentbasedによる手法間の妥当性(有効性?)比較
– 本研究の意義:
• マイクロシミュレーションモデルにおける人工的
な人口・世帯データの作成方法の確立および適用
時のガイドライン作成にも資する
– 先行研究との関連性:
• 単一のカテゴリ設定下での同種研究を踏まえ、複
数カテゴリ設定/集約カテゴリ化を検討
16
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
杉木・宮本・大谷・他論文(2)
• cell-based 推定法:
– 基本的には、IPF法(限定的な数の世帯属性によって
定められた次元ごとのテーブルについて、各セルの
世帯数が周辺分布に一致するように生成される)の
適用のため、タイプ別世帯数データ。
• agent-based 推定法:
– 宮本ら(2009)によるモンテカルロサンプリングに
基づくBase yearデータ推定システムを基本
• (論文中の図ー3の説明がないためにこれ以上は
よくわからない)
– 本研究では、上記の推計システムの簡略化とともに
、適合度評価のための指標を検討
• N!個の要素に関する効率的な距離和算出アルゴリ
ズムのためにGA(共生進化)の適用をはかる
17
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
杉木・宮本・大谷・他論文(3)
• 論点整理と質問?:
– 検討手法(比較検証方法)について
• 適合度算定による有用性検証とカテゴリ設定に対
する推定の「頑健性」検証との関係?
– モンテカルロサンプリング法の簡略化と有効性?
• 本研究における簡略化の意図?
• 例えば、初期分布データ作成のための8ケースのサ
ンプリング回数の十分性/結果への影響
– Agent-basedにおける適切なカテゴリ設定方法?
• カテゴリ集約化すれば一般的にも精度向上/どの
程度の詳細なカテゴリ設定が必要なのか?
– 今後の課題?
18
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
• 論点整理と質問?:
– 検討手法(比較検証方法)について
• 適合度算定による有用性検証とカテゴリ設定に対する推定の
「頑健性」検証との関係?
・推定の「頑健性」はセルベース(集計データ)適合度評価により検証
・詳細なカテゴリ設定ほど、エージェントベース推計の頑健性が高い
‐モンテカルロサンプリング法の簡略化と有効性?
• 本研究における簡略化の意図?
• 例えば、初期分布データ作成のための8ケースのサンプリン
グ回数の十分性/結果への影響
・両手法の比較のため、2属性(年齢、世帯人数)のみを対象とした
モンテカルロサンプリング法による初期データ作成を利用
・サンプリングケース数の十分性については未確認のため、今後ケース
数を増やしてゆくことが望ましい
19
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
‐ Agent-basedにおける適切なカテゴリ設定方法?
• カテゴリ集約化すれば一般的にも精度向上/どの程度の詳細
なカテゴリ設定が必要なのか?
・カテゴリ設定はマイクロシミュレーションを用いた都市モデルの作成
目的から決定されるべきもの
・本稿では外生的なカテゴリ設定に対する適切な手法の選択を目的とし
ている
‐ 今後の課題?
・本稿では2パターンのみのカテゴリ設定のため、より多様なパターン
設定のもとでの検証が必要(集約数、集約パターン)
・サンプリングケースの増加による検証結果の妥当性の向上
20
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
21
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
初期マイクロ世帯データ推定手法の構築(1)
◆マイクロデータの定義
自動車保有台数 世帯収入
(hhl)ms  {cms , xms , j, z, nc, inc}
世帯構成
マイクロ世帯デー
タ
住居タイプ 居住ゾーン
年齢構成
マイクロ世帯データの
一般的表現
A  {ai  (ai1 , ai 2 , , aiR ) | 1  i  N}
世帯s
世帯人数m
29
35
7
A ={①本人・男,②子・男1,③子・男2,④子・男3,⑤孫・男
,⑥兄弟,⑦父,⑧その他・男1,⑨その他・男2
,⑩本人・女,⑪妻,⑫子・女1,⑬子・女2,⑭子・女3,⑮孫・女1
,⑯姉妹,⑰母1,⑱子の妻1,⑲その他・女1,⑳その他・女2}
={35,7,999,999,999
,999,999,999,999
,999,29,999,999,999,999
,999,999,999,999,999}
22
第44回土木計画学研究発表会
「調査論」セッション
2011.11.27
推定フロー(1) : 世帯構成員の年齢・性別・続柄の決定
START ①世帯人数別の世帯数へ
世帯サンプルより性別、
m0
続柄を付加
m  m 1
cs  Crare
m  M 1
Y
世帯sの年齢構成
N
s0
s  s 1
③周辺分布(5歳年齢階層別人口)
に一致するように調整
性別年齢階層別人口
( y  1, Y )
Y
xms  [ x1s , x2s ,, xms ]
 [ x1c , x2c ,, xmc ]
世帯sのマイクロ
Y データ hms  {cms , xms }
s  Sm  1
N
N
乱数発生
年齢階層別人口
のチェック
t y  Ty ( y  1, Y )
ranis i  1, m
Y
※1
N
累積関数 pic i  1, m
ランダムサンプリング
pis i  1, m
m, s
乱数発生
rans
②各世帯構成員
の年齢の付加
m 人世帯サンプル N  [1,2,, Nm ]
cs  C (rans )
=[世帯サンプル[ Nm * rans ] の世帯構成]
=[世帯主性別, 世帯構成員1の続柄・年齢
,世帯構成員2の続柄・年齢, ・・・
,世帯構成員 m  1 の続柄・年齢]
線形関数
P  aX  X  bP
m
pis   vik xks i  1, m
Y
xms が
性別年齢階層 y ; t y  Ty
に所属するか?
N
再生成された hs
によって t y と Ty の誤差が
改善されるか?
k
m
N
xis   wik pks i  1, m
k
xis i  1, m
Y
世帯sの年齢構成 xms  [ x1s , x2s ,, xms ]
h  {cms , xms }
(初期データセット計算時) 世帯sのマイクロデータ ms
(収束計算時)
23