Transcript 後期第3講スライド
事例研究(ミクロ経済政策・問題分析 III) - 規制産業と料金・価格制度 (冬学期第3回 – 手法(7) 応用データ解析/モデル選択) . 2014年 10月 24日 戒能一成 0. 本講の目的 (手法面) - 応用データ解析の手法のうち、モデル選択問題 の概要を理解する (内容面) - 計量経済学・統計学を実戦で応用する際の 留意点を理解する (5) 2 1. モデル選択問題とは 1-1. モデル選択問題 (Model Building, -Refinement) - モデル選択問題とは、分析対象とする変数が 回帰分析などの手法上どのようなモデルで表現 されるべきかを扱う問題をいう - モデル選択問題は大きく分けて ・ モデル構造の選択 (例; ARMAX or VAR) ・ モデル上の説明変数選択 (例; 価格,所得,・・・) の 2つに分けられる 3 2. モデル構造選択問題 2-1. モデル構造選択 - モデル構造選択は、分析対象のデータの性質 により決定 - 一般的な選択は、離散/連続, 時点数, 項目数, 選択段数などの性質で決定されるが、特に連続 データか離散(選択)データかで大きく分かれる - 従って分析対象とする問題について公的統計 などから得られるデータの性質により、どの モデル構造を選択すべきかはほぼ自動的に 決定されてしまうことが多い 4 2. モデル構造選択問題 2-2. モデル構造選択 (連続型データ) - 連続型データのモデル構造選択例 - (1時点・1項目) クロスセクション分析 - (多時点・1項目) 時系列分析 ・ (逆因果性有) VAR分析,操作変数(IV)分析 ・ (逆因果性無) ARMAX分析 - (多時点・多項目) パネルデータ分析 ・ 固定効果モデル・変量効果モデルなど ← それぞれに線形・非線形の解法あり 5 2. モデル構造選択問題 2-3. モデル構造選択 (離散型データ) - 離散型データのモデル構造選択例 - (1回・1段階選択) 二択モデル分析 - (1回・多段階選択) ダミー変数モデル分析 ヘックマン2段推計モデル他 - (時系列(複数回)選択) ・ サバイバル分析 (複数回・不可逆選択) ・ 意志決定モデル (複数回・可逆選択) 行動原理モデル, ゲーム理論モデル ← ほぼ確実に非線形 6 3. モデル変数選択(特定化)問題 3-1. モデル変数選択(特定化)(1) - モデル変数選択は、経済理論上の必要性により 入れるデータと、分析したい問題上取入れたい データ(+α)のうちから、独立で有意なデータを 説明変数として選択する ・ 家計消費 - 財価格, 所得, 代替財価格 + α ・ 企業生産 – 資本ストック, 労働投入 + α - モデル選択の妥当性については、Adj-R2 や AIC・BIC などの指標により確認・比較が可能 7 3. モデル変数選択(特定化)問題 3-2. モデル変数選択(特定化)(2) - 線形回帰モデルの成立要件 [復習] #1 #2 #3 #4 線形性: (→ モデル構造の問題) 説明変数の外生性: (→ モデル構造の問題) 説明変数の非多重共線性: 誤差項の均一分散性: (→ 不均一分散推計) - 線形回帰モデルの説明変数の選択において 注意すべきは、説明変数の非多重共線性 説明変数 xi が他の xj (i≠j)の組合わせで 表現できないこと ⇔ rank Xkxn’Xnxk = k 8 3. モデル変数選択(特定化)問題 3-3. 家計消費モデル - 家計モデルにおいて重要な点は「需要曲線」に関 する情報の識別 - 多くの場合、世帯別家計消費支出から価格弾力 性など需要曲線に関する分析・計測を実施 → 総務省「家計調査報告」の有用性 - 世帯別家計消費支出の分析においては、通常 は価格弾力性・所得弾力性を時系列分析推計 Qx = ex * Px + e-x * P-x + ei * I + [Lag] + [error] x; 当該財サービス –x; 他の財サービス Q; 数量 P; 価格 I; 所得 9 3. モデル変数選択(特定化)問題 3-4. 企業生産モデル - 企業生産モデルにおいて重要な点は「供給曲線」 に関する情報の識別 ← 生産関数・費用関数を仮定し係数を実測 ex Cobb-Douglas 生産関数 ln(X) = βk*ln(K) + (1-βk)*ln(L) + A + [error] - また多くの場合「限界費用」の推計を要する ← 定義に従い財務諸表などの時系列での費用 データなどから限界費用を識別 - 多くの場合生産性分析など先行研究が存在 10 3. モデル変数選択(特定化)問題 3-5. モデル変数選択の評価・比較 - 自由度修正済決定係数 R2 (Adjusted R2) → Adj. R2 = 1 – (n-1)/(n-k)(1 – R2) n: 試料数 k: 説明変数数 Adj.R2 ≦1 - 赤池情報量(AIC) ln(σ*2)+ 2*k/n - ベイズ情報量(BIC) ln(σ*2)+ 2*(k-1)*ln(n)/n ( BICは計量分析ソフトにより ”Schwartz” と表記される場合あり ) ← 通常は AIC 又は BIC が最小となる説明変数 の組合わせをモデルとして選択 (→ ARMAXモデルの次数選択と同じ考え方 ) 11 4. モデル変数選択(特定化)の誤りと対策 4-1. 必要な変数の欠落 - 線形回帰モデルにおいて、必要な説明変数が 欠落している場合、説明変数の係数はバイアス を持つ y = β1 * X1 + β2 * X2 + ε (正しいモデル) y = β~1 * X1 + ε~ (変数欠落モデル) → E (β1 – β~1 ) = E(β2*(X1’*X1)-1*X1’*X2) ≠ 0 ( E(β2)≠0 ) - 従って(少なくとも)理論上要求される説明変数は 試行しておく必要がある 12 4. モデル変数選択(特定化)の誤りと対策 4-2. 過剰な変数の存在 - 線形回帰モデルにおいて、過剰な説明変数が 存在していても、他の説明変数の係数は(他に 問題がなければ)問題がない y = β1 * X1 + ε (正しいモデル) y = β~1 * X1 +β~2 * X2 + ε~ (過剰変数~) → E (β1 – β~1 ) = E(-β2*(X1’*X1)-1*X1’*X2+(X1‘*X1)-1*X1*ε) =0 ∵ E(β2)= 0, E(ε)=0 - しかし不必要に複雑なモデルを作る意味なし 13 4. モデル変数選択(特定化)の誤りと対策 4-3. 説明変数の選択手順 - 線形回帰モデルの説明変数の選択においては、 自由度が許す限り、妥当と考えられる最大の説 明変数の組合せから開始し - 分析上の優先順位が低い説明変数を順次 除いて解き、AIC・BIC が最小となるモデルを 選択していく (※モデル構造の変化に注意) - 説明変数を順次減らしていき、それ以上説明変 数を減らすと AIC・BIC が増加してしまう点が 判明すればその直前の説明変数の組合せが 14 「解」と推定される (→ 後述) 5. モデル選択の実例 5-1. 都道府県別家計ガソリン消費量; 概況 (1) 作図による概況確認 (P-Q図) (出典: 総務省家計調査報告, 2000-2013暦年) 都 道 府県 別 ガソ リン 年 平 均価 格 -消費 量 推 移 ( 総務省家 計調査報 告, 2000-2013 ) ガソリン 価格 \/l (名目) 160 150 140 2000 2004 2008 2008 130 120 110 100 90 100 200 300 400 500 600 700 800 900 世帯当年消費量 (l) 15 5. モデル選択の実例 5-2. 都道府県別家計ガソリン消費量; 前提条件確認 (2) 因果性判定 (Granger Causality Test) ( 結果省略, 各県とも有意な逆因果性なし ) (3) 単位根検定 (Unit Root Test, Fisher ADF) ( ガソリン価格が非定常, 全て 対数・1階階差化 ) (4) モデル仮構築 ln(△Qx(i,t)) = Q0 + β1* ln(△Px(i,t)) + β2* ln(△I(i,t)) + β3 * ln(△Pz(i,t)) + ε(i,t) - 数量を価格・所得・補完/代替財価格で回帰 16 5. モデル選択の実例 5-3. 都道府県別家計ガソリン消費量; 固定効果 (5) 固定効果モデル試行 . xtreg dlqgas dlpgas dlinc dlpaut dlphos, fe Fixed-effects (within) regression Group variable: kid Number of obs Number of groups = = 611 47 R-sq: Obs per group: min = avg = max = 13 13.0 13 within = 0.1229 between = 0.0868 overall = 0.1215 corr(u_i, Xb) ガソリン価格 所得(消費支出) 自動車購入価格 民間賃貸家賃 F(4,560) Prob > F = 0.0096 dlqgas Coef. dlpgas dlinc dlpaut dlphos _cons -.0827054 .7214624 -.0142061 -.1507978 .0024246 .0589148 .0886788 .0106368 .0478055 .0061404 sigma_u sigma_e rho .02467443 .1371642 .03134594 (fraction of variance due to u_i) F test that all u_i=0: Std. Err. t P>|t| = = -1.40 8.14 -1.34 -3.15 0.39 F(46, 560) = 0.161 0.000 0.182 0.002 0.693 0.42 19.62 0.0000 [95% Conf. Interval] -.1984264 .5472786 -.035099 -.2446979 -.0096364 .0330156 .8956462 .0066867 -.0568978 .0144855 Prob > F = 0.9998 . estat ic Model Obs ll(null) ll(model) df AIC BIC . 611 333.386 373.4543 5 -736.9085 -714.833 Note: N=Obs used in calculating BIC; see [R] BIC note 17 5. モデル選択の実例 5-4. 都道府県別家計ガソリン消費量; 変量効果 (6) 変量効果モデル試行 . xtreg dlqgas dlpgas dlinc dlpaut dlphos, re Random-effects GLS regression Group variable: kid Number of obs Number of groups = = 611 47 R-sq: Obs per group: min = avg = max = 13 13.0 13 within = 0.1228 between = 0.0986 overall = 0.1217 corr(u_i, X) ガソリン価格 所得(消費支出) 自動車購入価格 民間賃貸家賃 Wald chi2(4) Prob > chi2 = 0 (assumed) dlqgas Coef. dlpgas dlinc dlpaut dlphos _cons -.0837601 .7148781 -.0143607 -.1644479 .0026645 sigma_u sigma_e rho 0 .1371642 0 Std. Err. .0575828 .086132 .0103761 .046227 .0060023 z -1.45 8.30 -1.38 -3.56 0.44 P>|z| 0.146 0.000 0.166 0.000 0.657 = = 83.94 0.0000 [95% Conf. Interval] -.1966203 .5460624 -.0346974 -.2550512 -.0090997 .0291001 .8836937 .005976 -.0738445 .0144288 (fraction of variance due to u_i) 18 5. モデル選択の実例 5-5. 都道府県別家計ガソリン消費量; Hausman (7) Hausman 検定 (固定-変量) . hausman SGASFX Coefficients (b) (B) SGASFX . ガソリン価格 所得(消費支出) 自動車購入価格 民間賃貸家賃 dlpgas dlinc dlpaut dlphos -.0827054 .7214624 -.0142061 -.1507978 -.0837601 .7148781 -.0143607 -.1644479 (b-B) Difference .0010547 .0065844 .0001546 .01365 sqrt(diag(V_b-V_B)) S.E. .0124569 .0211001 .0023406 .0121832 b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic chi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 1.33 Prob>chi2 = 0.8570 「係数に差がない」 帰無仮説を保留 (→ 変量効果で可) 19 5. モデル選択の実例 5-6. 都道府県別家計ガソリン消費; Breusch-Pagan (8) Breusch-Pagan 検定 (変量-プール) . xttest0 Breusch and Pagan Lagrangian multiplier test for random effects dlqgas[kid,t] = Xb + u[kid] + e[kid,t] Estimated results: Var dlqgas e u Test: sd = sqrt(Var) .0203408 .018814 0 .1426211 .1371642 0 Var(u) = 0 chibar2(01) = Prob > chibar2 = 0.00 1.0000 「誤差項不均一」 帰無仮説を保留 (→ プールモデル) 20 5. モデル選択の実例 5-7. 都道府県別家計ガソリン消費; プール推計 (9) プール推計(1) . reg dlqgas dlpgas dlinc dlpaut dlphos, robust Linear regression ガソリン価格 所得(消費支出) 自動車購入価格 民間賃貸家賃 Number of obs F( 4, 606) Prob > F R-squared Root MSE dlqgas Coef. dlpgas dlinc dlpaut dlphos _cons -.0837601 .7148781 -.0143607 -.1644479 .0026645 Robust Std. Err. .0475061 .1038883 .0103954 .0990948 .0050381 t -1.76 6.88 -1.38 -1.66 0.53 P>|t| 0.078 0.000 0.168 0.098 0.597 = = = = = 611 16.57 0.0000 0.1217 .1341 [95% Conf. Interval] -.1770567 .5108533 -.0347761 -.3590588 -.0072297 .0095365 .9189029 .0060548 .030163 .0125587 . estat ic Model Obs ll(null) ll(model) df AIC BIC . 611 323.4903 363.1226 5 -716.2453 -694.1698 Note: N=Obs used in calculating BIC; see [R] BIC note 21 5. モデル選択の実例 5-8. 都道府県別家計ガソリン消費; 変数選択(1) (10) プール推計(2) (一連の検定を繰返す(略)) . reg dlqgas dlpgas dlinc dlphos, robust Linear regression ガソリン価格 所得(消費支出) 民間賃貸家賃 Number of obs F( 3, 607) Prob > F R-squared Root MSE dlqgas Coef. dlpgas dlinc dlphos _cons -.0788934 .6956533 -.164825 .0023022 Robust Std. Err. .0473866 .1046476 .0995487 .0050153 t -1.66 6.65 -1.66 0.46 P>|t| 0.096 0.000 0.098 0.646 = = = = = 611 21.43 0.0000 0.1189 .13421 [95% Conf. Interval] -.1719549 .490138 -.3603268 -.0075471 .0141682 .9011686 .0306768 .0121516 変数を減らした結果 AICは微減 (→ 妥当性向上) . estat ic Model Obs ll(null) ll(model) df AIC BIC . 611 323.4903 362.1585 4 -716.317 -698.6566 Note: N=Obs used in calculating BIC; see [R] BIC note 22 5. モデル選択の実例 5-9. 都道府県別家計ガソリン消費; 変数選択(2) (11) プール推計(3) (一連の検定を繰返す(略)) . reg dlqgas dlpgas dlinc, robust Linear regression ガソリン価格 所得(消費支出) Number of obs F( 2, 608) Prob > F R-squared Root MSE dlqgas Coef. dlpgas dlinc _cons -.0781932 .7025657 .0003739 Robust Std. Err. .0472944 .1041608 .0050661 t -1.65 6.75 0.07 P>|t| 0.099 0.000 0.941 = = = = = 611 23.34 0.0000 0.1005 .13549 [95% Conf. Interval] -.1710735 .4980071 -.0095752 .0146871 .9071243 .0103231 変数を減らした結果 AICは増加 (→ 妥当性低下) . estat ic Model Obs ll(null) ll(model) df AIC BIC . 611 323.4903 355.8353 3 -705.6707 -692.4254 Note: N=Obs used in calculating BIC; see [R] BIC note 23 5. モデル選択の実例 5-10. 都道府県別家計ガソリン消費; 結果 - 2000~2013年の47都道府県別プールデータを 用いた推計の結果、ガソリンの価格弾力性は 90%有意水準で - 0.07 程度の非常に小さい値と 推計され、都道府県別の差異も少ない模様 - 一方、ガソリンの所得弾力性は 95%有意水準で +0.70 程度であり明確な正の弾力性が観察される - ガソリンの消費量の推計において、民間賃貸家 賃が有意な負の相関を示しており、地価が高く 都市化が進み公共交通機関が集積する大都市で 24 相対的に消費が少ないことが観察される