Transcript 19-6

データ解析コンペティション
ぱっしょん
小林 高野 御堂丸 根岸
山下 市村 土屋 太田 川上
H.20.03.01
1.研究目的
2.データ概要
3.価格決定要因の抽出
4.デシル分析
5.クラスター分析
6.デシル*クラスター
7.まとめ
2
1.研究目的
 オークションに関わる企業に対して
有益な情報戦略の提案を行う
3
2.データ概要
データ期間:2005/06/22~2007/06/28
 車両台数:125,880台
 無札台数:1194台(0.95%)
 平均落札金額:31万円
 出品者:105社
 落札者:619社

4
3.価格決定要因の抽出

仮説:有意な変数がわかれば、予測式に
よって事前に落札価格がわかるのではない
か。

落札価格に影響の大きい変数を調べるため
に前半1年のデータを使って車種ごとの回
帰分析を行う。予測式による割合変数※の
予測値と後期データにある実測値との残差、
予測式の説明率について調べた。
※新たに定義した変数
次ページにて説明
5
3.価格決定要因の抽出(1)

新たに定義した変数



割合・・・新車価格に対する落札価格の割合(落札価格/新車価格)
車検残月数・・・オークション開催日の時点で残っている車検の
月数
経過年数・・・初年度登録からオークション開催日までに経過し
た年数
※有益な分析を行うために、新車価格に0又は欠損値の含まれる
もの、落札台数が99台以下の車種は省いた
分析に使用したのは74232台の車両データとなる
新車価格が0のデータ:118台
新車価格が欠損しているデータ:43202台
落札台数合計が99台以下の車種:8328台
6
3.価格決定要因の抽出(2).予測式

Y = b1X1 + b2X2 + b3X3 + c
予測値
前期有力変数
後期有力変数
Y切片
車種によっては回帰で見つからなかった要因が存在する可能性
説明率と残差を交差させ、車種ごとの最適な分析手法を再考
7
3.価格決定要因の抽出(3)
第2象限
第3象限
第1象限
第4象限
8
3.価格決定要因の抽出(4)
説明率が高いものは、回帰分析で有意変数
を抽出できていると判断
 残差の大きいものは、前期・後期の間にモ
デルチェンジ等、なんらかの変化があった
可能性

第1象限・・・前後期別に標準化偏回帰係数を求める
第2象限・・・全データの標準化偏回帰係数を求める
第3象限・・・全データを使用し、決定木分析を行う
第4象限・・・前後期別に決定木分析を行う
9
3.価格決定要因の抽出(5).第1・4象限


第1・第4象限は、比較的残差の大きい象
限だったことから、前後期にわけて分析を
行った。
対象の車種のほとんどにおいて有意な変数の入れ替わりが
発生した。原因の特定までには至っていないが、ライト
エースバンのように経過年数と初年度登録という、非常に
似た変数同士の入れ替わりが発生していることもあった
10
経過年数は7年を超
えるかどうかで落札
価格に差がでている
価格決定要因の抽出(6).第3象限
車種名
走行距離
<45056
31.0%
>=45056
21.6%
100
ブルーバードシルフィ
45
サクシードバン
<45463
42.4%
>=45463
26.9%
127
ランサーセディアワゴン
<64084
23.8%
>=64084
14.9%
シビックは2005年にモ
デルチェンジが行われ、4
ドアの小型乗用車から5ド
アのセダンタイプになった
11
価格決定要因の抽出(7).無札
仮説
入札されている車種とされていない車種
(無札)の違いはどこにあるのかを分析
その際、車種の形状タイプにより要因が異
なるのではないかという仮説を立てた
決定木分析により、要因となりうる変数を抽出
12
価格決定要因の抽出(7-1)

新たに定義した変数

損傷ポイント・・・提供データを元に損傷記号を数値化したも
のをフロント・サイド・リア・ルーフ・タイヤの部分別に分け
たものとその合計


車種タイプ・・・車種名、形状記号を分析用に変換したもの
決定木とは

意思決定の決定や物事の分類などの分岐を樹形図で表現
したもの
13
価格決定要因の抽出(7-2)
セダンタイプ
1999年以前の車
種で新車価格が
約170万以下のも
の、そして距離
が87000km以上
と、この条件を
満たせば満たす
ほど無札になる
可能性が上がる。
軽自動車タイプも全く同
じ条件となった。新車価
格は80万以下、走行距
離は約5万8000kmが基
準となっている。
初年度登録
新車価格
距 離
14
価格決定要因の抽出(7-3)
ワゴンタイプ
このタイプは、
他のタイプに比べ
損傷の影響を大き
く受けている
損傷ポイント合計
車検期限
車検期限
タイヤ損傷ポイント
15
価格決定要因の抽出(7-4)
バンタイプ
バンタイプを買う
人は、車の本体価
格以外の部分での
支出を特に抑えた
いという人が多い
ようだ。
車検期限
初年度登録
フロント損傷ポイント
16
価格決定要因の抽出(8).まとめ
車種をいくつかのパターンに分けて分析するこ
とによって、価格決定につながる変数やその度
合いを発見することができた。
 しかしその一方で、前期・後期にわけて分析し
た際に異なる有意変数が抽出された車種につい
ては、その原因をもっと掘り下げて探っていく
必要がある。
 無札の自動車に関しては、タイプごとにしっか
りとした条件が浮かび上がっている。出品者側
からすると、これらの車種を出品することは無
意味ということになるが、主催者側からすると
この情報を公開するメリットはあまりないかも
しれない。

17
4.デシル分析
これを前後期別に行う
①各バイヤーを落札金額の多い順に並べ替える
優良顧客
バイヤーA
バイヤーE
落札金額合計:1000万円
落札金額合計:2300万円
バイヤーB
バイヤーD
落札金額合計:200万円
落札金額合計:1800万円
バイヤーC
バイヤーF
落札金額合計:500万円
落札金額合計:1200万円
バイヤーD
バイヤーA
落札金額合計:1800万円
落札金額合計:1000万円
バイヤーE
バイヤーC
落札金額合計:2300万円
落札金額合計:500万円
バイヤーF
バイヤーB
落札金額合計:1200万円
落札金額合計:200万円
D
E
C
I
L
1
D
E
C
I
L
2
非優良顧客
②10個のデシルに落札金額の多いバイヤーから順に均等に振
り分けていく
D
E
C
I
L
3
18
デシル分析(1)
 仮説
優良顧客と非優良顧客をわけること
によって、バイヤーの特徴に違いが
見られるのではないか。
非優良顧客を優良顧客にするために
何かできることはないだろうか。
バイヤーの細分化によって広告の効率化を狙う
19
decil7 decil10
decil4
1%
0%
5%
decil5 decil6decil8
decil9
decil3 3%
0%
2% 1%
8%
デシル分析(2)
decil2
17%
decil1
63%
どちらもdecil1に属する
バイヤーが全落札金額
のおよそ6割を占める
前期落札金額(総額:2億2081万円)
decil5 decil6 decil8
2% decil7
1% decil9 decil10
decil4 3%
0%
decil3 6%
1%
0%
9%
decil2
17%
decil1
61%
後期落札金額(総額:1億7256万円)
20
デシル分析(3)
各decilに属しているバイヤー数の前期から後期にかけての動き
前後期共にdecil1に属し
ているバイヤは38社
1
2
3
前
期
d
e
c
i
l
1
4
5
6
7
8
9
10
合計
1
38
74. 51
7
14. 89
1
2. 22
0
0
0
0
0
0
1
2. 78
0
0
0
0
0
0
47
2
10
19. 61
26
55. 32
11
24. 44
0
0
0
0
0
0
0
0
0
0
0
0
0
0
47
decil2からdecil3へ下降
したバイヤは8社
3
1
1. 96
8
17. 02
15
33. 33
10
26. 32
7
14. 89
2
4. 44
3
8. 33
0
0
0
0
0
0
46
4
1
1. 96
3
6. 38
9
20
11
28. 95
9
19. 15
5
11. 11
5
13. 89
1
2. 86
0
0
0
0
44
後期 d e c i l 2
5
6
0
0
0
0
1
0
2. 13
0
6
2
13. 33
4. 44
6
7
15. 79
18. 42
13
4
27. 66
8. 51
9
11
20
24. 44
3
9
8. 33
25
1
7
2. 86
20
2
2
5. 41
5. 41
3
1
9. 38
3. 13
44
43
7
0
0
0
0
0
0
3
7. 89
9
19. 15
6
13. 33
5
13. 89
4
11. 43
6
16. 22
4
12. 5
37
8
0
0
1
2. 13
1
2. 22
1
2. 63
2
4. 26
1
2. 22
9
25
8
22. 86
9
24. 32
4
12. 5
36
9
1
1. 96
1
2. 13
0
0
0
0
2
4. 26
7
15. 56
1
2. 78
7
20
10
27. 03
8
25
37
10
0
0
0
0
0
0
0
0
1
2. 13
4
8. 89
0
0
7
20
8
21. 62
12
37. 5
32
合計
51
47
45
38
47
45
36
35
37
32
413
21
各数値の変動が激しい
↓
何らかのアプローチを
とる価値はある
デシル分析(4)
80%
70%
60%
50%
decil上昇率
40%
decil不動率
decil下降率
30%
20%
10%
0%
decil1
decil2
decil3
decil4
decil5
decil6
decil7
decil8
decil9
decil10
22
デシル分析(5).考察
 decil7までに属しているバイヤには、
広告の効率化によってdecilの上昇が
期待できるのではないか。
 decil8以下に属するバイヤに対してア
クションをとるよりも、新規顧客の
獲得に注力したほうがよいのではな
いか。
23
エルフ
ランサーセディア
ダイナ
カローラバン
ギャラン
アトラス
ハイラックス
タウンエースノア
シビックフェリオ
サンバートラック
エキスパート
ADバン
トゥデイ
トヨエース
キャンター
ファミリアSワゴン
アベニールカーゴ
スイフト
ランサー
リベロカーゴ
タイタン
プロボックスバン
カペラ
エルフワイド
カペラワゴン
ライトエーストラック
ファミリアバン
アリオン
カローラワゴン
キャンターワイド
1000
パジェロイオ
タウンエーストラック
グランディス
デシル分析(6)
1200
[デシルを上昇させているバイヤが多く購入した車種]
いずれも商用車と考えられる
800
600
up
400
down
200
0
24
400
350
ローレル
eKワゴン
キューブ
ハイゼットカーゴ
アコード
ビスタ
ファンカーゴ
ハイゼットトラック
プラッツ
プリウス
ムーヴ
プレオバン
オデッセイ
クラウン
ミラバン
ミニカバン
MPV
ヴィヴィオバン
シーマ
スクラムバン
レガシィツーリングワコ
ミラ
エブリイバン
コルト
キャリイトラック
ファミリアセダン
マックス
ミニキャブバン
カムリ
ワゴンR
プレオ
トッポBJ
クラウンセダン
ミニキャブトラック
ビスタアルデオ
デシル分析(7)
450
[デシルを下降させているバイヤが多く購入した車種]
飛びぬけてupとの違い
が大きい車種はない
downがupを上回る車種と
しては、軽自動車や小型
商用車が多くみられる
300
250
200
up
150
down
100
50
0
25
デシル分析(8).まとめ

商用車を中心に買い進めているバイヤは優
良バイヤになりやすい傾向がある。ただ
し、今回はデシルに振り分ける際に落札金
額でソートしているため、商用車1台を
買ったバイヤが軽自動車を3台買ったバイ
ヤよりも高いdecilに属しているということ
も考えられ、単純に優良・非優良バイヤと
は分けられない。

次に行うクラスター分析とあわせて考える
必要がある。
26
5.クラスター分析
 仮説
 デシル分析とは異なる視点から各バイ
ヤーの特徴を捉え、バイヤーを分類する
ことによってとるべきアクションを考え
られないか。
 デシルとクラスターのクロス集計により
バイヤーを細分化することから何か新し
い発見を見つけることはできないか。
※クラスター分析をおこなうにあたっては、SOM(自己組織化マッ
プ)を使用
27
クラスター分析(1).SOM

SOM(自己組織化マップ、Self-Organizing Map)とは、
ニューラルネットワークの出力にあたるものをn行m列の
表にし、入力データごとの各変数の値とその表の各セルを
結びつける関数を設定して、どのように表に振り分けたら
一番安定するかを求めることによって、データをn×m個に
分類する方法のこと。
クラスター1
クラスター3
クラスター2
クラスター4
28
クラスター分析(2)

バイヤーごとに集計した以下の落札パターンに関
するデータについて、3×3(=9)個のクラスター
に分けるように設定してSOMによる分析を実施。

車種別落札台数率(134車種)☆
 亀裂
 平均走行距離

距離区分(4区分)☆
 抹消区分

レンタカー歴(6区分)☆
 保証書
 看板面数
 整備手帳
 落札合計台数◎
 記録
 平均経過年数◎
 修復歴
 平均価格率◎
 ヤブレ

会場別台数率(17会場)◎☆
 穴

月別落札台数率(12ヶ月×2年分)◎☆
◎印は今回の分析のために独自に設定した項目。それ以外は元のデータにある項目
☆印は区分別に項目を分け、それぞれの区分での台数を比率に変えてデータ化した項
目。それ以外は数値の平均をバイヤー別に求めてデータ化した項目。
29
クラスター分析(3)

データを9つのクラスターに分けた結果、以下の
ような特徴が見られた
クラスター1(バイヤー数:11 落札台数:16.45)
クラスター6(バイヤー数:94 落札台数:84.70)
ボロ車買いバイヤー(但し看板面数非常に多め)。かな
り低めの値段で落札。少数落札者
年数普通だが状態が新品同様のものを狙うバイヤー。高めの
値段で落札。若干少なめに落札。看板面数多め
クラスター2(バイヤー数:47 落札台数:50.7)
クラスター7(バイヤー数:56 落札台数:126.23)
ボロ車買いバイヤー(但し看板面数平均的)。低めの
値段で落札。少数落札者
(年数・状態・走行距離が)普通の車メインのバイヤー。落
札台数平均的
クラスター3(バイヤー数:53 落札台数:182.36)
年数や状態は普通だが走行距離が若干短いものを狙う
バイヤー。若干多めに落札、看板面数少なめ
クラスター4(バイヤー数:81 落札台数:149.63)
ボロ車に近い中古車のバイヤー。低めの値段で落札。
若干多めに落札。看板面数少なめ
クラスター8(バイヤー数:87 落札台数:72.85)
年数や状態は普通だがあまり走行していない車を狙うバイ
ヤー。若干少なめに落札。看板面数多め
クラスター9(バイヤー数:60 落札台数:68.07)
新品同様志向バイヤー。若干少なめに落札。
クラスター5(バイヤー数:95 落札台数:257.16)
年数や状態は普通だが距離が若干長めの車を狙うバイ
ヤー。大量落札者
有益なビジネス戦略を練る実施例を付録として掲載
30
6.デシル*クラスター
cluster1
decil1
decil2
decil3
decil4
decil5
decil6
decil7
decil8
decil9
decil10
合計
0
0
0
0
1
1.72
0
0
1
1.72
1
1.72
1
1.72
1
1.72
1
1.72
5
8.06
11
cluster2
0
0
2
3.45
2
3.45
4
6.9
5
8.62
5
8.62
7
12.07
8
13.79
6
10.34
8
12.9
47
cluster3
5
8.62
5
8.62
6
10.34
4
6.9
7
12.07
3
5.17
5
8.62
7
12.07
5
8.62
6
9.68
53
cluster4
9
15.52
6
10.34
9
15.52
7
12.07
8
13.79
8
13.79
12
20.69
8
13.79
6
10.34
8
12.9
81
cluster5
24
41.38
11
18.97
13
22.41
8
13.79
7
12.07
7
12.07
7
12.07
5
8.62
4
6.9
9
14.52
95
cluster6
6
10.34
10
17.24
11
18.97
8
13.79
14
24.14
13
22.41
9
15.52
11
18.97
5
8.62
7
11.29
94
cluster7
7
12.07
6
10.34
6
10.34
6
10.34
8
13.79
4
6.9
3
5.17
5
8.62
5
8.62
6
9.68
56
cluster8
3
5.17
9
15.52
4
6.9
14
24.14
5
8.62
11
18.97
11
18.97
10
17.24
14
24.14
6
9.68
87
cluster9
4
6.9
9
15.52
6
10.34
7
12.07
3
5.17
6
10.34
3
5.17
3
5.17
12
20.69
7
11.29
60
合計
58
58
58
58
58
58
58
58
58
62
584
ピンク色の部分は、デシル分析の結果により広告の効果が大きいと
考えられる範囲。赤色の部分からは、クラスター5が他のクラス
ターに対してdecil1に属している比率が断トツで高いことがわかる
31
7.まとめ



バイヤーを細分化することによって、バイ
ヤーには特性が見られ、それぞれに有効な
サービスを提供していくことができるという
結論に至った。(例:付録4)
これによってオークションの参加率上昇につ
ながる広告の効率化を図っていけるのではな
いか。
価格決定につながる有意変数の数値を求めた
が、各々の車種に特徴がみられる。それを利
用することによって出品前にある程度の落札
価格を予測し、オークションに対して不安を
感じている人への参加を促したい。
32
終わり
ご清聴ありがとうございました
33
付録(1).クラスター分析:資料
<主に利用するオークション会場>
クラスター1
会場4、会場8、会場5、会場3、会場1
3、会場9、会場16
クラスター6
会場4、会場8、会場5、会場3、会場6、会
場12
クラスター2
会場3、会場4、会場10
クラスター7
会場5、会場3、会場8、会場6、会場12、
会場4
クラスター3
会場4、会場3、会場5、会場12
クラスター8
会場4、会場3、会場5、会場6、会場1
0
クラスター4
会場4、会場3、会場5、会場8、会場1
0、会場12
クラスター5
会場4、会場10、会場8、会場5、会場
3、会場6
クラスター9
会場6、会場5、会場14、会場12
※太字の会場は特に多く利用している
会場を示す
34
付録(2).クラスター分析:資料
<落札した車の主な形式>
クラスター1
商用ステーションワゴン、トラック、商用バン
クラスター2
商用ステーションワゴン、トラック、一般
軽乗用車、一般セダン
クラスター6
商用軽乗用車、一般軽乗用車、商用ステー
ションワゴン
クラスター7
商用軽乗用車、商用ステーションワゴン、
一般軽乗用車、一般セダン
クラスター3
商用軽乗用車、一般セダン、一般軽乗用
車、商用ステーションワゴン
クラスター8
クラスター4
商用ステーションワゴン、一般セダン
クラスター9
一般軽乗用車、商用軽乗用車
商用軽乗用車、一般軽乗用車、商用ステー
ションワゴン
クラスター5
商用ステーションワゴン、一般セダン
35
付録(3).クラスター分析:資料
<落札した車の主な車種>
クラスター1
エルフ、パートナーバン、ADバン、カル
ディナバン、ボンゴバン、キャロル、カ
ローラバン、エルフワイド、タイタン、
キャンターガッツ
クラスター2
ADバン、キャロル、カローラバン、パー
トナーバン、エルフ、タウンエースノア
クラスター3
ファミリアセダン、パートナーバン、カ
ローラ
クラスター4
ADバン、カローラバン、カローラ、パー
トナーバン、ボンゴバン
クラスター5
カローラ、カローラバン、ADバン、パー
トナーバン、サニー
クラスター6
エブリイバン、ミラ、カローラバン、ミラ
バン、ADバン、ハイエースワゴン
クラスター7
ADバン、カローラ、アクティバン
クラスター8
ミラ、ミラバン、キャロル、ミニキャブバ
ン、カローラバン、ADバン、エルフ
クラスター9
ミラ、ミニカバン、キャロル、ワゴンR、
アルトバン、セレナ
※太字の車種は、前ページの形式に該
当しない車種を示す
36
付録(4).クラスター分析:実施例

クラスター1(ボロ車買いバイヤー)の場合、
 状態の悪く経過年数も長く(8~9年)、走行距離が非常に長い(約
21km)車
 看板面数が多い(1バイヤーあたり平均2.2枚)
 「エルフ、パートナーバン、ADバン、カルディナバン、ボンゴバ
ン、キャロル、カローラバン、エルフワイド、タイタン、キャンター
ガッツ」のいずれか、あるいは商用ステーションワゴン、トラック、
商用バンのいずれかに属している車種であり、出品会場は会場4、会
場8、会場5、会場3、会場13、会場9、会場16のいずれかであ
る
以上の条件に近い車種を、クラスター1に属する全バイヤーに推薦する
2007年2月28日開催
会場コード:5、第331回、出品番号154
車種名:トヨタ ダイナ
走行距離:254048km
ヤブレ・穴・亀裂あり、看板面数6、経過年数11.0028年
こういったことをシステム化することが可能になるのではないか
37
付録(4).8ページ車種番号対応表
38