クリック - ODN

Download Report

Transcript クリック - ODN

データ分析入門(7)
第7章 データの操作と比較
廣野元久
1
本章の概要
データの変換
JMPによる四則演算の方法
JMPによる基準化の方法
複数のグループの比較、名義尺度でグループ化
量的データを比較する
ヒストグラム、分散分析
質的データを比較する
グラフによる比較
第7章 データの操作と比較
廣野元久 &高橋行雄
2/29

1.データ変換
1.1 データの基準化
1.2 四則演算
2. データの標準化
2.データの標準化
例)従業員1人当りの利益
例)3科目のテストの合計
魚はそのままでは食べない 
刺身・焼く・煮る
テストの点数
偏差値
元の変量
データ変換 新しい変量
データ変換にJMPの計算ウインドウを使う!!
第7章 データの操作と比較
廣野元久 &高橋行雄
3/29
1.1 データの基準化
Dasampleのフォルダを開く
県データ.jmpをロードする
¤“X

”
150
125
100
75
50
25
0
変量:商店数でヒストグラムを描画する
人口の多い県では商店も多いから県の比較になら
ない
第7章 データの操作と比較
廣野元久 &高橋行雄
4/29
1.2 四則演算(1)
企業の経営度を調べるとき
経常利益や設備投資,環境対策費など大規模
な企業が多いのは自明
一人あたりの経常利益などで評価しないとミス
リードする
県データ.jmpでも人口1000人あたりの商
店数の計算をしてみよう
第7章 データの操作と比較
廣野元久 &高橋行雄
5/29
1.2 四則演算(2)
県データ.jmpのデータテーブルをアクティブにする
県データ2.jmpとして新規保存する
1.ダブル
クリック
すると
列が
1つ増える
3.変量名を
千人当り
商店数
にする
2.プロパティの
ウインドウを
表示させる
4.リストの計算式を選ぶ
第7章 データの操作と比較
廣野元久 &高橋行雄
5.を押す
6/29
1.2 四則演算(3)
4.÷ボタンをクリックして分数表示に
6.人口をクリック
2.商店数を
クリック
3.□に商店数
が表示
5.分母の□をクリック
第7章 データの操作と比較
廣野元久 &高橋行雄
1.□をクリック
7/29
1.2 四則演算(4)
4.計算
終了
2.1000を入力 3.適用をクリック
1.×をクリック
5.OKをクリック
第7章 データの操作と比較
廣野元久 &高橋行雄
8/29
1.2 四則演算(5)
1000人当の
店舗数が多い
高知,富山
店舗数が少ない
神奈川,千葉,埼玉
第7章 データの操作と比較
廣野元久 &高橋行雄
9/29
2.データの標準化(1)
測定単位の異なるものを比較するには、標
準化してから、ばらつき具合という土俵で比
較する
偏差値:数学、英語の試験を受けた
数学:平均50点、標準偏差10点で60点だった。
英語:平均60点、標準偏差5点で63点だった。
どっちがよい結果か?
第4章の練習問題3(サッカーの順位予想)
チームごとに,データから平均値を引くと違いが見える
標準偏差で割らない方が順位のばらつきが見える
第7章 データの操作と比較
廣野元久 &高橋行雄
10/29
2.データの標準化(2)
標準化の方法
データを平均0、標準偏差1に変換する
( データ ) ―( データ の平均)
z
標準偏差
( 得点) ―( 得点の平均)
偏差値=50+
標準偏差/10
第7章 データの操作と比較
廣野元久 &高橋行雄
11/29
2.データの標準化(3)
ビッグクラス.jmpをロードする
身長(インチ)と体重(ポンド)のヒストグラムを描
画する
2.保存から
標準化を選び、
データテーブル
に保存する
1.赤い▼を
クリックして
メニューを
表示する
第7章 データの操作と比較
廣野元久 &高橋行雄
12/29
2.データの標準化(4)
平均0、標準偏差1
第7章 データの操作と比較
廣野元久 &高橋行雄
13/29
3.データのグループ間比較
名義尺度の変数で分類して,違いを比較する
年代による漫画の読書時間
性別による電話使用時間
ビッグクラス.jmpで身長(インチ)の違いを調べる
第7章 データの操作と比較
廣野元久 &高橋行雄
14/29
4.量的データのグループ別集計と比較
ビッグクラス.jmpをロードする
1.テーブルから
列の分割を
選択
2.ウインドウが
される表示
第7章 データの操作と比較
廣野元久 &高橋行雄
15/29
4.1 グループ別集計
2.それ以外を追加tへ
1.性別をラベル列へ
3.列の分割を選択
4.集計データの
テーブルが表示
第7章 データの操作と比較
廣野元久 &高橋行雄
16/29
4.2 グループ間の比較
ˆê•Ï—Ê‚Ì•ª•z
g’·(ƒCƒ“ƒ`) F

g’·(ƒCƒ“ƒ`) M
70
70
65
65
60
60
55
55
50
50
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
60.888889
•W
€•Î
·
3.6118903
•½‹Ï‚Ì•W
€Œë
·
0.8513307
•½‹Ï‚̏
㑤95%
M—ŠŒÀŠE 62.68504
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
59.092738
N
18
男女別のヒストグラムを作る
目盛を合わせる
By 変数を使えば簡単にできる
1in は2.54cm
男女では,約3inほどの差
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
63.909091
•W
€•Î
·
4.3084534
•½‹Ï‚Ì•W
€Œë
·
0.9185653
•½‹Ï‚̏
㑤95%
M—ŠŒÀŠE65.819352
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE61.99883
N
22
女学生の方が中心付近
に集まっている
第7章 データの操作と比較
廣野元久 &高橋行雄
17/29
4.2 グループ間の比較
By変数を使い簡単に比較する方法
•Ê=F
«
ˆê•Ï—Ê‚Ì•ª•z
g’·(ƒCƒ“ƒ`)

ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
60.888889
•W
€•Î
·
3.6118903
•½‹Ï‚Ì•W
€Œë
·
0.8513307
•½‹Ï‚̏
㑤95%
M—ŠŒÀŠE 62.68504
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE
59.092738
N
18
50
・1変量の分布をクリックし
ダイアログを表示する
・身長(インチ)をY,列に指定
・性別をByに指定
・OKをクリック
55
60
65
70
•Ê=M
«
ˆê•Ï—Ê‚Ì•ª•z
g’·(ƒCƒ“ƒ`)

ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
63.909091
•W
€•Î
·
4.3084534
•½‹Ï‚Ì•W
€Œë
·
0.9185653
•½‹Ï‚̏
㑤95%
M—ŠŒÀŠE65.819352
•½‹Ï‚̉º‘¤95%
M—ŠŒÀŠE61.99883
N
22
50
55
60
第7章 データの操作と比較
廣野元久 &高橋行雄
65
70
18/29
5 条件判断によるデータの分類
量的データを適当な区間で分類する
身長:高い,普通,低い
成績:良い,普通,悪い
質的データの分類を変える
身長(高いと普通) VS (低い)
地域(近畿,中国,四国) VS (関東,甲信越)
車の調査.jmpを使って,年齢層による車の嗜好の
違いを比較する
列を一つ追加する
第7章 データの操作と比較
廣野元久 &高橋行雄
19/29
5 条件判断によるデータの分類(2)
1.計算式を選ぶ
2.をクリック
3.条件付きを選択
4.Ifをクリック
5.条件文が表示される
第7章 データの操作と比較
廣野元久 &高橋行雄
20/29
5 条件判断によるデータの分類(3)
4.値,変量,値を入力
1.条件文が表示される
2.をクリック
3.の条件をクリック
5.入れ子構造:繰り返し
前スライド3~本スラ
イド3
6.再び,値,変量,値
値 を入力
第7章 データの操作と比較
廣野元久 &高橋行雄
21/29
5 条件判断によるデータの分類(4)
1.年齢グループ変量が作成された
第7章 データの操作と比較
廣野元久 &高橋行雄
22/29
6 質的グループのグループ別集計と比較
車の調査.jmpを使う 4.タイプをクリック
3.&5.グループ化をクリック
6.OKをクリック
1.テーブルから
要約を
クリック
2.年齢グループをクリック
第7章 データの操作と比較
廣野元久 &高橋行雄
23/29
6.1 グループ別集計
新規テーブルの表示
(要約表)
全体
年齢グループ
で分類
2
3
1
タイプで分類
F
S
グループ化に登録する順番で
要約表の形が変わる
第7章 データの操作と比較
廣野元久 &高橋行雄
W
F
F
S
S
W
W
24/29
6.2グループ別のグラフ作成(1)
2.グラフをクリックし,チャートをクリック
1.要約表を
アクティブ
にする
3.N を選択
4.統計量をクリックし,
データをクリック
第7章 データの操作と比較
廣野元久 &高橋行雄
25/29
6.2グループ別のグラフ作成(2)
1.年齢グループ
をクリック
5.OKをクリック
3.タイプを
クリック
2.&4.X水準をクリック
第7章 データの操作と比較
廣野元久 &高橋行雄
26/29
6.2グループ別のグラフ作成(3)
1.棒グラフが描画される
3.円グラフが描画される
2.円をクリック
円の大きさは頻度による
第7章 データの操作と比較
廣野元久 &高橋行雄
27/29
課題(1)
データ分析のホームページから衆議院選挙得票
2000をダウンロードせよ.
変量の合計の得票数に着目して,150万票で都道
府県を2分し,県分類という名前をつけなさい
テーブルの要約を使い
グループに県分類,統計量の合計を使い,自民党,民主党,
共産党,合計を指定し,要約表を作成せよ
要約表で,自民党,民主党,共産党を合計で割り,得
票率のデータにせよ
県分類を使い,自民党,民主党,共産党の得票率を
棒グラフにせよ
第7章 データの操作と比較
廣野元久 &高橋行雄
28/29
課題(2)
要約表のデータを使い,棒グラフよりも
もっと分かりやすいグラフを作成せよ.
グラフ作成にあたりJMPを使わなくても良い
第7章 データの操作と比較
廣野元久 &高橋行雄
29/29