Transcript クリック - ODN
データ分析入門(7) 第7章 データの操作と比較 廣野元久 1 本章の概要 データの変換 JMPによる四則演算の方法 JMPによる基準化の方法 複数のグループの比較、名義尺度でグループ化 量的データを比較する ヒストグラム、分散分析 質的データを比較する グラフによる比較 第7章 データの操作と比較 廣野元久 &高橋行雄 2/29 1.データ変換 1.1 データの基準化 1.2 四則演算 2. データの標準化 2.データの標準化 例)従業員1人当りの利益 例)3科目のテストの合計 魚はそのままでは食べない 刺身・焼く・煮る テストの点数 偏差値 元の変量 データ変換 新しい変量 データ変換にJMPの計算ウインドウを使う!! 第7章 データの操作と比較 廣野元久 &高橋行雄 3/29 1.1 データの基準化 Dasampleのフォルダを開く 県データ.jmpをロードする ¤“X ” 150 125 100 75 50 25 0 変量:商店数でヒストグラムを描画する 人口の多い県では商店も多いから県の比較になら ない 第7章 データの操作と比較 廣野元久 &高橋行雄 4/29 1.2 四則演算(1) 企業の経営度を調べるとき 経常利益や設備投資,環境対策費など大規模 な企業が多いのは自明 一人あたりの経常利益などで評価しないとミス リードする 県データ.jmpでも人口1000人あたりの商 店数の計算をしてみよう 第7章 データの操作と比較 廣野元久 &高橋行雄 5/29 1.2 四則演算(2) 県データ.jmpのデータテーブルをアクティブにする 県データ2.jmpとして新規保存する 1.ダブル クリック すると 列が 1つ増える 3.変量名を 千人当り 商店数 にする 2.プロパティの ウインドウを 表示させる 4.リストの計算式を選ぶ 第7章 データの操作と比較 廣野元久 &高橋行雄 5.を押す 6/29 1.2 四則演算(3) 4.÷ボタンをクリックして分数表示に 6.人口をクリック 2.商店数を クリック 3.□に商店数 が表示 5.分母の□をクリック 第7章 データの操作と比較 廣野元久 &高橋行雄 1.□をクリック 7/29 1.2 四則演算(4) 4.計算 終了 2.1000を入力 3.適用をクリック 1.×をクリック 5.OKをクリック 第7章 データの操作と比較 廣野元久 &高橋行雄 8/29 1.2 四則演算(5) 1000人当の 店舗数が多い 高知,富山 店舗数が少ない 神奈川,千葉,埼玉 第7章 データの操作と比較 廣野元久 &高橋行雄 9/29 2.データの標準化(1) 測定単位の異なるものを比較するには、標 準化してから、ばらつき具合という土俵で比 較する 偏差値:数学、英語の試験を受けた 数学:平均50点、標準偏差10点で60点だった。 英語:平均60点、標準偏差5点で63点だった。 どっちがよい結果か? 第4章の練習問題3(サッカーの順位予想) チームごとに,データから平均値を引くと違いが見える 標準偏差で割らない方が順位のばらつきが見える 第7章 データの操作と比較 廣野元久 &高橋行雄 10/29 2.データの標準化(2) 標準化の方法 データを平均0、標準偏差1に変換する ( データ ) ―( データ の平均) z 標準偏差 ( 得点) ―( 得点の平均) 偏差値=50+ 標準偏差/10 第7章 データの操作と比較 廣野元久 &高橋行雄 11/29 2.データの標準化(3) ビッグクラス.jmpをロードする 身長(インチ)と体重(ポンド)のヒストグラムを描 画する 2.保存から 標準化を選び、 データテーブル に保存する 1.赤い▼を クリックして メニューを 表示する 第7章 データの操作と比較 廣野元久 &高橋行雄 12/29 2.データの標準化(4) 平均0、標準偏差1 第7章 データの操作と比較 廣野元久 &高橋行雄 13/29 3.データのグループ間比較 名義尺度の変数で分類して,違いを比較する 年代による漫画の読書時間 性別による電話使用時間 ビッグクラス.jmpで身長(インチ)の違いを調べる 第7章 データの操作と比較 廣野元久 &高橋行雄 14/29 4.量的データのグループ別集計と比較 ビッグクラス.jmpをロードする 1.テーブルから 列の分割を 選択 2.ウインドウが される表示 第7章 データの操作と比較 廣野元久 &高橋行雄 15/29 4.1 グループ別集計 2.それ以外を追加tへ 1.性別をラベル列へ 3.列の分割を選択 4.集計データの テーブルが表示 第7章 データの操作と比較 廣野元久 &高橋行雄 16/29 4.2 グループ間の比較 ˆê•ϗʂ̕ª•z g’·(ƒCƒ“ƒ`) F g’·(ƒCƒ“ƒ`) M 70 70 65 65 60 60 55 55 50 50 ƒ‚ [ƒ ƒ“ƒg •½‹Ï 60.888889 •W €•Î · 3.6118903 •½‹Ï‚Ì•W €Œë · 0.8513307 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠE 62.68504 •½‹Ï‚̉º‘¤95% M—ŠŒÀŠE 59.092738 N 18 男女別のヒストグラムを作る 目盛を合わせる By 変数を使えば簡単にできる 1in は2.54cm 男女では,約3inほどの差 ƒ‚ [ƒ ƒ“ƒg •½‹Ï 63.909091 •W €•Î · 4.3084534 •½‹Ï‚Ì•W €Œë · 0.9185653 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠE65.819352 •½‹Ï‚̉º‘¤95% M—ŠŒÀŠE61.99883 N 22 女学生の方が中心付近 に集まっている 第7章 データの操作と比較 廣野元久 &高橋行雄 17/29 4.2 グループ間の比較 By変数を使い簡単に比較する方法 •Ê=F « ˆê•ϗʂ̕ª•z g’·(ƒCƒ“ƒ`) ƒ‚ [ƒ ƒ“ƒg •½‹Ï 60.888889 •W €•Î · 3.6118903 •½‹Ï‚Ì•W €Œë · 0.8513307 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠE 62.68504 •½‹Ï‚̉º‘¤95% M—ŠŒÀŠE 59.092738 N 18 50 ・1変量の分布をクリックし ダイアログを表示する ・身長(インチ)をY,列に指定 ・性別をByに指定 ・OKをクリック 55 60 65 70 •Ê=M « ˆê•ϗʂ̕ª•z g’·(ƒCƒ“ƒ`) ƒ‚ [ƒ ƒ“ƒg •½‹Ï 63.909091 •W €•Î · 4.3084534 •½‹Ï‚Ì•W €Œë · 0.9185653 •½‹Ï‚Ì ã‘¤95% M—ŠŒÀŠE65.819352 •½‹Ï‚̉º‘¤95% M—ŠŒÀŠE61.99883 N 22 50 55 60 第7章 データの操作と比較 廣野元久 &高橋行雄 65 70 18/29 5 条件判断によるデータの分類 量的データを適当な区間で分類する 身長:高い,普通,低い 成績:良い,普通,悪い 質的データの分類を変える 身長(高いと普通) VS (低い) 地域(近畿,中国,四国) VS (関東,甲信越) 車の調査.jmpを使って,年齢層による車の嗜好の 違いを比較する 列を一つ追加する 第7章 データの操作と比較 廣野元久 &高橋行雄 19/29 5 条件判断によるデータの分類(2) 1.計算式を選ぶ 2.をクリック 3.条件付きを選択 4.Ifをクリック 5.条件文が表示される 第7章 データの操作と比較 廣野元久 &高橋行雄 20/29 5 条件判断によるデータの分類(3) 4.値,変量,値を入力 1.条件文が表示される 2.をクリック 3.の条件をクリック 5.入れ子構造:繰り返し 前スライド3~本スラ イド3 6.再び,値,変量,値 値 を入力 第7章 データの操作と比較 廣野元久 &高橋行雄 21/29 5 条件判断によるデータの分類(4) 1.年齢グループ変量が作成された 第7章 データの操作と比較 廣野元久 &高橋行雄 22/29 6 質的グループのグループ別集計と比較 車の調査.jmpを使う 4.タイプをクリック 3.&5.グループ化をクリック 6.OKをクリック 1.テーブルから 要約を クリック 2.年齢グループをクリック 第7章 データの操作と比較 廣野元久 &高橋行雄 23/29 6.1 グループ別集計 新規テーブルの表示 (要約表) 全体 年齢グループ で分類 2 3 1 タイプで分類 F S グループ化に登録する順番で 要約表の形が変わる 第7章 データの操作と比較 廣野元久 &高橋行雄 W F F S S W W 24/29 6.2グループ別のグラフ作成(1) 2.グラフをクリックし,チャートをクリック 1.要約表を アクティブ にする 3.N を選択 4.統計量をクリックし, データをクリック 第7章 データの操作と比較 廣野元久 &高橋行雄 25/29 6.2グループ別のグラフ作成(2) 1.年齢グループ をクリック 5.OKをクリック 3.タイプを クリック 2.&4.X水準をクリック 第7章 データの操作と比較 廣野元久 &高橋行雄 26/29 6.2グループ別のグラフ作成(3) 1.棒グラフが描画される 3.円グラフが描画される 2.円をクリック 円の大きさは頻度による 第7章 データの操作と比較 廣野元久 &高橋行雄 27/29 課題(1) データ分析のホームページから衆議院選挙得票 2000をダウンロードせよ. 変量の合計の得票数に着目して,150万票で都道 府県を2分し,県分類という名前をつけなさい テーブルの要約を使い グループに県分類,統計量の合計を使い,自民党,民主党, 共産党,合計を指定し,要約表を作成せよ 要約表で,自民党,民主党,共産党を合計で割り,得 票率のデータにせよ 県分類を使い,自民党,民主党,共産党の得票率を 棒グラフにせよ 第7章 データの操作と比較 廣野元久 &高橋行雄 28/29 課題(2) 要約表のデータを使い,棒グラフよりも もっと分かりやすいグラフを作成せよ. グラフ作成にあたりJMPを使わなくても良い 第7章 データの操作と比較 廣野元久 &高橋行雄 29/29