データ分析について

Transcript データ分析について

スケジュール予定など
•
•
•
•
•
•
１日目午前
10:00-11:00頃統計学の全体像・歴史
11:00-12:00頃看護研究の２アプローチ
昼食
13:00-14:30頃看護研究と統計手法
14:30-16:00
回帰分析と相関
•
•
•
•
•
•
２日目午後
10:00-11:00頃アンクスタットと青木のサイト
11:00-12:00頃統計的検定法
昼食
13:00-14:30頃平均値差のｔ検定
14:30-16:00
クロス表の独立性検定
研修講師のメモ
• 田中潔（たなかきよし）
–
–
–
–
–
–
–
–
–
–
略歴：岡山大、九州大修了後岡山商大へ勤務。教授
岡山県看護協会の研修講師を25年以上歴任
最近は、広島、鳥取、香川県看護協会でも研修を行う
主な科目：情報ネットワーク論、社会調査実践他など
連絡先岡山商科大学〒700-8601（専用番号で届く）
[email protected] （ｅメール）
http://www.nahaha.org (Web)
検索エンジン「岡山商科大学田中潔」で検索
大学電話 086-252-0642
大学FAX 086-255-6947
もしも…研修後に
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話Ｆ
ＡＸは086-284-7726（自宅）でも可能。
• 相談の「三種の神器」：看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル（すでにあれば）
• 遠方の場合メールだけで指導する場合もある
（PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能）
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり」（新古今和歌集、
仁徳天皇）帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる。
• 大化の改新（645年）によって班田収授の法。
• 1920（大正９）年10月１日を期して、第１回
「国勢調査」。
統計＝ｓｔａｔ(istics)
•
近代統計学の父ケトレー(コペルニクスに影響）
• 英語で統計または統計学＝ statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
近代統計学の巨人たち
•
•
•
•
•
•
•
•
1900年ごろに開花
カール・ピアソン確率統計の帝国を確立
ロナルド・フィツシャー実験計画法の大成功
エゴン・ピアソンとイェジー・ネイマン仮説検定法の完成
コルモゴルフ確率論基礎の確立
第２次大戦後の発展
エドワーズ・デミング産業界の品質管理
ジョン・テューキー（高速フーリエ変換）、エフロン（ブートスト
ラップ法）
• 戦後の日本では、林知己夫（数量化）、赤池弘次、（AIC）、
竹内啓（理論）、佐和隆光（経済）などなど
わが国における小さなコップの戦い
計算機統計学の黎明
• 1975年頃 COMPSTAT（欧州計算機統計会議）に
てVisiCalc（後のExcel）発表
• 1980年頃九大浅野、広大正法寺、岡大脇本・垂
水、塩野義製薬後藤・武田製薬田中豊（大阪）、統
数研（東京）林、大隈、北大佐藤らによって日本でも
「計算機統計学」機運。科研費プロジェクトNISAN
（ニイサン）始動。
• 1985年頃SPSS日本版上陸。垂水・田中潔ｱﾙﾊﾞｲﾄ
• パソコン統計ハンドブック（脇本、垂水、田中豊・潔）
• これ以降、統計処理は「統計パッケージ」の時代へ
あなたはなぜデータ分析を迫られるのか？
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね！
– ＰＣができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外･論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ！
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらないと思う
• 調査では患者ひとり一人は援助できない
•
統計ギライがこの世にまたひとり
統計を使用するステップ
• データの正しい収集法
– 計画的な抽出や正しい質問の作り方
• データの集計方法（標本集団の分析）
– 基礎統計量とクロス表、グラフ化
• データの分析方法（母集団を意識）
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年）
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト（政府統計の窓口）
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング（市場調査）・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
大まかな統計分析の流れ４段階
•
•
•
•
•
母集団（未知であり不可視）
標本（可視）
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
ｔ検定やカイ２乗検定結果（有意かどうか）
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
医療分野で
統計的分析が好まれるわけ
• 統計分析の目的：「目標達成のために満足のできるもので
あれば良しとする接近法」
•
•
•
•
•
•
•
医療で解決すべき課題（目標仮説）
（ここに看護的意味づけが必要）
データで証明する（実現仮説または達成仮説）
つまり、調査や実験の成否判定
（有意になれば良いのではありません。
有意にならないことが大事なときもあります）
仮説設計、データ収集、集計、統計分析の各作業
看護界に「統計」は不要？？？
• 統計の持つ２つの役割
• １）国家統計や国勢調査的に
– 社会調査や公衆衛生、疫学調査の視点
– 調査では個人は救えない
• ２）この個人は１）とどう食い違うのか
– 個人＝人間共通な部分＋個性や個人差
• １）は厚生省を中心に進め
• ２）は施設を中心に進めるべきもの
看護研究に問われる量か質か
• 量的研究（学部卒レベル）
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究（院レベル）
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院瀬畠さん
看護研究における統計の立場
２つの視点
• １つめ：国家統計の視点
– 自分が「王」となり、対象集団の状況を広く知る、
報告する立場、疫学調査など
– 母集団よりも標本集団をまとめること
• ２つめ：推測統計的な視点
– 自分の得た標本から母集団を推し量りたい
– 自分は「標本」という実験結果を元に、真の集団
（母集団）にたどり着きたい。真の看護や看護方
式に近づきたい
標本統計量から母集団統計量へ
• 平均など「中心的傾向」代表値
– 理論により、標本の平均値は母集団の平均値を
最も良く推定している
– 標本平均値＝母集団平均値同一
• 標準偏差など「ちらばり」
– 標本標準偏差より母集団標準偏差はやや大きい
– 標本標準偏差＜母集団標準偏差
母集団と標本
• 母集団：未知、標本：既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団：未知
無作為
抽出
標本・サンプル
既知：データ分析の対象
未知または既知
標本は分析できる
悉皆（しっかい）調査（全数調査）
•
•
•
•
母集団の全員が標本として測定されたこと
母集団サイズ＝標本サイズ
標本での分析結果がすべて母集団結果
標本を捉えることの意義
– 標本の示す傾向＝母集団の中心的な傾向＋
個々の誤差
統計解析法の目的
• ○標本が集まった時の「統計」＝集計
• データの姿を知る統計
• 記述統計：平均、標準偏差、分散、グラフ化
• ○集計後の「統計」＝統計的分析
• 原因や要因、あるいは影響や判定など決定付ける
• 推定・推測：標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測：時系列データから将来を推測
– 方程式を作成する
• 検定・テスト：比較し判定する、○×効果
• 多変量分析群
– ３つ以上の項目からなるデータを分析する
統計の中の個人・ひとり
•
•
•
•
•
•
•
•
個人（表層へ出現）＝
中心的な傾向（未知）＋誤差（未知）
この中心的傾向または誤差を把握する。
私は60ｋｇ＝標準体重＋誤差
真理・本質＋個性・個人差
標準体重：仮に50ｋｇ（平均体重と呼ぶ）
誤差： 60-50＝10ｋｇ
実は、中心的傾向とは平均値のこと
原因や要因に挑戦する
多変量解析の役割
• ① いろいろな要因によってある項目を予測
したい
• ② 観測された複数の項目から総合的指標
を作りたい
• ③ ものや項目の関係を視覚化したい
• ④ ものや項目を分類したい
• ⑤ 項目間の関係や構造を知りたい
主な多変量解析手法
• 予測：
– 回帰分析、数量化１・２類、判別分析
• 指標：
– 回帰分析、数量化１～３類、主成分分析、因子分析
• 視覚化：
– グラフ解析、数量化３・４類、主成分分析
• 分類：
– クラスター分析
• 潜在構造：
– 因子分析、共分散構造分析
統計学は節約する学問
ではありません
• 統計で分析する時の心がまえ、ポリシー
– しばしば質問
• 何サンプルあれば分析できますか？
– 何例まで減らせますか？
• 統計は「全力」な学問です。
– 頑張ってデータを生かしたい。
– 手法のデパートは聞いてて分からない
• 基本的な手法を積み上げること
• 私たち看護がなぜ統計的な視野を必要とす
るか？少しヒントが得られましたか？
• では次に統計を扱うためのいくつかの基礎知
識いや基本マナーを
• （田中研に相談する場合、これらの知識を
持っていると大変話が楽）
データの値：４つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため演算は出来ない
– 1.男性 2.女性度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量演算は加減のみ
– ℃（摂氏）、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値加減乗除可能
– 実験データ全て
情報量大
平均が意味ある場合、ない場合
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好きどれか１つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
エクセル使いなら必需品A1
行側（ｷﾞｮｳｿｸ）と列側（ﾚﾂｿｸ）
•
•
•
→列側（項目、変数、変量）
行側↓
（ケース）
統計分野はエクセルに似たり
でも言葉が違うケースと項目
•
•
•
•
•
ケースとは１件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→１つの変数
１変数の集計や分析
– １列ごとに処理するデータ
• ２変数の集計
– ２列ごとに処理
• 多変数の処理
– ３列以上をまとめて処理
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか？
• 答え
• 測定値で影響されます。
– 身長160ｃｍは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字小数点以下0桁でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下１桁（２桁目を四捨五入して）で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも１桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
基礎統計について
（比率や間隔尺度の場合）
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やｸﾞﾗﾌ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ（１変数ごと）の統計分析です
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計を始めるとやたら正規分布が
でてくるのですが
• 自然界の多くの現象は、数多く収集する（度数グラフに集計
する）と正規分布に近くなることが知られています。
• ネイマン流大数の法則。
• 現象には正規分布しないものも多くありますが、合計点など
加えると、極限では正規分布に帰着します。
• 中心極限定理。
• 「標本数を可能な限り集めなさい」は２つの意味で、正当なの
です。
• 統計には２つの立場があります。
– １）数多く集めたり、加工して正規性に持ち込む派
– ２）正規性を仮定しない分析方法をあみだす派
• 2）がよさそうですが、実は性能は１）を超えられません。分布
系と分析力はトレードオフの関係に。
素データから統計量を求める
概念図
ちらばり（分散や標準偏差）
標本
集団
×
代表値（平均値や中央値）
ボール＆スティックモデル
エクセルでは簡単に
基礎統計量を計算できる
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる）
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
＝ＡＶＥＲＡＧＥ（範囲指定）
＝ＳＴＤＥＶ（範囲）
＝ＭＥＤＩＡＮ（範囲）
＝ＭＡＸ（範囲）
＝ＭＩＮ（範囲）
• 表の度数を求める関数
– 該当数（通常）＝COUNT(範囲）または
– 条件付該当数＝ＣＯＵＮＴＩＦ（範囲、条件）
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう（１つの項目ずつ）
– これを棒グラフ（ヒストグラム）に描きましょう
– これである１項目の姿が見えてきます
– （全ての測定尺度で可能）
• クロス表（分割表）にまとめましょう（２つの項目ごと）
– 特に２次元クロス表（分割表）は大事
– ２つの項目を同時に表にまとめます
– （特に、順序や名義尺度でも作れます）
統計分析の道のり（再掲）
図は「大まかな統計分析の流れ４段階」
（前掲を参照）
• 母集団を決める（想像する）、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する（実験や調査）
– 精密でなく正確な回答か？答えやすい用紙？、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ？
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた？
２つの項目の
基礎集計
投げ１のヒストグラム
素データから度数集計してみたら
投げ１と投げ２の２群を書き分ける
12
素データ→度数表→
8
２群別のグラフ
投１度数
投2度数
4
0
20
25
30
35
40
45
50
投げ２
投げ１
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
１項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか？
• 条件とは、女性・男性、学級Ａ、Ｂ、Ｃ別など
さらに、別の図「散布図」は
２項目の関係図
40
投げ２
30
20
10
10
20
30
投げ１
40
相関という考え方
•
•
•
•
•
•
•
•
２つの項目間の関係性を知りたい
２つの項目は「比例」するか「反比例」するか
比例には正比例と負比例（×反比例）
正の比例・・・片方が２倍→もう一方も２倍
負の比例・・・片方２倍→もう一方-２倍
相関は
正相関＝片方が増加→もう片方も増加
負相関＝片方が増加→もう片方は減少
（正）相関を目で見る
正負両方の相関程度が知りたい
• 相関係数R
-1～0～1で示す値
よく似た用語を間違えない
•
•
•
•
•
•
•
相関は散布図グラフを連想しましょう
相関係数はその点のシャープさを示す
相関係数が＋なら正相関、－なら負相関
相関係数は記号ではRかrで表記
R2やR^2は相関係数を２乗したもの
R2は重相関係数、決定係数とも呼ばれる
R＝√R2を計算し相関係数に直すとヨロシ
相関分析の手順
１．関係を知りたい２つの項目（列）を選ぶ
２．この２項目で散布図を描く
３．この図を元に直線回帰を行う
すると
グラフ内には中心直線＝回帰直線が引かれ
その方程式と相関係数の２乗R2＝重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
（単）回帰分析
•
•
•
•
散布図を描くとＸ軸とＹ軸の関係を目視
Ｙ＝ａＸ＋ｂという直線関係を考える
ＸとＹはデータとして測定される
傾きａとｂを決定すれば、ＸとＹの関係が決まる
係数ａとｂを求めれば
• ２つの項目ＸからＹを推測できる
• 予測：測定されていないＸについて、Ｙの予測値を
Ｙ←ａＸ＋ｂで予測可能
単回帰分析のポイント
•
•
•
•
•
•
直線の程度（相関度）はどのくらいか？
傾きａとｂを求める
直線の相関性を示す指標相関係数Ｒ
またＲの２乗のことを決定係数・重相関係数という
－１＜Ｒ＜＋１
経験的にＲ＞0.7で正相関あり、Ｒ＜－0.7で負相関
あり、-0.7＜Ｒ＜0.7で無・弱相関
• 決定係数なら 0＜Ｒ＜0.5で無・弱相関
• 相関係数の２乗＝決定係数・重相関係数＞0
求め方例：散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析の完成
• 回帰直線ｙ＝ｘ相関係数Ｒの2乗＝0.19
• （目安： R2＞0.5ならR>0.7なので相関性あり）
40
y=x
R = 0.1859
2
投げ２
30
20
10
10
30
20
投げ１
40
統計ソフトについて
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで
間に合うことも多い。いつまで続くかは不明
• 市販ソフトとしては
• PASW(旧ＳＰＳＳ）高い、施設向き、論文投稿には望ましい。
世界的権威ソフト新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむね使える
が細かな使い勝手はあまり良くない
• フリーソフト（無料）Ｒ良くできているが上級者でなければ
使いにくい！研究者向け
青木サイト使用の留意点
• 検索エンジン群馬青木 → おしゃべりな部屋
• 青木サイトの統計処理の多くには「Java技術」が使
われている
• Javaはサイトで計算処理を行うための仕組みであり
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートホンでも利用可能
もしもPCでこんなエラーが出たら
あなたのPCのJAVAという仕組みが古
いなどの原因で、警告が出たものです。
「いいえ」を選んでうまく動作すればいい
ですね。
統計計算シートａｎｋｓｔａｔ
（アンクスタット）時間があれば紹介
• 田中研究室で開発されたエクセル（バージョ
ンは問わず）専用のシート
• 主に基礎集計や集計を行う。統計解析は実
施しない。
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ａｎｋｓｔａｔ」で検索する。
• 最新は5.03版。
• 最大500ケース×200項目を集計可能
算術平均の示すもの
•
•
•
•
•
ここに５つのデータ
２、10、1、2、１がある
1
1
2
2
10
• 2＋10＋1＋2＋１＝16
• 算術平均＝16÷5＝3.2
• ３．２は5つのデータを表現
する代表値の一種
もう１つの代表値中央値
• ２、10、1、2、１
•
これを
• 小さい（大きい）順に並
び替える
• １、１、2、2、１０
• この真ん中番目を中央
値（メジアン）と呼ぶ
•
•
•
•
•
この場合中央値＝２
これも代表値の１つ
【性質】
中央値は
算術平均よりも極端な
値（極値）に左右されに
くい
• →頑健（ロバスト）な代
表値
• 算術平均3.2 中央値2
２グループの代表値を比べる
•
•
•
•
•
グループＡ 1,1,2,２,10
グループＢ 1,1,2,２,20
平均値
Ａ：3.2 Ｂ：5.2
この２つに有意な差
があるか？→ｔ検定
予告
•
•
•
•
•
次回は「統計的検定」をテーマに
比較する技法をマスターする
２グループや表が「明らかに」異なるのか？
エクセル→青木の統計サイトを駆使する
１人で出来るデータ分析極める

データ分析について

Transcript データ分析について

Directory