データ分析について

Download Report

Transcript データ分析について

スケジュール予定など(再掲)
•
•
•
•
•
•
1日目 午前
10:00-11:00頃 統計学の全体像・歴史
11:00-12:00頃 看護研究の2アプローチ
昼食
13:00-14:30頃 看護研究と統計手法
14:30-16:00
回帰分析と相関
•
•
•
•
•
•
2日目 午後
10:00-11:00頃 アンクスタットと青木のサイト
11:00-12:00頃 統計的検定法
昼食
13:00-14:30頃 平均値差のt検定
14:30-16:00
クロス表の独立性検定
データ分析の流れ(復習)
•
•
•
•
•
•
•
調査やデータの仮説設定(看護研究計画書)
対象者の選定(標本の決定)
母集団の想定
アンケート実査(アンケート用紙)
データ入力(ほぼエクセル利用)
場合によっては、データ加工やデータ変換
データ分析の対象となる「素データ」が完成
大まかな統計分析の流れ 4段階(再掲)
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
統計ソフトについて(再掲)
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで
間に合うことも多い。いつまで続くかは不明
• 市販ソフトとしては
• PASW(旧SPSS) 高い、施設向き、論文投稿には望まし
い。世界的権威ソフト 新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむね使える
が細かな使い勝手はあまり良くない
• フリーソフト(無料) R 良くできているが上級者でなければ
使いにくい!研究者向け
青木のサイトの先頭ページ
青木サイト使用の留意点(再掲)
• 検索エンジン 群馬 青木 → おしゃべりな部屋
• 青木サイトの統計処理の多くには「Java技術」が使
われている
• Javaはサイトで計算処理を行うための仕組みであり
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートホンでも利用可能
もしもPCでこんなエラーが出たら(再掲)
あなたのPCのJAVAという仕組みが古
いなどの原因で、警告が出たものです。
「いいえ」を選んでうまく動作すればいい
ですね。
統計計算シートankstat
(アンクスタット)時間があれば紹介
• 田中研究室で開発されたエクセル(バージョ
ンは問わず)専用のシート
• 主に基礎集計やクロス集計を行う。統計解析
は実施しない
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ankstat」で検索する 。最
新は5.6版
• 最大500ケース×200項目を集計可能
アンクスタットankstatや研修資料は
「岡山商大 田中」サイトから
さらに進むと…
シートankstatの入力シート
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
(%表示も可能)を算出
看護に代表的な検定
• t検定(二群の平均値差検定)
– ある測定データの平均値がある値かどうか
– 仮説: 測定データの平均値=46.7
– または、2群の平均は等しいとみなせるか
– 仮説: 群1の平均=群2の平均
• カイ2乗検定(2元クロス表の独立性検定)
– クロス表に傾向や関連性があるか
– 仮説: このクロス表の度数は同じか
2群の比較
その1 平均値差の検定(t検定)
• ここに患者群A、非患者Bの2群について同じ項目が測定さ
れた。薬効、運動効果、何かの処置効果などなど
• AとBのケース数が異なっている。良いか?
– かまわない
• AとBの測定日が異なっていて良いか?
– かまわない
• 少ない群は最低ケース数はいくつ?
– 理論上7ケース、実用上20ケース以上程度
• 名義尺度と比率尺度で手法は異なるか?
– 異なる(名義ではt検定は使用できない、理由は平均値が意味を持た
ない)
2つの平均値を比べる
2群の平均値差の検定(t検定)
• 群 平均 SD N
• A 3.2 3.8 5
• B 5.2 8.2 5
• 等分散性の検定
• 有意確率2.3%(有意)
• 2群のばらつきは等しくない
• 平均値差のt検定
• 等分散仮定する 6.4%
• 等分散仮定せず 6.4%
• いずれも平均値差は有意でない
• この2群で平均値3.2と
5.2は同程度と見る
か?否か?
• 2群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定
の下で、
– 2つの平均値が等しいこ
とを否定せず(つまり同
程度)
2群の平均値差検定の流れ
(俗にt検定と呼ばれる)
• 2つの標本平均値からみて母集団レベルで
「明らかな差」があるといえるか?
• 統計分析の3ステップ
• 手順1 2グループの基礎統計量を各々算出
する。
• 手順2 青木のサイトなどで必要な計算ペー
ジにかける(種類は2種類ある)
• 手順3 結果のp値から判定する
手順1 基礎統計量の計算
• エクセルの関数計算をする
– average(),stdev(),count()など使用
• またはankstattシートで各群ごとに求める
• 2つの群の統計表を完成しておく
•
人数
平均値
標準偏差
• A群
• B群
手順2 分析サイトに入力する
•
•
•
•
2種類のサイトのどちらか
タイブ1 2群の統計表を入力するサイト
(この場合、手順1は必要ない)
http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples
.html
• タイプ2 統計表を入力する
• http://aoki2.si.gunmau.ac.jp/Java/StatCalc/bin/StatCalc.html
タイプ1 素データ入力タイプ
タイプ2 統計表を入力するタイプ
手順3 いよいよ判定
•
•
•
•
•
•
•
•
検定結果P値を求める
ソフトによっては、有意確率という場合あり
P値が
P>0.05 P>5% 棄却(2群は同じ)
有意=2群は母集団レベルで顕著な差あり
0.01<P<0.05
5%有意 星1つ *
0.005<P<0.01 1%有意 星2つ **
0.001<P<0.005 0.5%有意 星3つ ***
• 大切なことは「棄却」か「有意」
• 星の数はさほど重要ではない
ちなみにボール投げの場合・・・
•
•
•
•
•
•
•
•
•
•
計算結果から3つのP値が出てきます
二群の等分散性の検定
F 値 = 0.18593 自由度 = ( 14, 14 )
P 値 = 0.00332 (両側確率)
通常の t 検定(等分散性が仮定できるとき)
t 値 = 0.00000 自由度 = 28
P 値 = 1.00000
等分散性が仮定できないとき(Welch の方法)
t 値 = 0.00000 自由度 = 19.03215
P 値 = 1.00000 (小数自由度に対応した正確
な値)
どのP値を使用すれば?
• どれを使えばいいですか?
• t検定では2群が「等分散(バラつきが同じ程度)」と
仮定します。1つめのPは等分散性を検定しています。
• P=0.003なので、正規性は棄却されました
• 2つめは等分散性を採択の場合のP値
• 3つめは等分散性を棄却の場合のP値
• この場合は2つめのP値が目的の判断で十分です
• (2つめと3つめは同じP=1.00>0.05なので棄却)
• 2つの平均値には差がない(採択)という判定を下しま
す。
二群の平均値差の検定 演習問題
•
•
•
•
いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。
問1 群 平均 SD N
問2
A 3.2 3.8 5
B 5.2 8.2 5
•
問3 ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名,女子
• 63 名の血色素量について
• の検査成績は,男子では平
• 均値 15.2 g/dl,不偏分散
• 1.1,女子では平均値 12.7
• g/dl,不偏分散 3.2 であった。
• 男女の平均値に差はあるか,
例題3の解決例:
青木サイトJavaの5番で解くと
左と右に各群の値を入力して、計算
開始ボタンを押すだけ
この例のように、t検定だけでなく、マン・ホイットニ検定もボタン
1つで行える
出力欄に検定結果が表示される
まとめると
• 問3 免疫グロブミン値(の平均)に差があるか?
–
–
–
–
等分散性の検定 P値=0.906 採択
「2つの群は同じ程度のバラつきと考える」
通常のt検定 P値=0.00(小さい) 棄却
Welchの方法 P値=0.00 棄却
• 結論
• 2つのバラつき方はほぼ同じと見てよい。
• 免疫グロブミン値は、健常群と透析群では、有意で
あった。(2郡の平均は顕著に異なる)
• 透析群の平均値が高い。
名義尺度でも使える検定
クロス表の独立性の検定
•
•
•
•
•
•
•
•
通称、カイ2乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
2次元以上をクロス集計表
ではこの表での仮説とは
「クロス表のマス目(セル)は同じ割合かどうか」
「クロス表に偏りがあるのかないのか」
(2×2)クロス表とはこんなもの
•
•
•
•
•
•
行と列で作表する
ただ集計したので分布に関係しない
クロス表は因果を示している(行と列どちらでも)
行側:原因→列側:結果
例: 対応なし 投薬有無と結果や運動有無×効果
対応あり 1回目と2回目の状況
2×2クロス表(分割表)
• クロス表の最小形式(基本)
• さまざまなクロス表
• P=1.00 P=0.38
•
0.02
1.00
•
0.02
1.00
R×Cクロス表のカイ2乗検定
•
•
•
•
•
基本は2×2(検討しやすい)
4つのセル値をサイトへ入力
計算結果P値で判断する
P>0.05 採択
0.01<P<0.05 5%有意他 1%有意 0.5%有意により
*、**、***
• http://aoki2.si.gunmau.ac.jp/Java/ChisqTest/bin/ChisqTest.html
• とか
• http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
JavaScriptの40番目
クロス表の独立性の検定
通称カイ2乗検定
• 正規性を仮定しない頑健な手法です
• 2×2クロス表の精密なカイ2乗検定
– http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
• R×C表 クロス表入力 通常版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• R×C表 クロス表入力 正確計算版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html
– (計算量が多いため通常版で十分)
• R×C表 素データで入力する版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
クロス表独立性の検定
演習問題 各表は独立か?
• 問10.83、20.76、30.31、40.60 50.01 60.00
•
棄却
棄却 棄却 棄却 ** ***
統計的検定法(群)
• 統計手法の中で「検定(Test)」は医療統計で
よく使われます。
• 薬効評価、効果判定のために用いられます
• 以前は、平均値を比較するパラメトリック手法
が用いられましたが、最近ではノンパラメト
リック検定が多く用いられています。
統計的検定はどんなもの
• ある仮説(○=△)を判定する
– 例: この実験結果=160.0
– 例: 群1の平均=群2の平均
• 判定結果は採択、または棄却の2分法
• 採択とは「この仮説を積極的に否定しない」
– (厳密には仮説を認めたくないがやむを得ない)
• 棄却とは「この仮説を積極的に否定する」
(統計的)仮説検定の流れ
• ある検定手法を選択する(パラでもノンパラでも)
• 帰無仮説H0:とは
– 否定する(だろう)ための仮説
– 帰無=無に帰する=否定を期待する
• 対立仮説H1:とは
– 帰無仮説以外の結果
– H0を否定するだけなので積極的な採択はしない
•
•
•
•
H0:とH1:を対にして用意する
分析データを統計ソフトにかける→有意水準を求める
有意水準の値に応じてH0かH1かを判定する
目的に応じて手法はたくさん存在する
仮説の立て方
• 1.自分の持っている仮説(作業仮説ともいう)を対
立仮説H1とする
• 2.H1の否定(逆)をH0とする
• 3.H0は○=△のように等号で作成するのがよい
• 4.H0:○=△とした時、3種類のH1が考えられる
•
H1その1: ○>△ 片側検定
•
H1その2: ○<△ 片側検定
•
H1その3: ○≠△ 両側検定
仮説の事例
• 新薬Bは薬Aより効果あることを証明したい
• H0は等号関係で作成すると良い
– H0: 新薬B=薬A(同じ、効果なし) で決まり!
•
•
•
•
•
H1には3つの作り方あり
① H1: 新薬B>薬A 優れる
片側
② H1: 新薬B<薬A 劣る
片側
③ H1: 新薬B≠薬A 同じでない 両側
「効果ある」なので通常③を採用
仮説H1に方向性があるならば両側検定
•
•
•
•
•
•
•
•
関係があるかないか
ない= ある≠
両側検定
正(負)や大小の関係があるかないか
ない= ある>
片側検定
優れている(劣っている)
同じ= <や>
片側検定
同じか否か
同じ= 同じでない≠ 両側検定
H0とH1の例
– H0: 日本人の平均160センチ 平均=160
– H1: 160センチではない(何センチかは不明)
• H0はハッキリと1点で指定するのが普通(点
指定)
• H1は指定された1点以外のすべて(だから
はっきりと値が判定できない)
•
○
残り全てがH0
H0
棄却と採択
• H0が明らかに成立しないならば棄却
– つまりH1を採用
• H0は帰無したいがどうしても棄却できない状
態のことを採択(=積極的には帰無・棄却し
ない)という
– つまりH0を採用する
検定に見る計算と判定
• 計算: 統計ソフトなどを使用する
• 判定: 出てくる結果の有意確率か有意水準の値に
より判定
• 有意水準>0.05 有意水準5%以上で採択
•
5%以下ならば棄却(有意、SIG.)←差あり
• 0.05~0.01 5%有意 *
星1つ
• 0.01~0.005 1%有意 ** 星2つ
• 0.005より小 0.5%有意 *** 星3つ
例: 2グループの平均値差検定
(通称t検定の場合)
•
•
•
•
仮説は以下のとおりに立てる
H0: 平均1=平均2(2つの平均は同じ)
H1: 平均1≠平均2(同じでない)→両側
注意
– H0: 平均1≠平均2(同じでない)
– H1: 平均1=平均2(2つの平均は同じ)
のように逆には立てません。帰無仮説H0は
等号関係で作ります!
補足2 代表的なノンパラメトリック検
定法
• 統計的検定では、普通「正規分布」に従うことが前提となって
います。
• しかし、近年「正規性を仮定しない」検定手法が、医学分野で
もてはやされてきました。
• これらの検定法を「ノンパラメトリック」手法と呼んで代表は以
下の通りです。
• 対応のない2標本(群)の代表値差
– マンーホイットニのU検定
– 2標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある2標本(群)の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
ノンパラ検定の続き
• 対応のないk標本(群)の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるk標本(群)の代表値差
• フリードマン検定
• ノンパラ検定は仮定が少なく「頑健」な検定方法です
が、性能はt検定に劣ります。切れ味は良いが折れ
やすいナイフか切れ味は少々鈍いがなかなか折れ
ないナイフ。あなたはどちらのナイフを使いますか?
医療統計向けソフト比較
http://www.kenkyuu.net/comp-soft-01.htmlより引用
パラメトリック検定
• 集めたデータが正規分布しそうな場合に適
• 検定力は強い
• 平均値と標準偏差に関する検定がおも
• 2群(実験群と対照群)の平均値差検定
• =通称:t検定が有名
ノンパラメトリック検定群
•
•
•
•
正規分布を仮定しない
検定力はパラメトリック検定にやや劣る
頑健な検定法
多いのは、平均値など代表値差の検定が多
い
• クロス表のカイ2乗検定もノンパラ検定法の1
つ
まとめましょう
• 正規分布を仮定できそうな時
– 平均値に関するt検定
• 正規分布を仮定できそうでない時
– ノンパラメトリックな検定法
• 仮説は次に固定すると理解し易い
– H0: A=B H1:A≠B(両側検定)
• 計算は統計ソフトやWebサイトで行う
• 有意かどうかの判定は有意水準Pで行う
2日間を通した学び
•
•
•
•
•
•
•
•
□ 統計はデータで決まる
□ 実はデータ集め、データ加工が勝負
□ 分析は理解できるものから一歩ずつ
□ 使えるソフトはサイトにあり
□ 聞いたことない分析手法にご用心
□ できる手法も意味を知ろう
□ 相関(回帰)と検定を中心にトライした
□ 統計解析は職人芸。使いなれたノミでこ
データ岩は砕け散る。見える化をめざせ
そ
統計手法用語の学び
• 母集団と標本集団
• 行と列、欠測値、ケースと
項目、全数調査
• 質的研究と量的研究
• 基礎統計量、グラフ
• エクセルの基本関数
• 散布図
• 回帰分析
• 相関係数と決定係数
• 2群の平均値差検定
• クロス表、分割表、度数表
•
•
•
•
•
•
•
•
統計処理は青木サイト
集計処理はアンクスタット
統計的仮説検定
H0とH1
採択と棄却
有意水準P(P値)
度数表とクロス表
ほんのさわり
–
–
–
–
多変量分析の役割や用途
正規性の仮定
ノンパラメトリック検定
統計学の戦略と流れ
研修でのおすすめ本
• 看護関係の書類、書籍ばかり読んでいませんか?
• たまにはこんな書籍で頭をリフレッシュ
•
•
•
•
「統計学が最強の学問である」、西内啓一、
ダイヤモンド社、2013。文系出身の著者が
ビッグデータ時代に統計重要さを啓蒙し
た本。13年のビジネスベストセラー
• 「統計学を拓いた異才たち」、竹内忠行、熊谷悦生訳、日本
経済新聞社、2010。統計学をキチンと知るためには良いが
入門書には絶対お奨めできない。無骨であり精緻な1冊。し
かしためになったなぁ。統計を学んでいる人には一度目を
通して欲しい本。
エンディング 研修の最後に
• サヨナラは別れの言葉じゃなくて
• 再び会うまでの遠い約束
• (引用:「セーラー服と機関銃」、薬師丸ら、1981)