データ分析について

Transcript データ分析について

スケジュール予定など
• 9:30-10:20頃
看護研究・データ分析再考
– データ分析の意味や意義をわかる
• 10:30-12:00頃
データ入力段階の留意
– 仮説からデータ準備の思わぬ盲点
•
昼
• 13:00-14:20頃
食
個人データ分析に挑戦
– データ分析はエクセル～Webで慣れる
• 14:30-16:00
統計サイトでノンパラ検定を
– 統計的検定法をサイトで習得
About 研修講師
• 田中潔（たなかきよし）
– 略歴：岡山大、九州大修了後岡山商大へ勤務。教授
– 岡山県を中心に看護研修を25年以上
– 主な科目：ネットワークシステム演習、社会調査実践他な
ど
– 連絡先岡山商科大学〒700-8601（専用番号で届く）
– [email protected] （ｅメール）
– http://www.nahaha.org (Web)
– 検索エンジン「岡山商大田中」で検索
– 大学電話 086-252-0642
– 大学FAX 086-255-6947
2
After 研修後アポイントメント
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話・Ｆ
ＡＸは086-284-7726（自宅）でも可能。
• 相談の「三種の神器」：看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル（すでにあれば）
• 遠方の場合メールだけで指導する場合もある
（PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能）
3
After インターネット上での情報源
• 検索エンジン「岡山商大田中」
• 看護研究やデータ分析を考える
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年）
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト（政府統計の窓口）
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング（市場調査）・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
看護研究
はこのあ
たりか
看護研究に問われる量か質か
• 量的研究（学部卒レベル）
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究（院レベル）
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院瀬畠さん
そもそも医療分野で
統計的分析が好まれるわけ
• 統計分析の考え方：「目標達成のために満足のできるもの
であれば良しとする接近法」（ネイマン・ピアソン流）
•
•
•
•
•
•
•
医療で解決すべき課題（目標仮説）
（ここに看護的意味づけが必要）
データで証明する（実現仮説または達成仮説）
つまり、調査や実験の成否判定
（有意になれば良いのではありません。
有意にならないことが大事なときもあります）
仮説設計、データ収集、集計、統計分析の各作業
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり」（新古今和歌集、
仁徳天皇）帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる。
• 大化の改新（645年）によって班田収授の法。
• 1920（大正９）年10月１日を期して、第１回
「国勢調査」。
統計＝ｓｔａｔ(istics)
•
近代統計学の父ケトレー(コペルニクスに影響）
• 英語で統計または統計学＝ statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
データ分析の流れ
• データの正しい収集法（集める）
– 計画的な抽出や正しい質問の作り方
• データの集計方法（サンプル・標本集団の分析）
– 基礎統計量とクロス表、グラフ化
• データの分析方法（背景の母集団を意識）
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
母集団と標本
• 母集団：未知、標本：既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団：未知
無作為
抽出
標本・サンプル
既知：データ分析の対象
未知または既知
標本は分析できる
大まかな統計分析の流れ４段階
•
•
•
•
•
母集団（未知であり不可視）
標本（可視）
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
ｔ検定やカイ２乗検定結果（有意かどうか）
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
データ分析の道のり
• 母集団を想定する（想像する）、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する（実験や調査）
– 精密でなく正確な回答か？答えやすい用紙？、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ？
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた？
情報処理と看護研究のハザマ
• 看護研究
– 看護の中で、課題を立証し客観的結論を得る
• エビデンス
– 明白なこと、証拠や根拠
• 心がけなければならない先人のコトワザ
• 情報面ＧＩＧＯ（ぎーご）
– Garbege Iｎ Garbege Out
– ゴミからはゴミしか生まれない
• 統計学
群盲評象（ぐんもうひょうぞう）
– 尻尾を握って象がわかったつもりになっていませんか？
ステップ１
• 研究や分析のための
• データ準備留意点
個人データ分析の道具
マイクロソフトＯｆｆｉｃｅはあるか？
• マイクロソフト社の代表ソフト群
– ワード、エクセル、パワーポイント、アクセス
• ＰＣを買うとＷｏｒｄとＥｘｃｅｌはついているのが普
通．．．でも本当は
– Ｗｏｒｄ文書や資料作成（看護研究計画書類）
– Ｅｘｃｅｌデータ分析・グラフ（データの視覚化・プレゼン）
• パワーポイント
– 必要に応じて購入するソフト（別売１～２万円）
– 施設PCには装備なしのこともあり
– プレゼン準備にハタと困る場合あり
自PCでソフト確認
• PC購入時には「ス
タート」、「すべてのプ
ログラム」を開いて
MSOfficeの確認を
する
WordやExcelからパワーポイント
• 精密な文書作成にはやはりWord
• 精密なデータ処理にはExcelを
• 書類はWordとして保存し，再利用する
• データや表類はExcelとして保存する
– 機械可読式データ（マシン・リーダブル・データ）
• 人に見せる時，これらをパワーポイントで要約して表示
する
平均が意味ある場合、ない場合
データの「測定尺度」
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好きどれか１つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
エクセル使いなら必需品A1
行側（ｷﾞｮｳｿｸ）と列側（ﾚﾂｿｸ）
•
•
•
→列側（項目、変数、変量）
行側↓
（ケース）
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか？
• 答え
• 測定値で影響されます。
– 身長160ｃｍは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字小数点以下0桁でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下１桁（２桁目を四捨五入して）で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも１桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
いくつのサンプルが要りますか？
• 理論的には概ね10サンプルでも可能
– でも、本当は多ければ多いほどが良い
• 現実的目標は、「１グループ20以上ずつ」
–
–
–
–
–
–
–
全部で20あればではない×
グループ数は原則２、３が適当
細かなグループ分けはデータ分析を複雑にする
男女別ならば男20、女20=40が望ましい
３世代なら若い20＋中年20＋老年20=60
グループごと数は違っていても結構
１グループ20に欠けていても結構
データ分析をタイプ別に
• データを揃え、入力する
– 道具はエクセル、知識は測定尺度
– 時にankstat（エクセルシート）を使うと便利
• １つの項目ごとデータ分析（単変数分析）
– グラフで「見える化」、資料作り
– エクセルの関数機能を活用
– 指導者に「○○を計算しておいて」向き
• ２項目の関係を分析
– 散布図から回帰分析、相関など、エクセルで可能
• 医療では、○×検定や多変量分析の場合もしばしば
– 統計サイト（インターネット）を使う
– 高度かつ高価な統計ソフトを考える。例えばSPSS
– 統計専門家の助言や手助けも有効
ステップ２
• データが用意できたら、まず
• １項目ごとにデータの姿をつかむ
• 記述統計（基礎統計、度数・クロス集計、グラ
フ表示）
• エクセルで十分可能、個人でも可能
基礎統計について
（比率や間隔尺度の場合）
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やｸﾞﾗﾌ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ（１変数ごと）の統計分析です
最初のデータ分析はデータの形を知る
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
エクセルで基礎統計量を
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる）
• 関数名ヘルプをうまく利用する
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
＝ＡＶＥＲＡＧＥ（範囲指定）
＝ＳＴＤＥＶ（範囲）
＝ＭＥＤＩＡＮ（範囲）
＝ＭＡＸ（範囲）
＝ＭＩＮ（範囲）
• 表の度数を求める関数
– 該当数（通常）
＝COUNT(範囲）または
– 条件付該当数
＝ＣＯＵＮＴＩＦ（範囲、条件）
– 度数処理にはankstatシートが結構使える
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう（１つの項目ずつ）
– これを棒グラフ（ヒストグラム）に描きましょう
– これである１項目の姿が見えてきます
– （全ての測定尺度で可能）
• クロス表（分割表）にまとめましょう（２つの項目ごと）
– 特に２次元クロス表（分割表）は大事
– ２つの項目を同時に表にまとめます
– （特に、順序や名義尺度でも作れます）
２つの項目の
基礎集計
投げ１のヒストグラム
素データから度数集計してみたら
投げ１と投げ２の２群を書き分ける
12
素データ→度数表→
8
２群別のグラフ
投１度数
投2度数
4
0
20
25
30
35
40
45
50
投げ２
投げ１
投げ１と投げ２を書き分ける
棒の間隔をコントロール
• あなたは気をつかっていますか？
折れ線グラフはプロフィール分析
プロフィール分析
10
9
8
患者平均
看護平均
7
6
身
な
り
か
朗
ら
応
速
対
迅
守
厳
感
安
心
葉
遣
い
5
言
• 6つの項目につ
いて、それぞれ
10点満点で採点
する。
• １点＝できていな
い 5点＝普通
10点＝出来てい
る
• 患者群、看護群
ごとに平均を算
出
グラフは統計分析の設計図
エクセルはグラフ化の良いツール
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
１項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか？
• 条件とは、女性・男性、学級Ａ、Ｂ、Ｃ別など
ステップ３（比率尺度の場合）
• １つずつ、項目ごとの把握が終ったら
– 基礎統計の算出
– 集計表＝度数表やクロス表にまとめる
– 項目ごとにグラフで表現
• エクセルで十分可能、個人でも可能
• 次は２項目ごとの視覚化と分析
– 回帰分析で関係をつかむ
「散布図」は２項目の関係図
（エクセルで分析可能）
40
投げ２
30
20
10
10
20
30
投げ１
40
散布図→単回帰分析
• 回帰直線ｙ＝ｘ相関係数ｒ＝0.43
40
y=x
R = 0.1859
2
投げ２
30
20
10
10
20
30
40
投げ１
• 投げ１と投げ２の直線関係は弱い（あまりない）
（単）回帰分析
•
•
•
•
散布図を描くとＸ軸とＹ軸の関係を目視
Ｙ＝ａＸ＋ｂという直線関係を考える
ＸとＹはデータとして測定される
傾きａとｂを決定すれば、ＸとＹの関係が決まる
散布図から回帰分析へ
• １ケースを点で見る→散布図グラフ化
• 点を選択→近似直線のあてはめ
• ①直線の方程式を求めること
– 点の傾向や関係を直線で置き換える回帰直線
• ②相関係数Rを求める
– 直線の度合い－１（負相関）～０（無相関）～＋１（正相
関）を知る
• ③重相関係数R2を求める
– 直線が示す情報量R2=R×R 例： R=0.7ならR2=0.5
– 正相関の目安R=0.7ならR2=0.5（50％）
– つまり相関ありは直線で半分以上の情報を示している
データ分析の道具立て
更なる分析にはエクセル以上
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• 市販ソフトとしては
• ＳＰＳＳ高い、施設向き、論文投稿には望ましい。
世界的権威ソフト新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむ
ね使えるが細かな使い勝手はあまり良くない
• フリーソフト（無料）Ｒ（アールと発音）良くできてい
るが上級者でなければ使いにくい！研究者向け
なぜ「Office(excel）」を？
• Windowsマシンが多く導入
• Windowsマシンには「Officeファミリ」のうちWordと
Excelが大体標準装備
– Wordは施設企画書類づくり、発表用配布資料づくりに
– Excelは素データ入力、グラフ化、基礎統計など個人向け
基本データ分析可能
– パワーポイントは発表原稿づくりに（別売）
• Officeファミリーは相互に「コピー＆ペースト」で対象
物の継承が可能
最近ではインターネットのサイトにも
良いものが色々
• 検索エンジン群馬青木 → 「おしゃべりな部屋」
• すがやみつる（漫画家）「こんにちは統計学」
• Javaはサイトで計算処理を行うための仕組みであり
□
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートフォンで利用可能
もしもPCでこんなエラーが出たら
あなたのPCのJAVA（Oracle社)という仕
組みが古いなどの原因で、警告が出た
ものです。「いいえ」を選んでうまく動作
すればいいですね。
ネット覗き体験その１
「群馬青木」サイトの先頭ページ
覗き体験２すがやみつる「こんにちは統計学」
覗き体験その3 検索「ankstat」
統計シートankstat（アンクスタット）
• 田中研究室提供のエクセル（バージョンは問
わず）専用のシート
• 主に基礎集計やクロス集計を行う。統計解析
はほぼ実施しない
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンで「ａｎｋｓｔａｔ」。最新は5.9版
• 最大500ケース×200項目を集計する
アンクスタットａｎｋｓｔａｔや研修資料は
「岡山商大田中」サイトからも探せる
さらに進むと…
シートａnkstatの入力シート
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
（％表示も可能）を算出
• では統計サイトを実際に試してみましょう
看護に代表的な検定を分析体験
• ｔ検定（比率尺度で使用）
– ある測定データの平均値がある値かどうか
– 仮説：測定データの平均値＝46.7
– ２群の平均は等しいとみなせるか
– 仮説：群１の平均＝群２の平均
• カイ２乗検定（名義・順序尺度で使用）
• クロス表に傾向や関連性があるか
– 仮説：このクロス表の度数は同じか
統計的検定はどんなもの
• ある仮説（○＝△）を判定する
– 例：この実験結果＝160.0
– 例：群１の平均＝群２の平均
• 判定結果は採択、または棄却の２分法
• 採択とは「この仮説を積極的に否定しない」
– （厳密には仮説を認めたくないがやむを得ない）
• 棄却とは「この仮説を積極的に否定する」
検定では「P値」を探せ
検定に見る計算と判定
• 判定：出てくる結果の有意確率か有意水準の値に
より判定
• 有意水準「P値」＞0.05 有意水準5％以上で採択
•
5％以下ならば棄却（有意、SIG.)←差あり
• 0.05～0.01 5％有意＊
星１つ
• 0.01～0.005 1％有意＊＊星２つ
• 0.005より小 0.5％有意＊＊＊星３つ
• Ｐ値有意水準0.05基準⇔今回の有意水準を逆算
• つまり、Ｐ値が0.05を下回れば「有意」
２つの平均値を比べる
２群の平均値差の検定（ｔ検定）
• 群平均ＳＤＮ
• Ａ 3.2 3.8 5
• Ｂ 5.2 8.2 5
• 等分散性の検定
• 有意確率2.3％（有意）
• ２群のばらつきは等しくない
• 平均値差のｔ検定
• 等分散仮定する 6.4％
• 等分散仮定せず 6.4％
• いずれも平均値差は有意でない
• この2群で平均値3.2と
5.2は同程度と見る
か？否か？
• ２群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定
の下で、「採択」
– ２つの平均値が等しいこ
とを否定せず（つまり同
程度）
二群の平均値差の検定だけでも
入力形式や条件で色々
• 標準的なサイト２群の個々の値を入力するタイプ。
ｔ検定とノンパラ（マンホットニ）検定が選択できる。マ
ンホイットニ検定とウイルコクソン順位和とは同じも
の
• ２群には対応がない場合
• http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples.html
• 青木おしゃべりな部屋、Ｊａｖａ、独立２標本の検定の
順に探す
PC画面の例
応用平均などで独立２標本検定
• http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest.html
• 素データがなく、平均、標準偏差、ケース数
のみがある場合のサイト
• 対応なしの場合、ｔ検定
• おしゃべりな部屋、Javascript、26番２群の平
均値差の検定を参照
PC画面の例
応用「対応のある」２群の検定
• 対応のある場合：１人について前後を測定したな
ど。薬効や効果があったかはっきり検定する。
• http://aoki2.si.gunmau.ac.jp/Java/RelatedTwoSamples/bin/RelatedTw
oSamples.html
• 場所はおしゃべりな部屋、Java,対応のある２標本
の検定を探す
• 伝統的なｔ検定の他、ウィルコクソン符号付順位和
検定、符号検定にも対応する
対応のあるデータ、ないデータ
• 対応ありと考えられる場合
• 同じ人やグループを追跡して測定
•
•
•
１回２回３回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
• 対応ないと考えられる場合
• 毎回グループの構成者を取り替えて測定
•
岡山東京大阪福岡・・・
• 人口
• 生産額
• 学生数
二群の平均値差の検定演習問題
•
•
•
•
いずれもｔ検定（対応なし）として平均値差を検定せよ。青木サイトを使用する。
問１群平均ＳＤＮ
問２
Ａ 3.2 3.8 5
Ｂ 5.2 8.2 5
•
問３ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名，女子
• 63 名の血色素量について
• の検査成績は，男子では平
• 均値 15.2 g/dl，不偏分散
• 1.1，女子では平均値 12.7
• g/dl，不偏分散 3.2 であった。
• 男女の平均値に差はあるか，
応用名義尺度でも使える検定
クロス表の独立性の検定
•
•
•
•
•
•
通称、カイ２乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
２次元以上をクロス集計表
ではこの表での仮説とは
– 「クロス表のマス目（セル）は同じ割合かどうか」
– 「クロス表に偏りがあるのかないのか」
（２×２）クロス表とはこんなもの
• 行と列で作表する
• 上の図では、左上50、右下55この程度の違いで、この表に
は差があるか、否か（有意性ありかなし？）
• a、ｂ、ｃ、ｄに顕著な違いがあるか？
• 行側：原因→列側：結果
• 例：対応なし投薬有無と結果や運動有無×効果
•
対応あり１回目と２回目の状況
青木サイトで解く
Ｒ×Ｃクロス表のカイ２乗検定
•
•
•
•
•
基本は２×２（検討しやすい）
４つのセル値をサイトへ入力
計算結果「Ｐ値」で判断する
Ｐ＞0.05 採択
0.01＜Ｐ＜0.05 5％有意他１％有意
0.5％有意により＊、＊＊、＊＊＊
• http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
再掲：判定方法 P値と検定結果
• 前ページ解答： P値＝0.31→採択（差なし）
• クロス表から有意水準またはP値を算出
• 判定方法その１有意水準の値が
– 有意水準値＝P値が
– 0.05～0.01 5％有意＊星１つ
– 0.01～0.005 1％有意＊＊星２つ
– 0.005より小 0.5％有意＊＊＊
星３つ
クロス表独立性の検定
解答はP値を示す（有意でない＝採択）
• 問１0.83、２0.76、３0.31、４0.60 ５0.01 ６0.00
• 採択
採択採択採択＊＊＊＊＊
• トピックス検定手法の進化・深化
– かつて皆さんが習ったｔ検定やカイ２乗検定も、医
療界ではさまざまな手法に変わりつつあります。
サイトはこの流れに対応しつつあります
• 青木サイトを例に、今後使用する場面が出て
くる「検定」にまつわる分析方法をご紹介
主な統計的検定法の体系図
代表的なノンパラメトリック検定法
• 対応のない２標本（群）の代表値差
– マンーホイットニのＵ検定
– ２標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある２標本（群）の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
早わかりなぜノンパラ検定に？
• あなたはある日Dr.から「論文のためこのデー
タをウイルコクソン検定しておいて」と告げら
れます
• ウイルコクソン検定が何であるか、どうすれ
ば良いかのため、検索エンジンで「ウイルコク
ソン検定」とするでしょう
• すると、分析のためには「青木サイト」に出会
うかも知れません
今の「流行」検定手法は
パラメトリックからノンパラへ
• 従来のｔ検定は、
– 正規分布を仮定するなど制約が多かった
– でも性能はよろしい（検定力大=シャープな剣）
• ノンパラ検定群（ウイルコクソンやフリードマン検定
など）は、
– 適用の条件や制約少ない
– サンプル数も気にしないでも検定力もそこそこある＝頑健
な＝ロバストな検定手法
– 適応範囲が従来よりかなり広い
– 次第に愛好者が医療関係者にも増えてきた
• 市販統計ソフトにも多く採用、使用可能、サイトでも
対応のあるデータ、ないデータ
• 対応ありと考えられる場合
• 同じ人やグループを追跡して測定
•
•
•
１回２回３回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
• 対応ないと考えられる場合
• 毎回グループの構成者を取り替えて測定
•
岡山東京大阪福岡・・・
• 人口
• 生産額
• 学生数
• 対応のないｋ標本（群）の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるｋ標本（群）の代表値差
– フリードマン検定
マンーホイットニのU検定
（Willcoxson順位和検定に同じもの）
2群、対応なし
• 9個の部品について４個は
処置群、残り処置なし群とし
た。この２つの群の母代表
値に差があるかどうか検定
しなさい。
– 処置群の観察値
1.2，1.5，1.8，2.6
– 処置なし群の観察値
1.3，1.9，2.9，3.1，3.9
• 有意確率＝0.142または0.190
• 有意確率＞0.05なので有意差なし・採
択
• つまり両群に差は認められない
• http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples.html
ウイルコクソン符号検定
（Wilcoxonの順位和＝ﾏﾝﾎｲｯﾄﾆ検定と区別）
２群、対応あり
• 10 人の被検者について，五段階評価をした。
同じ被検者に対して，1 年後にもう一度評価
した。その結果を表に示す。1 年間で母代表
値に差があったかどうか検定しなさい
•
１２３４５６７８９ 10
• 最初 A A C B D A C B D B
• １年後 C A E D B B D A E D
検定統計量b
Wilcoxson符号検定の
結果
正確有意確率 (両側)
a. 使用された2項分布
b. 符号検定
VAR00004 VAR00003
.180a
• 正確有意確率＝0.180＞0.05 → 採択
• 最初と１年後では有意差ない
• もしも計量値としてＷｉｌｃｏｘｓｏｎの符号付順位和検定（２群対
応なし）を行ったならば、
• 漸近有意確率＝0.114＞0.05 採択
• やはり
• 最初と１年後では差はない
• http://aoki2.si.gunmau.ac.jp/Java/RelatedTwoSamples/bin/RelatedTwoSampl
es.html
クラスカルーウォリス検定
３群以上、対応なし
• 12 匹のラットに 3 種類の餌を与えたときの肝臓
の重量は表 1 のようであった。餌の種類により
肝臓の重量の平均値に差があるといえるか
表 1．餌の種類による肝臓の重量
•
A餌
3.42
3.84
3.96
3.76
B餌
3.17
3.63
3.47
3.44
C餌
3.64
3.72
3.91
SPSS入力
3.39
• Ｈ０：平均１＝平均２＝平均３
• Ｈ１：３群の平均は同じでない
• 漸近有意水準0.062＞0.05 採択
• 結論：３群の平均は同じ程度とみなす（帰無できない）
• ただ、有意水準6.2％と5％に近いことにも留意する
• 参考
• http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
フリードマン検定
３群以上、対応あり
• 表 1 のようなデータがある。4 種の肥料間で
収量に差があるか
• 参考：行列を入れ替えれば３品種間に差が
あるかを検定できる
表 1．フリードマン検定が対象とするデータ
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
エクセル版
http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html
– Ｈ０：４群の平均は等しい
– Ｈ１：４群の平均は等しくない
• 漸近有意確率0.001＜0.005 ＊＊＊
• 0.5％有意肥料４種の平均は等しくない
• 行列を入れ替えると
– Ｈ０：３品種の平均は等しい
– Ｈ１：等しくない
• 漸近有意確率0.004＜0.005
• ***0.5％有意→３品種の平均は異なる
• 総合的には、肥料、品種いずれも差あり
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
表の形式は似
ていても…
• 表はクロス表に似ている。しかしクロス表は
対応なし、フリードマンは対応ありが大きく異
なる。
• クロス表では行か列はそれぞれ要因。フリー
ドマンでは行か列は標本（ケース）である。
ﾃﾞｰﾀ分析専門家の活用のために
• 専門家が知っていること
– データ分析の各段階、楽しさや辛さそして悲しさ
– 看護研究におけるデータの生かし方
– 星の数ほどある統計手法であなたの質問に適す
る手法について
• 知らないこと
– あなたの分野の専門的知識
• あなたが知らなくても良いこと
– データ分析の環境整備、ツールそしてコスト
あなたが学んだ研修のまとめ
•
•
•
•
•
•
•
•
□看護研究とデータ分析の関係を理解する
□データ分析の前提：適切な収集が大切
□データ入力での決まりごと
□ １項目データ分析：基礎統計量とグラフ
□プラットホームはＯｆｆｉｃｅ（Ｅｘｃｅｌ）、エクセル関数
□ ２項目の関係：相関、回帰式、散布図
□グループ（群）間比較：統計的検定
□詳細な分析は統計ソフトやサイト利用可能
– おしゃべりな部屋、こんにちは統計学、アンクスタット
• □検定（統計）手法の変化を知る
– ノンパラメトリック検定法

データ分析について

Transcript データ分析について

Directory