2015年版 - 岡山商科大学

Transcript 2015年版 - 岡山商科大学

楽しく学べるデータ分析中級応用編
• データ分析の経験があり、応用をお考えの方を対象
• 統計的検定を中心に分析とプレゼンの実際
•
•
•
•
•
到達目標
09：30～10：20
10：30～12：00
13：00～14：30
14：40～16：00
看護研究の確認とポイント
プレゼンテーション留意点
統計的検定の考え方
ネットを活用した分析
1
参考）楽しく学べるデータ分析初級基礎編
•
•
•
•
•
•
•
看護研究で統計的データ分析をお考えの方を対象
主に基礎をしっかりと固める目的。学習型研修。
到達目標
09：30～10：20 看護研究における統計分析
10：30～12：00 プレゼンテーションの流れ
13：00～14：30 データを収集し、集計
14：40～16：00 グラフから相関・回帰分析
2
About 研修講師
• 田中潔（たなかきよし）
– 略歴：岡山大、九州大修了後岡山商大へ勤務。教授
– 岡山県を中心に看護研修を30年以上
– 主な科目：ネットワークシステム演習、社会調査実践他
連絡先岡山商科大学〒700-8601（専用番号で届く）
– [email protected] （ｅメール）
– http://www.nahaha.org (Web)
– 検索エンジン「岡山商大田中」で検索
– 大学電話 086-252-0642
– 大学FAX 086-255-6947
3
After 研修後アポイントメント
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話・Ｆ
ＡＸは086-284-7726（自宅）でも可能。
• 相談の「三種の神器」：看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル（すでにあれば）
• 遠方の場合メールだけで指導する場合もある
（PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能）
4
After インターネット上での情報源
• 検索エンジン「岡山商大田中」
5
• データ分析・看護研究のポイント
• 基礎の復習と確認
6
望ましい研究スタイルとは
看護研究・調査研究を考える
• 量的研究
– 統計的な処理，何かの物差し（尺度)で計る
– 行動や現象を計量する学問
– 文章やインタビューからでも数値化すれば量的
研究なのだ
• 質的研究
– 解析者の知見による見解
– 少なくても自然科学ではない
7
データ分析２つの目的
• 帰納的な研究
– 法則やルール、公式など結論を生み出す
– いくつかの事例を集め、結論を１つに
• 演繹的な研究
– 知られたことを適用・応用範囲拡大
– 知られたことをもとに、新たな知見を
• いずれも客観的に立証が不可欠
• その方法の１つに「データ分析」が
8
量的研究・データ分析を行う上で
• 科学の本質
– ある現象を解明する際、反例を見つけ、否定する
この繰り返しで、可能性や真実に接近する。
– 「○○を肯定できる」のではなく、色々可能性を否
定し続けたが、もう否定できない。だから「肯定せ
ざるを得ない」という論法
• つまり、否定は１つの反例で即決（強）＞肯定
は難しい（弱）
99
データ分析・調査の２立場
• 対象者全員の結果が得られた場合
– 悉皆（しっかい）調査
– その結果が唯一正しい、記述の統計で良い
• 対象者の一部しか調査できない場合
– 欠席者いた。未回答があったなど含む
– 標本調査でも標本統計は存在する。
• 問題は、標本から本来の集団を推し量る
10
10
計測や調査からデータを得ること
母集団と標本
• 研究目標の対象：母集団（未知）
• 計測や調査から得た対象
•
標本：既知
母集団：未知
無作為
抽出
標本・サンプル
既知：データ分析の対象
未知または既知
標本は分析できる
11
11
大まかな統計データ分析の流れ４段階
•
•
•
•
•
母集団（未知であり不可視）
標本（可視）
データの収集
アンケート調査
無作為抽出
•
•
•
一次（必須）
集計
データ集計
標本の分析
高次（研究）
推定・検定
統計解析
母集団への分析
平均値やクロス表
基礎統計量や集計表
ｔ検定やカイ２乗検定結果（有意かどうか）
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
12
12
統計解析法の主な目的
• 記述統計：平均、標準偏差、分散、グラフ
• 推定・推測：標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測：時系列データから将来を推測
– 方程式を作成する
• 記述統計：標本を示す値やグラフで視覚化
• 検定・テスト：比較し判定する、○×効果
• 多変量分析群
– ３つ以上の項目からなるデータを分析する
13
13
プレゼンテーションの実際
本番当日にあわてないために
14
プレゼンテーションとは
• プレゼンテーション、示説→みんなの前で発
表すること
• 良いプレゼンとは
– 見栄えのする（見易い）表示や資料を行う
– そのためにはパワーポイントｐｐｔが主流？
– 発表時間を厳守する
– 質疑応答にさわやかに（カッコ良く）回答する
•
•
企画から発表までを見通す
判明したことが分かっている
15
パワーポイン
ト全盛時代
への警鐘
トヨタがﾊﾟﾜｰﾎﾟｲﾝﾄ（ppt）禁
止令
ダイヤモンド社オンライン
（2009/5/20）より
16
プレゼンの手順
• 材料を集める，揃える
– 文字，表，図（写真），グラフ，デザイン図．．
– デジカメ，VTR機器の扱い方
– PCへの音声・画像ファイルを移動
• プレゼン作品をPCで作成する
–
–
–
–
作品の構成や起承転結
パワーポイント（パワポ）の使用・操作方法
Word，Excelからパワポへ連携
パワポでの作図，アニメ効果
• プレゼン作品の実行
– 発表当日あせらないために
17
素材の集め方
• デジタル機器（デジカメなど）で撮影
• スキャナで画像読み取り
– これらはマルチメディアの取り扱い
• ソフトOfficeで素材を作る
– Wordで文字原稿
– Excelで表やグラフ
– ペイントでイラスト
– パワーポイントで編集，デザイン効果
18
• プレゼンの実際
• ソフトパワーポイントの導入
19
研究作業とOfficeソフト
仮説や課題設定
研究計画書
調査用紙
集計・分析
発表資料
人間の頭で考える
ワード
ワードかエクセル
エクセル
パワーポイント
Officeファミリの利点
操作がほぼ同じ（大区分、中区分、小区分）
異なるソフト間でのやり取り（コピペ）
20
５W１Hを思い出す
• ５つの「W」
– 1.WHEN いつ
– 2.WHERE どこで
– 3.WHO
誰が
– 4.WHAT 何を ...... そしてもう１つ，
– 5.WHY （なぜか）
• １つの「H」
– 1.HOW
どのように
21
21
相手に伝わるコツ
• 上手な文章は「短い」
– 読点や句点をやや多めに使う
– ところでどちらが。かご存知？
• 掲示資料は「である調」
– ～である．
– ～なのです．（ですます調）は使わない
• さらに，箇条書きや体言止めも効果的
• パワポのフォントはワードより大きい
22
22
さらに・・・
• 経験格言
– 内容のない発表はきれい（に作ろう）
– 内容のある発表は汚ない（なくても許す）
•
•
•
•
•
•
•
細かな資料は突っ込まれる
ポイントを押さえた資料や効果（色やアニメーション）
シンプルイズベスト
制限時間は厳守
１分で４００から500文字落ち着いてゆっくり気味
色使い：中間色は当日プロジェクタの性能に依存
原稿：原稿は読まず、表示映像を聴衆者と同列
23
23
戦略＝目的＋手段
• 目的と手段は階層的につながっている
• （戦略の階層性）
– 目的が具体的・明快だと手段が立てやすい
– そして、戦略とは「選択と集中」
• 複数の選択肢を出来るだけたくさん作る
• 選択肢の長所と短所を吟味する
• その中から選び、まっしぐら（集中）
– 断定はポイント絞り、１点で
24
24
戦略的であることチェックリスト
• □ 現状分析ができている
• □ 分析から（中・長期の）目標がはっきりし
ている
• □ 目的達成のため手段は適切か？
• □ 目的達成のため資源は集中されている
か？
• □ その目的や手段を説明できるか？
25
25
論理的とは
• 文章やスピーチの場合：段落と段落、話と
話の関係がわかりやすいこと
• 企画書の場合：話の筋道が分かりやすい、
ページとページのつながりが分かりやすい
• 論理的とは結論・主張が明快で、その理由と
話の筋道が分かりやすいこと
26
26
話の筋道→接続詞を上手に
• 上位目標確認
•
さて現状分析
•
であるから戦略目標（仮説）の提示
•
そのため実施案の提示
•
つまり
まとめ、展開なのです
27
27
日常の接続詞一覧
•
•
•
•
•
•
•
•
順接
逆接
添加
説明
転換
例示
補足
理由
であるから、なので、そのため
しかし、だが
そして、さらに
要するに、つまり
さて、ところで
例えば
並列かつ、または
ちなみに
なぜなら
28
28
論理に困ったら逆に考える、
並列もチェックする
• 三段論法
– ＡならばＢ、ＢならばＣよってＡならばＣ
• Ｃの理由はＢ、Ｂの理由はＡそこでＣの理由
はＡなのか・・・「逆向き推論」
• 逆向き推論チェックの徹底こそが納得しやす
い論理形成
• かつ（ＡＮＤ）、または（ＯＲ）、～でない（ＮＯＴ）
の組み合わせが多い（論理の並列）
29
29
帰納と演繹
• 帰納とは事実から結論を得る
– 統計は帰納的考えに近い
– ラーメン店Ａはうまく、行列があった
– ラーメン店Ｂはうまく、行列があった
– だからうまいラーメン店には行列がある
• 演繹は推論すること（症例研究）
– この疾病には斑点が出る。この患者には斑点が
ある。そこでこの患者はこの疾病か？
30
30
• データ分析の環境と実際
31
データの値：４つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため演算は出来ない
– 1.男性 2.女性度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量演算は加減のみ
– ℃（摂氏）、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値加減乗除可能
– 実験データ全て
情報量大
32
32
欠測値について
• 計測されなかった、計測できなかった値
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
33
33
分析対象素データと表データ
調査から得られる
論文や集計から
この集計表を「表データ」と
呼んで、素データと区別す
ることもある
34
34
• 素データが用意できたら、まず
• １項目ごとにデータの姿をつかむ
• 表データはそのままグラフ化
• 記述統計（基礎統計、度数・クロス集計、グラ
フ表示）
35
35
1項目ずつデータを視覚化する
• 名義、順序尺度
– 度数やクロス表に集計する
– その表を棒グラフなどでながめる
• 間隔、比率尺度
– ヒストグラムで眺める
– 基礎的な統計量を算出する
• 名義尺度は整数値で得られ
• 比率尺度は整数か小数値で得られる
36
36
１項目のグラフと
基礎統計量の関係図
• 記述統計量とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
何かの現象を棒グラフ・度数表で描いたもの＝分布
37
37
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
１項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか？（群別、層別分析ともいう）
• 条件とは、女性・男性、学級Ａ、Ｂ、Ｃ別など
38
38
発表・論文向け科学的なグラフの要点
• Excelのグラフは、どちらかというと、プレゼン
を意識した「ビジネス系」
• グラフは、誰もが見て分かるもの。見た目は
二の次、シンプルで情報豊富
• 縦軸下限は、必ず0（原点）から。途中からの
省略（インチキ）グラフは最大の誤用
• 図はFig．、表はTable．例 Fig.5 Table.12
• 軸にはタイトルを必ず入れる
• 図はタイトルを最下、表はタイトルが最上
39
39
グラフの要点・誤用
左上① 縦軸と横軸は必ず明示する
左下② 棒グラフ棒の並びに意味はない
右上③ 折れ線グラフ横軸注意
横軸が時刻変化（左⇒右）とつい見てしまう
40
原点はゼロ
年々増加？
角度を変える
立体円グラフは誇張を意図？
41
• インターネット環境をデータ分析に活用
– １）手法や原理を学ぶ
– ２）素データを表データに集計する
– ３）統計的分析法をサイトで
42
• 素データを表に集計
• 度数を数えること
– エクセルシート「アンクスタット」サイトより
– 素データをコピー＆ペースト
– 名義や順序尺度向き
– 比率尺度はやや苦手
43
エクセル統計計算シートａｎｋｓｔａｔ
（アンクスタット）
• 田中研究室で開発されたエクセル（バージョ
ンは問わず）専用のシート
• 主に基礎集計や集計を行う。詳細な統計解
析機能はない。
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ａｎｋｓｔａｔ」か「アンクスタッ
ト」で検索する。最新は5.9版。
• 最大5000ケース×200項目を集計可能
44
44
シートａnkstatの入力シート
45
45
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
（％表示も可能）を算出
46
46
データ入力画面例
（エクセルに同じ）
47
47
基礎統計量もまとめてらくらく
48
48
度数も集計する
49
49
アンクスタットａｎｋｓｔａｔや研修資料は
「岡山商大田中」サイトから入手
50
50
さらに進むと…
51
51
• さまざまな統計的データ分析はネットで可能
– 今や統計手法は多くのサイトで可能
– PCの他、Padやスマホで計算可能
– ネットを介して、統計電卓的に
52
最近ではインターネットのサイトにも
良いものが色々
• 検索エンジン群馬青木 → 「おしゃべりな部屋」
• すがやみつる（漫画家）「こんにちは統計学」
• Javaはサイトで計算処理を行うための仕組みであり
□
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートフォンで利用可能
53
ネット覗き体験その１
「旧おしゃべりな部屋」サイトの先頭ページ
注意：旧おしゃべりな部屋（群馬大青木）は、現在も使用できるが、
検索エンジンで見つかりにくい。タイトル「おしゃべりな部屋」を取っ
て検索利用数を減らす配慮をしている。
⇒ 岡山商大田中から進むのが簡便
54
覗き体験２すがやみつる「こんにちは統計学」
検定に特化している。特に、医療分野で近年使用されつつある
「ノンパラメトリック（ノンパラ）検定」の手法がバランス良く集めら
れている
55
看護に代表的な検定を分析体験
• ｔ検定（２つの群を比べる手法）
– ある測定データの平均値がある値かどうか
• 仮説：測定データの平均値＝46.7
– ２群の平均は等しいとみなせるか
• 仮説：群１の平均＝群２の平均
•
群１平均－群２平均＝0
• 医学分野の分析手法にもブームあり
• 近年ではマンホイットニのU検定を使うことも
56
56
そも、ｔ検定はなぜ必要か？
• 悉皆（しっかい）調査ならば必要なし
– 結果平均（記述統計）で真実を示す（調査報告）
• 標本調査では、こうはいかない（研究発表）
– 今出した記述統計の差が、母集団で明らかな（有
意な）差だろうか？
– 対象を変えて、何回も調査をし直しても、この有
意差は維持されているのだろうか？
– 有意な差が見つかれば、なぜこの差は生じたか
？法則につながるのでは？←これが本音
• これが、統計的検定の考えていること
57
57
統計的検定はどんなもの
• ある仮説（○＝△）を判定する
– 例：この実験結果＝160.0
– 例：群１の平均＝群２の平均
• 判定結果は採択、または棄却の２分法
• 採択とは「この仮説を積極的に否定しない」
– （厳密には仮説を認めたくないがやむを得ない）
• 棄却とは「この仮説を積極的に否定する」
58
58
大まかな統計データ分析の流れ４段階
•
•
•
•
•
母集団（未知であり不可視）
標本（可視）
データの収集
アンケート調査
無作為抽出
•
•
•
一次（必須）
集計
データ集計
標本の分析
高次（研究）
推定・検定
統計解析
母集団への分析
平均値やクロス表
基礎統計量や集計表
ｔ検定やカイ２乗検定結果（有意かどうか）
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
59
59
２つの平均値を比べる
２群の平均値差の検定（ｔ検定）
• 群平均標準偏差Ｎ
• Ａ 3.2
3.8 5
• Ｂ 5.2
8.2 5
• 標本統計だけなら平均
5.2-3.2=2.0の違いあり
• 等分散性の検定
– 有意確率2.3％（有意）
– ２群のばらつきは等しくない
• 平均値差のｔ検定
– 等分散仮定する 6.4％
– 等分散仮定せず 6.4％
• いずれも平均値差は有意でない
• この2群で平均値3.2と5.2
は同程度と見るか？否
か？
• この2.0は母集団上（何回
標本抽出を）しても意味の
ある（明らかな）差として良
いか？
• ２群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定の
下で、「採択」
– ２つの平均値が等しいことを
否定せず（つまり同程度） 60
60
「検定」の計算と判定
有意水準＝「ｐ値」を求め判定する
• 計算：統計ソフトなどを使用する
• 判定：出てくる結果の有意確率か有意水準（ｐ値）
の値により判定
• 有意水準「ｐ」＞0.05 有意水準5％以上で採択
•
5％以下ならば棄却（有意、SIG.)←差あり
• 0.05～0.01 5％有意＊
星１つ
• 0.01～0.005 1％有意＊＊星２つ
• 0.005より小 0.5％有意＊＊＊星３つ
61
61
ｐ値とは
• 標本調査で得られたこのデータや集計表について、
• ある条件を仮定して、このデータや集計表を象徴する独特の
検定統計量を算出する
• 検定統計量＝対象データや集計表固有の値
• ｐ値とは、この検定統計量の発生する確率のこと
– 仮に、ｐ＝0.01ならマレなこと、ｐ＝0.60ならシバシバ起こ
ること（今、測定したデータや集計表が得られることが）
• 統計学や検定の考え方
– なぜマレな確率で素データや集計表が得られたのだろう
か？きっと、何か特別な事情があるに違いない。注意しよ
う（有意としよう）。論文で発表しよう
62
ｐ値をもとに多くの検定方法が
• データや表⇒検定統計量⇒その発生確率ｐ
• 5％（0.05）を基準に、小さければマレ（有意）、大きければシ
バシバ（採択）と判定（医療では5％水準、他にも1％や0.5％
なども工学で使用）
• 検定統計量や確率計算方法は、
– 条件や仮定で千差万別。また非常に難解。そこで、典型的な状況に
ついて、「○○検定」として確立されてる。（計算にはPCやサイトを）
– 例えば、２群の平均値差にはt検定を行う
– 別の条件なら、同じ目的でマンホイットニＵ検定も使える
検定手法は世に数多く存在する
– だから、
63
•
PCやサイトを利用して解く体験
•
医療で良く使う統計的検定を体験する
64
64
分析Webサイトで解いてみる
• 「U検定サイト」で検索、その中で「こんにちは統計
学」で計算ページがあった。計算させてみる
• 田中のページの右隅からサイトへ進む
• （あえて、青木のページｔ検定を、なぜなら、最近に
なって青木のページは検索エンジンで出にくい）
• ＪａｖａＳｃｒｉｐｔの（26）２群の平均値差の検定へ
• 使えそうな計算サイト
– 「こんにちは統計学」サイトすがやみつる
– 旧「おしゃべりな部屋」サイト青木繁伸
65
65
２群の平均値差検定（ｔ検定）
• http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest.html
• 素データがなく、平均、標準偏差、ケース数
のみがある場合のサイト
• 対応なしの場合、普通のｔ検定
• 旧おしゃべりな部屋、Javascript、26番２群の
平均値差の検定を参照
66
66
対応のあるデータ、ないデータの違い
• 対応ありと考えられる場合
– 同じ人やグループを追跡して測定
•
•
•
１回２回３回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
「対応あり」は「なし」より
•
やや有意差出にくい（厳しい）傾向
• 対応ないと考えられる場合
•
– 毎回グループの構成者は別々
•
岡山東京大阪福岡・・・
• 人口
• 生産額
• 学生数
67
67
PC画面の例（集計データ入力）
68
68
結果の一例
ｐ値が複数ある場合、
関連したあるいは別の
検定結果も合わせて算
出している場合がある
69
検定のチェックリスト
• □ 検定はサイトでｐ値を計算できる
• □ 探すのにはキーワードで検索エンジンで
• □ 検定は母集団を想定している（標本の報告であ
れば不要）
• □ 種々の検定はすべてｐ値を求める
• □ ｐ値は、その差が測定される確率
• □ ｐ値5％以下なら有意（マレ）に起きたことを示す
• □ どうしてマレなことがこの調査で得られたのか？
これを考えることが本義（看護の物理的な意味づけ
、看護のフィジカル・ミーニング）考察
70
検定結果が出ると、必ず陥るワナ
• 問１なぜＡ検定やらＢ検定やらＣ検定やら色々あ
るの？１つでいいじゃん。⇒群盲評象に注意
• 問２どの検定方法を選んで良いか分からない
• 問３Ａ検定ならp>0.5なのにB検定ならp<0.5。だか
ら私に都合の良い・優れた検定はBなのね？
– 答１：検定方法ごとに細かな前提（仮定条件）が
ある。だから名称違えば異なる結果も当たり前
– 答２：上司から指定された、代表的検定をまず
– 答３：検定の前提の違い。優劣はない
71
二群の平均値差の検定演習問題
•
•
•
•
いずれもｔ検定（対応なし）として平均値差を検定せよ。青木サイトを使用する。
問１群平均ＳＤＮ
問２
Ａ 3.2 3.8 5
Ｂ 5.2 8.2 5
•
問３ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名，女子
• 63 名の血色素量について
• の検査成績は，男子では平
• 均値 15.2 g/dl，不偏分散
• 1.1，女子では平均値 12.7
• g/dl，不偏分散 3.2 であった。
• 男女の平均値に差はあるか，
72
72
• トピックス検定手法の進化・深化
– かつて皆さんが習ったｔ検定やカイ２乗検定も、医
療界ではさまざまな手法に変わりつつあります。
サイトはこの流れに対応しつつあります
• 今後使用する場面が出てくる「検定」にまつ
わる分析方法をご紹介
73
主な統計的検定法の体系図
74
代表的なノンパラメトリック検定法
• 対応のない２標本（群）の代表値差
– マンーホイットニのＵ検定
– ２標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある２標本（群）の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
75
早わかりなぜノンパラ検定に？
• あなたはある日Dr.から「論文のためこのデー
タをウイルコクソン検定しておいて」と告げら
れます
• ウイルコクソン検定が何であるか、どうすれ
ば良いかのため、検索エンジンで「ウイルコク
ソン検定」とするでしょう
• すると、分析のためには「青木サイト」に出会
うかも知れません
76
今の「流行」検定手法は
パラメトリックからノンパラへ
• 従来のｔ検定は、
– 正規分布を仮定するなど制約が多かった
– でも性能はよろしい（検定力大=シャープな剣）
• ノンパラ検定群（ウイルコクソンやフリードマン検定
など）は、
– 適用の条件や制約少ない
– サンプル数も気にしないでも検定力もそこそこある＝頑健
な＝ロバストな検定手法（少し切れ味の鈍いナイフ）
– 適応範囲が従来よりかなり広い
– 次第に愛好者が医療関係者にも増えてきた
• 市販統計ソフトにも多く採用、使用可能、サイトでも
77
さらに・・・
• 対応のないｋ標本（群）の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるｋ標本（群）の代表値差
– フリードマン検定
78
マンーホイットニのU検定
（Willcoxson順位和検定に同じもの）
2群、対応なし
• 9個の部品について４個は
処置群、残り処置なし群とし
た。この２つの群の母代表
値に差があるかどうか検定
しなさい。
– 処置群の観察値
1.2，1.5，1.8，2.6
– 処置なし群の観察値
1.3，1.9，2.9，3.1，3.9
79
• 有意確率＝0.142または0.190
• 有意確率＞0.05なので有意差なし・採
択
• つまり両群に差は認められない
• http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples.html
80
ウイルコクソン符号検定
（Wilcoxonの順位和＝ﾏﾝﾎｲｯﾄﾆ検定と区別）
２群、対応あり
• 10 人の被検者について，五段階評価をした
。同じ被検者に対して，1 年後にもう一度評
価した。その結果を表に示す。1 年間で母代
表値に差があったかどうか検定しなさい
•
１２３４５６７８９ 10
• 最初 A A C B D A C B D B
• １年後 C A E D B B D A E D
81
検定統計量
Wilcoxson符号検定の
結果
正確有意確率 (両側)
b
VAR00004 VAR00003
.180a
a. 使用された2項分布
b. 符号検定
• 正確有意確率＝0.180＞0.05 → 採択
• 最初と１年後では有意差ない
• もしも計量値としてＷｉｌｃｏｘｓｏｎの符号付順位和検定（２群対
応なし）を行ったならば、
• 漸近有意確率＝0.114＞0.05 採択
• やはり
• 最初と１年後では差はない
• http://aoki2.si.gunmau.ac.jp/Java/RelatedTwoSamples/bin/RelatedTwoSampl
es.html
82
クラスカルーウォリス検定
３群以上、対応なし
• 12 匹のラットに 3 種類の餌を与えたときの肝臓
の重量は表 1 のようであった。餌の種類により
肝臓の重量の平均値に差があるといえるか
表 1．餌の種類による肝臓の重量
•
A餌
3.42
3.84
3.96
3.76
B餌
3.17
3.63
3.47
3.44
C餌
3.64
3.72
3.91
3.39
SPSS入力
83
• Ｈ０：平均１＝平均２＝平均３
• Ｈ１：３群の平均は同じでない
• 漸近有意水準0.062＞0.05 採択
• 結論：３群の平均は同じ程度とみなす（帰無できない）
• ただ、有意水準6.2％と5％に近いことにも留意する
• 参考
• http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
84
フリードマン検定
３群以上、対応あり
• 表 1 のようなデータがある。4 種の肥料間で
収量に差があるか
• 参考：行列を入れ替えれば３品種間に差が
あるかを検定できる
表 1．フリードマン検定が対象とするデータ
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
85
エクセル版
http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html
– Ｈ０：４群の平均は等しい
– Ｈ１：４群の平均は等しくない
• 漸近有意確率0.001＜0.005 ＊＊＊
• 0.5％有意肥料４種の平均は等しくない
• 行列を入れ替えると
– Ｈ０：３品種の平均は等しい
– Ｈ１：等しくない
• 漸近有意確率0.004＜0.005
• ***0.5％有意→３品種の平均は異なる
• 総合的には、肥料、品種いずれも差あり
86
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
表の形式は似
ていても…
• 表はクロス表に似ている。しかしクロス表は
対応なし、フリードマンは対応ありが大きく異
なる。
• クロス表では行か列はそれぞれ要因。フリー
ドマンでは行か列は標本（ケース）である。
87
（一応、資料として）
さらにトピックス２名義尺度でも使える検定
クロス表の独立性の検定
•
•
•
•
•
•
通称、カイ２乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
２次元以上をクロス集計表
ではこの表での仮説とは
– 「クロス表のマス目（セル）は同じ割合かどうか」
– 「クロス表に偏りがあるのかないのか」
88
88
（２×２）クロス表とはこんなもの
•
•
•
•
•
•
行と列で作表する
ただ集計したので分布に関係しない
クロス表は因果を示している（行と列どちらでも）
行側：原因→列側：結果
例：対応なし投薬有無と結果や運動有無×効果
対応あり１回目と２回目の状況
89
89
２×２クロス表（分割表）
• クロス表の最小形式（基本）
• さまざまなクロス表
90
90
http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
JavaScriptの40番目
91
91
• Ｐ＝1.00採Ｐ＝0.38採
•
0.02棄
1.00採
•
0.02棄
1.00採＜解答編＞
92
92
Ｒ×Ｃクロス表のカイ２乗検定
•
•
•
•
•
基本は２×２（検討しやすい）
４つのセル値をサイトへ入力
計算結果Ｐ値で判断する
Ｐ＞0.05 採択
0.01＜Ｐ＜0.05 5％有意他１％有意 0.5％有意により
＊、＊＊、＊＊＊
• http://aoki2.si.gunmau.ac.jp/Java/ChisqTest/bin/ChisqTest.html
• （現在では、使用できない場合も多い）
• とか
• http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
93
93
クロス表の独立性の検定
通称カイ２乗検定
• 正規性を仮定しない頑健な手法です
• ２×２クロス表の精密なカイ２乗検定
– http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
• Ｒ×Ｃ表クロス表入力通常版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• Ｒ×Ｃ表クロス表入力正確計算版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html
– （計算量が多いため通常版で十分）
• Ｒ×Ｃ表素データで入力する版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
94
94
クロス表独立性の検定
演習問題各表は独立か？
• 問１ 0.83、２ 0.76、３ 0.31、４ 0.60 ５ 0.01 ６ 0.00
•
採択
採択
採択
採択
＊＊＊＊＊
95
95
ﾃﾞｰﾀ分析専門家を活用するために
• 専門家が知っていること
– データ分析の各段階、楽しさや辛さそして悲しさ
– 看護研究におけるデータの生かし方
– 星の数ほどある統計手法であなたの質問に適す
る手法について
• 専門家が知らないこと
– あなたの分野の専門的知識
• あなたが知らなくても良いこと
– データ分析の環境整備、ツールそしてコスト
96
おすすめの本
• 完全独習統計学入門、小島寛之、ダイアモンド社
、\1,944（kindle電子書籍￥1,440）、2006．
– Amazonレビューより：大変わかりやすい良書である。
簑谷千鳳彦氏の「統計学のはなし」、大村平氏の「統計の
はなし」、和達三樹氏の「キーポイント確率・統計」といっ
た良書群にひけをとらない、もしかしたら、それ以上の本
かもしれない。（略）
– 田中の感想：分析の基本を学ぶのに良い。○×手法の
タウツーものではなくデータに対面する姿勢・基礎がてい
ねい。データ分析する人の基本素養
97

2015年版 - 岡山商科大学

Transcript 2015年版 - 岡山商科大学

Directory