2015年版 - 岡山商科大学

Download Report

Transcript 2015年版 - 岡山商科大学

楽しく学べるデータ分析 中級応用編
• データ分析の経験があり、応用をお考えの方を対象
• 統計的検定を中心に分析とプレゼンの実際
•
•
•
•
•
到達目標
09:30~10:20
10:30~12:00
13:00~14:30
14:40~16:00
看護研究の確認とポイント
プレゼンテーション留意点
統計的検定の考え方
ネットを活用した分析
1
参考)楽しく学べるデータ分析 初級基礎編
•
•
•
•
•
•
•
看護研究で統計的データ分析をお考えの方を対象
主に基礎をしっかりと固める目的。学習型研修。
到達目標
09:30~10:20 看護研究における統計分析
10:30~12:00 プレゼンテーションの流れ
13:00~14:30 データを収集し、集計
14:40~16:00 グラフから相関・回帰分析
2
About 研修講師
• 田中 潔(たなかきよし)
– 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授
– 岡山県を中心に看護研修を30年以上
– 主な科目:ネットワークシステム演習、社会調査実践他
連絡先 岡山商科大学 〒700-8601(専用番号で届く)
– [email protected] (eメール)
– http://www.nahaha.org (Web)
– 検索エンジン 「岡山商大 田中」で検索
– 大学電話 086-252-0642
– 大学FAX 086-255-6947
3
After 研修後 アポイントメント
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話・F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
4
After インターネット上での情報源
• 検索エンジン「岡山商大 田中」
5
• データ分析・看護研究のポイント
• 基礎の復習と確認
6
望ましい研究スタイルとは
看護研究・調査研究を考える
• 量的研究
– 統計的な処理,何かの物差し(尺度)で計る
– 行動や現象を計量する学問
– 文章やインタビューからでも数値化すれば量的
研究なのだ
• 質的研究
– 解析者の知見による見解
– 少なくても自然科学ではない
7
データ分析2つの目的
• 帰納的な研究
– 法則やルール、公式など結論を生み出す
– いくつかの事例を集め、結論を1つに
• 演繹的な研究
– 知られたことを適用・応用範囲拡大
– 知られたことをもとに、新たな知見を
• いずれも客観的に立証が不可欠
• その方法の1つに「データ分析」が
8
量的研究・データ分析を行う上で
• 科学の本質
– ある現象を解明する際、反例を見つけ、否定する
この繰り返しで、可能性や真実に接近する。
– 「○○を肯定できる」のではなく、色々可能性を否
定し続けたが、もう否定できない。だから「肯定せ
ざるを得ない」という論法
• つまり、否定は1つの反例で即決(強)>肯定
は難しい(弱)
99
データ分析・調査の2立場
• 対象者全員の結果が得られた場合
– 悉皆(しっかい)調査
– その結果が唯一正しい、記述の統計で良い
• 対象者の一部しか調査できない場合
– 欠席者いた。未回答があったなど含む
– 標本調査でも標本統計は存在する。
• 問題は、標本から本来の集団を推し量る
10
10
計測や調査からデータを得ること
母集団と標本
• 研究目標の対象: 母集団(未知)
• 計測や調査から得た対象
•
標本:既知
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
11
11
大まかな統計データ分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
一次(必須)
集計
データ集計
標本の分析
高次(研究)
推定・検定
統計解析
母集団への分析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
12
12
統計解析法の主な目的
• 記述統計: 平均、標準偏差、分散、グラフ
• 推定・推測: 標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測: 時系列データから将来を推測
– 方程式を作成する
• 記述統計: 標本を示す値やグラフで視覚化
• 検定・テスト: 比較し判定する、○×効果
• 多変量分析群
– 3つ以上の項目からなるデータを分析する
13
13
プレゼンテーションの実際
本番当日にあわてないために
14
プレゼンテーションとは
• プレゼンテーション、示説→みんなの前で発
表すること
• 良いプレゼンとは
– 見栄えのする(見易い)表示や資料を行う
– そのためにはパワーポイントpptが主流?
– 発表時間を厳守する
– 質疑応答にさわやかに(カッコ良く)回答する
•
•
企画から発表までを見通す
判明したことが分かっている
15
パワーポイン
ト全盛時代
への警鐘
トヨタがパワーポイント(ppt)禁
止令
ダイヤモンド社オンライン
(2009/5/20)より
16
プレゼンの手順
• 材料を集める,揃える
– 文字,表,図(写真),グラフ,デザイン図..
– デジカメ,VTR機器の扱い方
– PCへの音声・画像ファイルを移動
• プレゼン作品をPCで作成する
–
–
–
–
作品の構成や起承転結
パワーポイント(パワポ)の使用・操作方法
Word,Excelからパワポへ連携
パワポでの作図,アニメ効果
• プレゼン作品の実行
– 発表当日あせらないために
17
素材の集め方
• デジタル機器(デジカメなど)で撮影
• スキャナで画像読み取り
– これらはマルチメディアの取り扱い
• ソフトOfficeで素材を作る
– Wordで文字原稿
– Excelで表やグラフ
– ペイントでイラスト
– パワーポイントで編集,デザイン効果
18
• プレゼンの実際
• ソフト パワーポイントの導入
19
研究作業とOfficeソフト
仮説や課題設定
研究計画書
調査用紙
集計・分析
発表資料
人間の頭で考える
ワード
ワードかエクセル
エクセル
パワーポイント
Officeファミリの利点
操作がほぼ同じ(大区分、中区分、小区分)
異なるソフト間でのやり取り(コピペ)
20
5W1Hを思い出す
• 5つの「W」
– 1.WHEN いつ
– 2.WHERE どこで
– 3.WHO
誰が
– 4.WHAT 何を ...... そしてもう1つ,
– 5.WHY (なぜか)
• 1つの「H」
– 1.HOW
どのように
21
21
相手に伝わるコツ
• 上手な文章は「短い」
– 読点や句点をやや多めに使う
– ところでどちらが。かご存知?
• 掲示資料は「である調」
– ~である.
– ~なのです.(ですます調)は使わない
• さらに,箇条書きや体言止めも効果的
• パワポのフォントはワードより大きい
22
22
さらに・・・
• 経験格言
– 内容のない発表はきれい(に作ろう)
– 内容のある発表は汚ない(なくても許す)
•
•
•
•
•
•
•
細かな資料は突っ込まれる
ポイントを押さえた資料や効果(色やアニメーション)
シンプル イズ ベスト
制限時間は厳守
1分で400から500文字 落ち着いてゆっくり気味
色使い: 中間色は当日プロジェクタの性能に依存
原 稿: 原稿は読まず、表示映像を聴衆者と同列
23
23
戦略=目的+手段
• 目的と手段は階層的につながっている
• (戦略の階層性)
– 目的が具体的・明快だと手段が立てやすい
– そして、戦略とは「選択と集中」
• 複数の選択肢を出来るだけたくさん作る
• 選択肢の長所と短所を吟味する
• その中から選び、まっしぐら(集中)
– 断定はポイント絞り、1点で
24
24
戦略的であることチェックリスト
• □ 現状分析ができている
• □ 分析から(中・長期の)目標がはっきりし
ている
• □ 目的達成のため手段は適切か?
• □ 目的達成のため資源は集中されている
か?
• □ その目的や手段を説明できるか?
25
25
論理的とは
• 文章やスピーチの場合: 段落と段落、話と
話の関係がわかりやすいこと
• 企画書の場合: 話の筋道が分かりやすい、
ページとページのつながりが分かりやすい
• 論理的とは結論・主張が明快で、その理由と
話の筋道が分かりやすいこと
26
26
話の筋道→接続詞を上手に
• 上位目標確認
•
さて 現状分析
•
であるから 戦略目標(仮説)の提示
•
そのため 実施案の提示
•
つまり
まとめ、展開なのです
27
27
日常の接続詞一覧
•
•
•
•
•
•
•
•
順接
逆接
添加
説明
転換
例示
補足
理由
であるから、なので、そのため
しかし、だが
そして、さらに
要するに、つまり
さて、ところで
例えば
並列 かつ、または
ちなみに
なぜなら
28
28
論理に困ったら逆に考える、
並列もチェックする
• 三段論法
– AならばB、BならばCよってAならばC
• Cの理由はB、Bの理由はAそこでCの理由
はAなのか・・・「逆向き推論」
• 逆向き推論チェックの徹底こそが納得しやす
い論理形成
• かつ(AND)、または(OR)、~でない(NOT)
の組み合わせが多い(論理の並列)
29
29
帰納と演繹
• 帰納とは事実から結論を得る
– 統計は帰納的考えに近い
– ラーメン店Aはうまく、行列があった
– ラーメン店Bはうまく、行列があった
– だからうまいラーメン店には行列がある
• 演繹は推論すること(症例研究)
– この疾病には斑点が出る。この患者には斑点が
ある。そこでこの患者はこの疾病か?
30
30
• データ分析の環境と実際
31
データの値: 4つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため 演算は出来ない
– 1.男性 2.女性 度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す 演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量 演算は加減のみ
– ℃(摂氏)、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値 加減乗除可能
– 実験データ全て
情報量大
32
32
欠測値について
• 計測されなかった、計測できなかった値
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
33
33
分析対象 素データと表データ
調査から得られる
論文や集計から
この集計表を「表データ」と
呼んで、素データと区別す
ることもある
34
34
• 素データが用意できたら、まず
• 1項目ごとにデータの姿をつかむ
• 表データはそのままグラフ化
• 記述統計(基礎統計、度数・クロス集計、グラ
フ表示)
35
35
1項目ずつデータを視覚化する
• 名義、順序尺度
– 度数やクロス表に集計する
– その表を棒グラフなどでながめる
• 間隔、比率尺度
– ヒストグラムで眺める
– 基礎的な統計量を算出する
• 名義尺度は整数値で得られ
• 比率尺度は整数か小数値で得られる
36
36
1項目のグラフと
基礎統計量の関係図
• 記述統計量とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
何かの現象を棒グラフ・度数表で描いたもの=分布
37
37
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
1項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか?(群別、層別分析ともいう)
• 条件とは、女性・男性、学級A、B、C別など
38
38
発表・論文向け科学的なグラフの要点
• Excelのグラフは、どちらかというと、プレゼン
を意識した「ビジネス系」
• グラフは、誰もが見て分かるもの。見た目は
二の次、シンプルで情報豊富
• 縦軸下限は、必ず0(原点)から。途中からの
省略(インチキ)グラフは最大の誤用
• 図はFig.、表はTable.例 Fig.5 Table.12
• 軸にはタイトルを必ず入れる
• 図はタイトルを最下、表はタイトルが最上
39
39
グラフの要点・誤用
左上① 縦軸と横軸は必ず明示する
左下② 棒グラフ 棒の並びに意味はない
右上③ 折れ線グラフ 横軸注意
横軸が時刻変化(左⇒右)とつい見てしまう
40
原点はゼロ
年々増加?
角度を変える
立体円グラフは誇張を意図?
41
• インターネット環境をデータ分析に活用
– 1)手法や原理を学ぶ
– 2)素データを表データに集計する
– 3)統計的分析法をサイトで
42
• 素データを表に集計
• 度数を数えること
– エクセルシート「アンクスタット」サイトより
– 素データをコピー&ペースト
– 名義や順序尺度向き
– 比率尺度はやや苦手
43
エクセル 統計計算シートankstat
(アンクスタット)
• 田中研究室で開発されたエクセル(バージョ
ンは問わず)専用のシート
• 主に基礎集計や集計を行う。詳細な統計解
析機能はない。
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ankstat」か「アンクスタッ
ト」で検索する 。最新は5.9版。
• 最大5000ケース×200項目を集計可能
44
44
シートankstatの入力シート
45
45
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
(%表示も可能)を算出
46
46
データ入力画面例
(エクセルに同じ)
47
47
基礎統計量もまとめてらくらく
48
48
度数も集計する
49
49
アンクスタットankstatや研修資料は
「岡山商大 田中」サイトから入手
50
50
さらに進むと…
51
51
• さまざまな統計的データ分析はネットで可能
– 今や統計手法は多くのサイトで可能
– PCの他、Padやスマホで計算可能
– ネットを介して、統計電卓的に
52
最近ではインターネットのサイトにも
良いものが色々
• 検索エンジン 群馬 青木 → 「おしゃべりな部屋」
• すがやみつる(漫画家)「こんにちは統計学」
• Javaはサイトで計算処理を行うための仕組みであり
□
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートフォンで利用可能
53
ネット覗き体験その1
「旧おしゃべりな部屋」サイトの先頭ページ
注意: 旧おしゃべりな部屋(群馬大青木)は、現在も使用できるが、
検索エンジンで見つかりにくい。タイトル「おしゃべりな部屋」を取っ
て検索利用数を減らす配慮をしている。
⇒ 岡山商大 田中から進むのが簡便
54
覗き体験2 すがやみつる「こんにちは統計学」
検定に特化している。特に、医療分野で近年使用されつつある
「ノンパラメトリック(ノンパラ)検定」の手法がバランス良く集めら
れている
55
看護に代表的な検定を分析体験
• t検定(2つの群を比べる手法)
– ある測定データの平均値がある値かどうか
• 仮説: 測定データの平均値=46.7
– 2群の平均は等しいとみなせるか
• 仮説: 群1の平均=群2の平均
•
群1平均-群2平均=0
• 医学分野の分析手法にもブームあり
• 近年ではマンホイットニのU検定を使うことも
56
56
そも、t検定はなぜ必要か?
• 悉皆(しっかい)調査ならば必要なし
– 結果平均(記述統計)で真実を示す(調査報告)
• 標本調査では、こうはいかない(研究発表)
– 今出した記述統計の差が、母集団で明らかな(有
意な)差だろうか?
– 対象を変えて、何回も調査をし直しても、この有
意差は維持されているのだろうか?
– 有意な差が見つかれば、なぜこの差は生じたか
?法則につながるのでは?←これが本音
• これが、統計的検定の考えていること
57
57
統計的検定はどんなもの
• ある仮説(○=△)を判定する
– 例: この実験結果=160.0
– 例: 群1の平均=群2の平均
• 判定結果は採択、または棄却の2分法
• 採択とは「この仮説を積極的に否定しない」
– (厳密には仮説を認めたくないがやむを得ない)
• 棄却とは「この仮説を積極的に否定する」
58
58
大まかな統計データ分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
一次(必須)
集計
データ集計
標本の分析
高次(研究)
推定・検定
統計解析
母集団への分析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
59
59
2つの平均値を比べる
2群の平均値差の検定(t検定)
• 群 平均 標準偏差 N
• A 3.2
3.8 5
• B 5.2
8.2 5
• 標本統計だけなら平均
5.2-3.2=2.0の違いあり
• 等分散性の検定
– 有意確率2.3%(有意)
– 2群のばらつきは等しくない
• 平均値差のt検定
– 等分散仮定する 6.4%
– 等分散仮定せず 6.4%
• いずれも平均値差は有意でない
• この2群で平均値3.2と5.2
は同程度と見るか?否
か?
• この2.0は母集団上(何回
標本抽出を)しても意味の
ある(明らかな)差として良
いか?
• 2群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定の
下で、「採択」
– 2つの平均値が等しいことを
否定せず(つまり同程度) 60
60
「検定」の計算と判定
有意水準=「p値」を求め判定する
• 計算: 統計ソフトなどを使用する
• 判定: 出てくる結果の有意確率か有意水準(p値)
の値により判定
• 有意水準「p」>0.05 有意水準5%以上で採択
•
5%以下ならば棄却(有意、SIG.)←差あり
• 0.05~0.01 5%有意 *
星1つ
• 0.01~0.005 1%有意 ** 星2つ
• 0.005より小 0.5%有意 *** 星3つ
61
61
p値とは
• 標本調査で得られたこのデータや集計表について、
• ある条件を仮定して、このデータや集計表を象徴する独特の
検定統計量を算出する
• 検定統計量=対象データや集計表固有の値
• p値とは、この検定統計量の発生する確率のこと
– 仮に、p=0.01ならマレなこと、p=0.60ならシバシバ起こ
ること(今、測定したデータや集計表が得られることが)
• 統計学や検定の考え方
– なぜマレな確率で素データや集計表が得られたのだろう
か?きっと、何か特別な事情があるに違いない。注意しよ
う(有意としよう)。論文で発表しよう
62
p値をもとに多くの検定方法が
• データや表⇒検定統計量⇒その発生確率p
• 5%(0.05)を基準に、小さければマレ(有意)、大きければシ
バシバ(採択)と判定(医療では5%水準、他にも1%や0.5%
なども工学で使用)
• 検定統計量や確率計算方法は、
– 条件や仮定で千差万別。また非常に難解。そこで、典型的な状況に
ついて、「○○検定」として確立されてる。(計算にはPCやサイトを)
– 例えば、2群の平均値差にはt検定を行う
– 別の条件なら、同じ目的でマンホイットニU検定も使える
検定手法は世に数多く存在する
– だから、
63
•
PCやサイトを利用して解く体験
•
医療で良く使う統計的検定を体験する
64
64
分析Webサイトで解いてみる
• 「U検定 サイト」で検索、その中で「こんにちは統計
学」で計算ページがあった。計算させてみる
• 田中のページの右隅からサイトへ進む
• (あえて、青木のページt検定を、なぜなら、最近に
なって青木のページは検索エンジンで出にくい)
• JavaScriptの(26)2群の平均値差の検定へ
• 使えそうな計算サイト
– 「こんにちは統計学」サイト すがやみつる
– 旧「おしゃべりな部屋」サイト 青木繁伸
65
65
2群の平均値差検定(t検定)
• http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest.html
• 素データがなく、平均、標準偏差、ケース数
のみがある場合のサイト
• 対応なしの場合、普通のt検定
• 旧おしゃべりな部屋、Javascript、26番2群の
平均値差の検定を参照
66
66
対応のあるデータ、ないデータの違い
• 対応ありと考えられる場合
– 同じ人やグループを追跡して測定
•
•
•
1回 2回 3回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
「対応あり」は「なし」より
•
やや有意差出にくい(厳しい)傾向
• 対応ないと考えられる場合
•
– 毎回グループの構成者は別々
•
岡山 東京 大阪 福岡・・・
• 人口
• 生産額
• 学生数
67
67
PC画面の例(集計データ入力)
68
68
結果の一例
p値が複数ある場合、
関連したあるいは別の
検定結果も合わせて算
出している場合がある
69
検定のチェックリスト
• □ 検定はサイトでp値を計算できる
• □ 探すのにはキーワードで検索エンジンで
• □ 検定は母集団を想定している(標本の報告であ
れば不要)
• □ 種々の検定はすべてp値を求める
• □ p値は、その差が測定される確率
• □ p値5%以下なら有意(マレ)に起きたことを示す
• □ どうしてマレなことがこの調査で得られたのか?
これを考えることが本義(看護の物理的な意味づけ
、看護のフィジカル・ミーニング) 考察
70
検定結果が出ると、必ず陥るワナ
• 問1 なぜA検定やらB検定やらC検定やら色々あ
るの?1つでいいじゃん。⇒群盲評象に注意
• 問2 どの検定方法を選んで良いか分からない
• 問3 A検定ならp>0.5なのにB検定ならp<0.5。だか
ら私に都合の良い・優れた検定はBなのね?
– 答1: 検定方法ごとに細かな前提(仮定条件)が
ある。だから名称違えば異なる結果も当たり前
– 答2: 上司から指定された、代表的検定をまず
– 答3: 検定の前提の違い。優劣はない
71
二群の平均値差の検定 演習問題
•
•
•
•
いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。
問1 群 平均 SD N
問2
A 3.2 3.8 5
B 5.2 8.2 5
•
問3 ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名,女子
• 63 名の血色素量について
• の検査成績は,男子では平
• 均値 15.2 g/dl,不偏分散
• 1.1,女子では平均値 12.7
• g/dl,不偏分散 3.2 であった。
• 男女の平均値に差はあるか,
72
72
• トピックス 検定手法の進化・深化
– かつて皆さんが習ったt検定やカイ2乗検定も、医
療界ではさまざまな手法に変わりつつあります。
サイトはこの流れに対応しつつあります
• 今後使用する場面が出てくる「検定」にまつ
わる分析方法をご紹介
73
主な統計的検定法の体系図
74
代表的なノンパラメトリック検定法
• 対応のない2標本(群)の代表値差
– マンーホイットニのU検定
– 2標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある2標本(群)の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
75
早わかり なぜノンパラ検定に?
• あなたはある日Dr.から「論文のためこのデー
タをウイルコクソン検定しておいて」と告げら
れます
• ウイルコクソン検定が何であるか、どうすれ
ば良いかのため、検索エンジンで「ウイルコク
ソン検定」とするでしょう
• すると、分析のためには「青木サイト」に出会
うかも知れません
76
今の「流行」検定手法は
パラメトリックからノンパラへ
• 従来のt検定は、
– 正規分布を仮定するなど制約が多かった
– でも性能はよろしい(検定力大=シャープな剣)
• ノンパラ検定群(ウイルコクソンやフリードマン検定
など)は、
– 適用の条件や制約少ない
– サンプル数も気にしないでも検定力もそこそこある=頑健
な=ロバストな検定手法(少し切れ味の鈍いナイフ)
– 適応範囲が従来よりかなり広い
– 次第に愛好者が医療関係者にも増えてきた
• 市販統計ソフトにも多く採用、使用可能、サイトでも
77
さらに・・・
• 対応のないk標本(群)の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるk標本(群)の代表値差
– フリードマン検定
78
マンーホイットニのU検定
(Willcoxson順位和検定に同じもの)
2群、対応なし
• 9個の部品について4個は
処置群、残り処置なし群とし
た。この2つの群の母代表
値に差があるかどうか検定
しなさい。
– 処置群の観察値
1.2,1.5,1.8,2.6
– 処置なし群の観察値
1.3,1.9,2.9,3.1,3.9
79
• 有意確率=0.142または0.190
• 有意確率>0.05なので有意差なし・採
択
• つまり両群に差は認められない
• http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples.html
80
ウイルコクソン符号検定
(Wilcoxonの順位和=マンホイットニ検定と区別)
2群、対応あり
• 10 人の被検者について,五段階評価をした
。同じ被検者に対して,1 年後にもう一度評
価した。その結果を表 に示す。1 年間で母代
表値に差があったかどうか検定しなさい
•
1 2 3 4 5 6 7 8 9 10
• 最 初 A A C B D A C B D B
• 1年後 C A E D B B D A E D
81
検定統計量
Wilcoxson符号検定の
結果
正確有意確率 (両側)
b
VAR00004 VAR00003
.180a
a. 使用された2項分布
b. 符号検定
• 正確有意確率=0.180>0.05 → 採択
• 最初と1年後では有意差ない
• もしも計量値としてWilcoxsonの符号付順位和検定(2群対
応なし)を行ったならば、
• 漸近有意確率=0.114>0.05 採択
• やはり
• 最初と1年後では差はない
• http://aoki2.si.gunmau.ac.jp/Java/RelatedTwoSamples/bin/RelatedTwoSampl
es.html
82
クラスカルーウォリス検定
3群以上、対応なし
• 12 匹のラットに 3 種類の餌を与えたときの肝臓
の重量は表 1 のようであった。餌の種類により
肝臓の重量の平均値に差があるといえるか
表 1.餌の種類による肝臓の重量
•
A餌
3.42
3.84
3.96
3.76
B餌
3.17
3.63
3.47
3.44
C餌
3.64
3.72
3.91
3.39
SPSS入力
83
• H0: 平均1=平均2=平均3
• H1: 3群の平均は同じでない
• 漸近有意水準0.062>0.05 採択
• 結論: 3群の平均は同じ程度とみなす(帰無できない)
• ただ、有意水準6.2%と5%に近いことにも留意する
• 参考
• http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
84
フリードマン検定
3群以上、対応あり
• 表 1 のようなデータがある。4 種の肥料間で
収量に差があるか
• 参考: 行列を入れ替えれば3品種間に差が
あるかを検定できる
表 1.フリードマン検定が対象とするデータ
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
85
エクセル版
http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html
– H0: 4群の平均は等しい
– H1: 4群の平均は等しくない
• 漸近有意確率0.001<0.005 ***
• 0.5%有意 肥料4種の平均は等しくない
• 行列を入れ替えると
– H0: 3品種の平均は等しい
– H1: 等しくない
• 漸近有意確率0.004<0.005
• ***0.5%有意→3品種の平均は異なる
• 総合的には、肥料、品種いずれも差あり
86
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
表の形式は似
ていても…
• 表はクロス表に似ている。しかしクロス表は
対応なし、フリードマンは対応ありが大きく異
なる。
• クロス表では行か列はそれぞれ要因。フリー
ドマンでは行か列は標本(ケース)である。
87
(一応、資料として)
さらにトピックス2 名義尺度でも使える検定
クロス表の独立性の検定
•
•
•
•
•
•
通称、カイ2乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
2次元以上をクロス集計表
ではこの表での仮説とは
– 「クロス表のマス目(セル)は同じ割合かどうか」
– 「クロス表に偏りがあるのかないのか」
88
88
(2×2)クロス表とはこんなもの
•
•
•
•
•
•
行と列で作表する
ただ集計したので分布に関係しない
クロス表は因果を示している(行と列どちらでも)
行側:原因→列側:結果
例: 対応なし 投薬有無と結果や運動有無×効果
対応あり 1回目と2回目の状況
89
89
2×2クロス表(分割表)
• クロス表の最小形式(基本)
• さまざまなクロス表
90
90
http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
JavaScriptの40番目
91
91
• P=1.00採 P=0.38採
•
0.02棄
1.00採
•
0.02棄
1.00採 <解答編>
92
92
R×Cクロス表のカイ2乗検定
•
•
•
•
•
基本は2×2(検討しやすい)
4つのセル値をサイトへ入力
計算結果P値で判断する
P>0.05 採択
0.01<P<0.05 5%有意他 1%有意 0.5%有意により
*、**、***
• http://aoki2.si.gunmau.ac.jp/Java/ChisqTest/bin/ChisqTest.html
• (現在では、使用できない場合も多い)
• とか
• http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
93
93
クロス表の独立性の検定
通称カイ2乗検定
• 正規性を仮定しない頑健な手法です
• 2×2クロス表の精密なカイ2乗検定
– http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
• R×C表 クロス表入力 通常版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• R×C表 クロス表入力 正確計算版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html
– (計算量が多いため通常版で十分)
• R×C表 素データで入力する版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
94
94
クロス表独立性の検定
演習問題 各表は独立か?
• 問1 0.83、2 0.76、3 0.31、4 0.60 5 0.01 6 0.00
•
採択
採択
採択
採択
** ***
95
95
データ分析専門家を活用するために
• 専門家が知っていること
– データ分析の各段階、楽しさや辛さそして悲しさ
– 看護研究におけるデータの生かし方
– 星の数ほどある統計手法であなたの質問に適す
る手法について
• 専門家が知らないこと
– あなたの分野の専門的知識
• あなたが知らなくても良いこと
– データ分析の環境整備、ツールそしてコスト
96
おすすめの本
• 完全独習 統計学入門、小島寛之、ダイアモンド社
、\1,944(kindle電子書籍¥1,440)、2006.
– Amazonレビューより: 大変わかりやすい良書である。
簑谷千鳳彦氏の「統計学のはなし」、大村平氏の「統計の
はなし」、和達三樹氏の「キーポイント確率・統計」といっ
た良書群にひけをとらない、もしかしたら、それ以上の本
かもしれない。(略)
– 田中の感想: 分析の基本を学ぶのに良い。○×手法の
タウツーものではなくデータに対面する姿勢・基礎がてい
ねい。データ分析する人の基本素養
97