データ分析について

Download Report

Transcript データ分析について

2013/7/28 香川県看護協会
看護に役立つデータ分析
(研修資料)
田中 潔
岡山商科大・経営・商学科教授
(教学部長)
スケジュール予定など
•
•
•
•
•
10:00-11:00頃
11:00-12:00頃
13:00-14:30頃
14:30-16:00
看護研究・データ分析再考
基礎統計とグラフ
昼食
回帰分析の要点
統計サイトと検定
About 研修講師
• 田中 潔(たなかきよし)
–
–
–
–
–
–
–
–
–
略歴: 岡山大、九州大修了後岡山商大へ勤務。教授
岡山県を中心に看護研修を25年以上
主な科目:情報ネットワーク論、社会調査実践他など
連絡先 岡山商科大学 〒700-8601(専用番号で届く)
[email protected] (eメール)
http://www.nahaha.org (Web)
検索エンジン 「岡山商科大学 田中潔」で検索
大学電話 086-252-0642
大学FAX 086-255-6947
After 研修後 アポイントメント
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話・F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
• 看護研究やデータ分析を考える
あなたはなぜデータ分析を迫られるのか?
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね!
– PCができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外・論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ!
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらないと思う
• 調査では患者ひとり一人は援助できない
• パソコンに興味はあるのだが難しそう
•
統計ギライがこの世にまたひとり
看護研究に問われる量か質か
• 量的研究(学部卒レベル)
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究(院レベル)
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院 瀬畠さん
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年)
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト(政府統計の窓口)
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング(市場調査)・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
看護研究
はこのあ
たりか
そもそも医療分野で
統計的分析が好まれるわけ
• 統計分析の考え方: 「目標達成のために満足のできるもの
であれば良しとする接近法」(ネイマン・ピアソン流)
•
•
•
•
•
•
•
医療で解決すべき課題(目標仮説)
(ここに看護的意味づけが必要)
データで証明する(実現仮説または達成仮説)
つまり、調査や実験の成否判定
(有意になれば良いのではありません。
有意にならないことが大事なときもあります)
仮説設計、データ収集、集計、統計分析の各作業
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり 」(新古今和歌集、
仁徳天皇) 帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる 。
• 大化の改新(645年)によって班田収授の法 。
• 1920(大正9)年10月1日を 期して、第1回
「国勢調査」 。
統計=stat(istics)
•
近代統計学の父ケトレー(コペルニクスに影響)
• 英語で統計または統計学= statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
看護研究における統計の立場
2つの視点
• 1つめ: 国家統計の視点
– 自分が「王」となり、対象集団の状況を広く知る、
報告する立場、疫学調査など
– 母集団よりも標本集団をまとめること
• 2つめ: 推測統計的な視点
– 自分の得た標本から母集団を推し量りたい
– 自分は「標本」という実験結果を元に、真の集団
(母集団)にたどり着きたい。真の看護や看護方
式に近づきたい
データ分析の流れ
• データの正しい収集法(集める)
– 計画的な抽出や正しい質問の作り方
• データの集計方法(サンプル・標本集団の分析)
– 基礎統計量とクロス表、グラフ化
• データの分析方法(背景の母集団を意識)
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
母集団と標本
• 母集団:未知、 標本:既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
大まかな統計分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
データ分析の道のり
• 母集団を想定する(想像する)、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する(実験や調査)
– 精密でなく正確な回答か?答えやすい用紙?、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ?
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた?
情報処理と看護研究のハザマ
• 看護研究
– 看護の中で、課題を立証し客観的結論を得る
•
•
•
•
エビデンス
明白なこと、証拠や根拠
心がけなければならない先人のコトワザ
情報面 GIGO(ぎーご)
– Garbege In Garbege Out
– ゴミからはゴミしか生まれない
• 統計学
群盲評象(ぐんもうひょうぞう)
– 尻尾を握って象がわかったつもりになっていませんか?
ステップ1
• 研究や分析のための
• データ準備 留意点
平均が意味ある場合、ない場合
データの「測定尺度」
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好き どれか1つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
エクセル使いなら必需品A1
行側(ギョウソク)と列側(レツソク)
•
•
•
→列側(項目、変数、変量)
行側↓
(ケース)
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか?
• 答え
• 測定値で影響されます。
– 身長160cmは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字 小数点以下0桁 でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下1桁(2桁目を四捨五入して)で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも1桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
ステップ2
• データが用意できたら、まず
• 1項目ごとにデータの姿をつかむ
• 記述統計(基礎統計、度数・クロス集計、グラ
フ表示)
• エクセルで十分可能、個人でも可能
基礎統計について
(比率や間隔尺度の場合)
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やグラフ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ(1変数ごと)の統計分析です
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計を始めるとやたら正規分布が
でてくるのですが
• 自然界の多くの現象は、数多く収集する(度数グラフに集計
する)と正規分布に近くなることが知られています。
• ネイマン流大数の法則。
• 現象には正規分布しないものも多くありますが、合計点など
加えると、極限では正規分布に帰着します。
• 中心極限定理。
• 「標本数を可能な限り集めなさい」は2つの意味で、正当なの
です。
• 統計には2つの立場があります。
– 1)数多く集めたり、加工して正規性に持ち込む派
– 2)正規性を仮定しない分析方法をあみだす派
• 2)がよさそうですが、実は性能は1)を超えられません。分布
系と分析力はトレードオフの関係に。
エクセルで
基礎統計量を求められる
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる)
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
=AVERAGE(範囲指定)
=STDEV(範囲)
=MEDIAN(範囲)
=MAX(範囲)
=MIN(範囲)
• 表の度数を求める関数
– 該当数(通常) =COUNT(範囲)または
– 条件付該当数 =COUNTIF(範囲、条件)
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう(1つの項目ずつ)
– これを棒グラフ(ヒストグラム)に描きましょう
– これである1項目の姿が見えてきます
– (全ての測定尺度で可能)
• クロス表(分割表)にまとめましょう(2つの項目ごと)
– 特に2次元クロス表(分割表)は大事
– 2つの項目を同時に表にまとめます
– (特に、順序や名義尺度でも作れます)
2つの項目の
基礎集計
投げ1のヒストグラム
素データから度数集計してみたら
投げ1と投げ2の2群を書き分ける
12
素データ→度数表→
8
2群別のグラフ
投1度数
投2度数
4
0
20
25
30
35
40
45
50
投げ2
投げ1
グラフは統計分析の設計図
エクセルはグラフ化の良いツール
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
1項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか?
• 条件とは、女性・男性、学級A、B、C別など
ステップ3 (比率尺度の場合)
• 1つずつ、項目ごとの把握が終ったら
– 基礎統計の算出
– 集計表=度数表やクロス表にまとめる
– 項目ごとにグラフで表現
• エクセルで十分可能、個人でも可能
• 次は2項目ごとの視覚化と分析
– 回帰分析で関係をつかむ
「散布図」は2項目の関係図
(エクセルで分析可能)
40
投げ2
30
20
10
10
20
30
投げ1
40
相関という考え方
•
•
•
•
•
•
•
•
2つの項目間の関係性を知りたい
2つの項目は「比例」するか「反比例」するか
比例には正比例と負比例(×反比例)
正の比例・・・片方が2倍→もう一方も2倍
負の比例・・・片方2倍→もう一方-2倍
相関は
正相関=片方が増加→もう片方も増加
負相関=片方が増加→もう片方は減少
(正)相関を目で見る
正負両方の相関程度が知りたい
• 相関係数R
-1~0~1で示す値
よく似た用語を間違えない
•
•
•
•
•
•
•
相関は散布図グラフを連想しましょう
相関係数はその点のシャープさを示す
相関係数が+なら正相関、-なら負相関
相関係数は記号ではRかrで表記
R2やR^2は相関係数を2乗したもの
R2は重相関係数、決定係数とも呼ばれる
R=√R2を計算し相関係数に直すとヨロシ
相関分析の手順
1.関係を知りたい2つの項目(列)を選ぶ
2.この2項目で散布図を描く
3.この図を元に直線回帰を行う
すると
グラフ内には中心直線=回帰直線が引かれ
その方程式と相関係数の2乗R2=重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
(単)回帰分析
•
•
•
•
散布図を描くとX軸とY軸の関係を目視
Y=aX+bという直線関係を考える
XとYはデータとして測定される
傾きaとbを決定すれば、XとYの関係が決まる
係数aとbを求めれば
• 2つの項目XからYを推測できる
• 予測: 測定されていないXについて、Yの予測値を
Y←aX+bで予測可能
単回帰分析のポイント
•
•
•
•
•
•
直線の程度(相関度)はどのくらいか?
傾きaとbを求める
直線の相関性を示す指標 相関係数R
またRの2乗のことを決定係数・重相関係数という
-1<R<+1
経験的にR>0.7で正相関あり、R<-0.7で負相関
あり、-0.7<R<0.7で無・弱相関
• 決定係数なら 0<R<0.5で無・弱相関
• 相関係数の2乗=決定係数・重相関係数>0
相関係数Rと二乗したR2
• Rまたはrは相関係数と呼ぶ
• R2=R×R=R2重相関係数や決定係数とも
呼ばれる
• R=0.7相関あり この時
• R2=0.7×0.7=0.5 を示す
• 解釈 R2=0.5とは
– 求めた方程式y=ax+bで、データ全体の情報の
うちR2(例:0.5以上)をこの式で表わしている
– RやR2は影響の程度をみる目安
エクセルでの求め方例: 散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析の完成
• 回帰直線y=x 相関係数Rの2乗=0.19
• この現象は直線y=xで、全体の19%の情報を表現できる
40
y=x
R2 = 0.1859
投げ2
30
20
10
10
20
30
投げ1
40
データ分析の道具立て
更なる分析にはエクセル以上
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• 市販ソフトとしては
• SPSS 高い、施設向き、論文投稿には望ましい。
世界的権威ソフト 新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむ
ね使えるが細かな使い勝手はあまり良くない
• フリーソフト(無料) R 良くできているが上級者で
なければ使いにくい!研究者向け
なぜ「Office(excel)」を?
• Windowsマシンが多く導入
• Windowsマシンには「Officeファミリ」のうちWordと
Excelが大体標準装備
– Wordは施設企画書類づくり、発表用配布資料づくりに
– Excelは素データ入力、グラフ化、基礎統計など個人向け
基本データ分析可能
– パワーポイントは発表原稿づくりに(別売)
• Officeファミリーは相互に「コピー&ペースト」で対象
物の継承が可能
最近ではインターネットのサイトにも
良いものが色々
• 検索エンジン 群馬 青木 → おしゃべりな部屋
• 青木サイトの統計処理の多くには「Java技術」が使
われている
• Javaはサイトで計算処理を行うための仕組みであり
PC購入後各自で導入するもの
□
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートフォンでも利用可能
1項目ずつグループ(群)間を比べる
• 2グループの取り扱い
• T検定や分散分析(比率尺度)
– 2群の平均値に関するもの
• クロス表とカイ2乗検定(名義や順序尺度)
– 度数に関するもの
• ある1項目について
• 2グループ(群)以上の差異を検討する
• グループ間または群間分析、層別分析
もしもPCでこんなエラーが出たら
あなたのPCのJAVA(Oracle社)という仕
組みが古いなどの原因で、警告が出た
ものです。「いいえ」を選んでうまく動作
すればいいですね。
看護に代表的な検定を分析体験
• t検定(比率尺度で使用)
– ある測定データの平均値がある値かどうか
– 仮説: 測定データの平均値=46.7
– 2群の平均は等しいとみなせるか
– 仮説: 群1の平均=群2の平均
• カイ2乗検定(名義・順序尺度で使用)
• クロス表に傾向や関連性があるか
– 仮説: このクロス表の度数は同じか
統計的検定はどんなもの
• ある仮説(○=△)を判定する
– 例: この実験結果=160.0
– 例: 群1の平均=群2の平均
• 判定結果は採択、または棄却の2分法
• 採択とは「この仮説を積極的に否定しない」
– (厳密には仮説を認めたくないがやむを得ない)
• 棄却とは「この仮説を積極的に否定する」
検定ではP値を探せ
検定に見る計算と判定
• 計算: 統計ソフトなどを使用する
• 判定: 出てくる結果の有意確率か有意水準の値に
より判定
• 有意水準「P値」>0.05 有意水準5%以上で採択
•
5%以下ならば棄却(有意、SIG.)←差あり
• 0.05~0.01 5%有意 *
星1つ
• 0.01~0.005 1%有意 ** 星2つ
• 0.005より小 0.5%有意 *** 星3つ
• P値 有意水準0.05基準⇔今回の有意水準を逆算
• つまり、P値が0.05を下回れば「有意」
2つの平均値を比べる
2群の平均値差の検定(t検定)
• 群 平均 SD N
• A 3.2 3.8 5
• B 5.2 8.2 5
• 等分散性の検定
• 有意確率2.3%(有意)
• 2群のばらつきは等しくない
• 平均値差のt検定
• 等分散仮定する 6.4%
• 等分散仮定せず 6.4%
• いずれも平均値差は有意でない
• この2群で平均値3.2と
5.2は同程度と見る
か?否か?
• 2群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定
の下で、「採択」
– 2つの平均値が等しいこ
とを否定せず(つまり同
程度)
二群の平均値差の検定だけでも
入力形式や条件で色々
• 標準的なサイト 2群の個々の値を入力するタイプ。
t検定とノンパラ(マンホットニ)検定が選択できる。マ
ンホイットニ検定とウイルコクソン順位和とは同じも
の
• 2群には対応がない場合
• http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSamples.html
• 青木おしゃべりな部屋、Java、独立2標本の検定の
順に探す
PC画面の例
応用1 平均などで独立2標本検定
• http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest.html
• 素データがなく、平均、標準偏差、ケース数
のみがある場合のサイト
• 対応なしの場合、t検定
• おしゃべりな部屋、Javascript、26番2群の平
均値差の検定を参照
PC画面の例
応用2 「対応のある」2群の検定
• 対応のある場合: 1人について前後を測定したな
ど。薬効や効果があったかはっきり検定する。
• http://aoki2.si.gunmau.ac.jp/Java/RelatedTwoSamples/bin/RelatedTw
oSamples.html
• 場所はおしゃべりな部屋、Java,対応のある2標本
の検定を探す
• 伝統的なt検定の他、ウィルコクソン符号付順位和
検定、符号検定にも対応する
対応のあるデータ、ないデータ
• 対応ありと考えられる場合
• 同じ人やグループを追跡して測定
•
•
•
1回 2回 3回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
• 対応ないと考えられる場合
• 毎回グループの構成者を取り替えて測定
•
岡山 東京 大阪 福岡・・・
• 人口
• 生産額
• 学生数
二群の平均値差の検定 演習問題
•
•
•
•
いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。
問1 群 平均 SD N
問2
A 3.2 3.8 5
B 5.2 8.2 5
•
問3 ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名,女子
• 63 名の血色素量について
• の検査成績は,男子では平
• 均値 15.2 g/dl,不偏分散
• 1.1,女子では平均値 12.7
• g/dl,不偏分散 3.2 であった。
• 男女の平均値に差はあるか,
応用3 名義尺度でも使える検定
クロス表の独立性の検定
•
•
•
•
•
•
通称、カイ2乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
2次元以上をクロス集計表
ではこの表での仮説とは
– 「クロス表のマス目(セル)は同じ割合かどうか」
– 「クロス表に偏りがあるのかないのか」
(2×2)クロス表とはこんなもの
• 行と列で作表する
• 上の図では、左上50、右下55この程度の違いで、この表に
は差があるか、否か(有意性ありかなし?)
• a、b、c、dに顕著な違いがあるか?
• 行側:原因→列側:結果
• 例: 対応なし 投薬有無と結果や運動有無×効果
•
対応あり 1回目と2回目の状況
青木サイトで解く
R×Cクロス表のカイ2乗検定
•
•
•
•
•
基本は2×2(検討しやすい)
4つのセル値をサイトへ入力
計算結果P値で判断する
P>0.05 採択
0.01<P<0.05 5%有意他 1%有意
0.5%有意により *、**、***
• http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
再掲: 判定方法 P値と検定結果
• 前ページ解答: P値=0.31→採択(差なし)
• クロス表から有意水準またはP値を算出
• 判定方法 その1 有意水準の値が
– 有意水準値=P値が
– 0.05~0.01 5%有意 * 星1つ
– 0.01~0.005 1%有意 ** 星2つ
– 0.005より小 0.5%有意 ***
星3つ
クロス表独立性の検定
解答はP値を示す(有意でない=採択)
• 問10.83、20.76、30.31、40.60 50.01 60.00
• 採択
採択 採択 採択 ** ***
研修のまとめ
•
•
•
•
•
•
•
□看護研究とデータ分析の関係を理解する
□データ入力での決まりごと
□ 1項目データ分析: 基礎統計量とグラフ
□プラットホームはOffice(Excel)
□ 2項目の関係: 相関、回帰式、散布図
□グループ(群)間比較: 統計的検定
□詳細な分析は統計ソフトやサイト利用