2015年版 - 岡山商科大学

Download Report

Transcript 2015年版 - 岡山商科大学

楽しく学べるデータ分析 基礎編
•
•
•
•
•
•
•
看護研究で統計的データ分析をお考えの方を対象
主に基礎をしっかりと固める目的。学習型研修。
到達目標
09:30~10:20 看護研究における統計分析
10:30~12:00 プレゼンテーションの流れ
13:00~14:30 データを収集し、集計
14:40~16:00 グラフから相関・回帰分析
1
About 研修講師
• 田中 潔(たなかきよし)
– 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授
– 岡山県を中心に看護研修を30年以上
– 主な科目:ネットワークシステム演習、社会調査実践他な
ど
– 連絡先 岡山商科大学 〒700-8601(専用番号で届く)
– [email protected] (eメール)
– http://www.nahaha.org (Web)
– 検索エンジン 「岡山商大 田中」で検索
– 大学電話 086-252-0642
– 大学FAX 086-255-6947
2
After 研修後 アポイントメント
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話・F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
3
After インターネット上での情報源
• 検索エンジン「岡山商大 田中」
4
• データ分析はなぜ
• 研究やデータ分析の心構えと
• その背景
5
望ましい研究スタイルとは
看護研究・調査研究を考える
• 量的研究
– 統計的な処理,何かの物差し(尺度)で計る
– 行動や現象を計量する学問
– 文章やインタビューからでも数値化すれば量的
研究なのだ
• 質的研究
– 解析者の知見による見解
– 少なくても自然科学ではない
6
データ分析2つの目的
• 帰納的な研究
– 法則やルール、公式など結論を生み出す
– いくつかの事例を集め、結論を1つに
• 演繹的な研究
– 知られたことを適用・応用範囲拡大
– 知られたことをもとに、新たな知見を
• いずれも客観的に立証が不可欠
• その方法の1つに「データ分析」が
7
コンピュータとデータ分析のハザマ
• 看護研究・データ分析
– 看護の中で、課題を立証し客観的結論を得る
• エビデンス
– 明白なこと、証拠や根拠
• 留意点
• 情報学 GIGO‘Garbege In Garbege Out)
– ゴミからはゴミしか生まれない
• 統計学 群盲評象
– 尻尾を握って象がわかったつもりになっていませんか?
88
量的研究・データ分析を行う上で
• 科学の本質
– ある現象を解明する際、反例を見つけ、否定する
この繰り返しで、可能性や真実に接近する。
– 「○○を肯定できる」のではなく、色々可能性を否
定し続けたが、もう否定できない。だから「肯定せ
ざるを得ない」という論法
• つまり、否定は1つの反例で即決(強)>肯定
は難しい(弱)
99
データ分析・調査の2立場
• 対象者全員の結果が得られた場合
– 悉皆(しっかい)調査
– その結果が唯一正しい、記述の統計で良い
• 対象者の一部しか調査できない場合
– 欠席者いた。未回答があったなど含む
– 標本調査でも標本統計は存在する。
• 問題は、標本から本来の集団を推し量る
10
10
統計と確率
• 統計・・・過去(得られた)データを検討する
• 確率・・・未来・将来を検討する
• 統計の2立場
– 記述統計 データの様子をつかむこと
• 標本(データ)を対象
– 推測統計 データから未来を推しはかる
• 母集団を対象
11
計測や調査からデータを得ること
母集団と標本
• 研究目標の対象: 母集団(未知)
• 計測や調査から得た対象
•
標本:既知
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
12
12
大まかな統計データ分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
記述統計
推定・検定
統計解析
推測統計
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
13
13
統計解析法の目的
• 記述統計: 平均、標準偏差、分散、グラフ
• 推定・推測: 標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測: 時系列データから将来を推測
– 方程式を作成する
• 記述統計: 標本を示す値やグラフで視覚化
• 検定・テスト: 比較し判定する、○×効果
• 多変量分析群
– 3つ以上の項目からなるデータを分析する
14
14
プレゼンテーションを考える
なぜプレゼンに苦労しているのでしょう?
何をプレゼンすべきでしょう?
15
プレゼンテーションとは
• プレゼンテーション、示説→みんなの前で発
表すること
• 良いプレゼンとは
– 見栄えのする(見易い)表示や資料を行う
– そのためにはパワーポイントpptが主流?
– 発表時間を厳守する
– 質疑応答にさわやかに(カッコ良く)回答する
•
•
企画から発表までを見通す
判明したことが分かっている
16
パワーポイン
ト全盛時代
への警鐘
トヨタがパワーポイント(ppt)禁
止令
ダイヤモンド社オンライン
(2009/5/20)より
17
記事のポイント
18
「素材集め」はプレゼンのコツ
本物志向
19
• 材料を集める,揃える
– 文字,表,図(写真),グラフ,デザイン図..
– デジカメ,VTR機器の扱い方
– PCへの音声・画像ファイルを移動
• プレゼン作品をPCで作成する
– 作品の構成や起承転結
– パワーポイント(パワポ)の使用・操作方法
– Word,Excelからパワポへ連携
– パワポでの作図,アニメ効果
• プレゼン作品の実行
– 発表当日あせらないために
20
素材の集め方
• デジタル機器(デジカメなど)で撮影
• スキャナで画像読み取り
– これらはマルチメディアの取り扱い
• ソフトOfficeで素材を作る
– Wordで文字原稿
– Excelで表やグラフ
– ペイントでイラスト
– パワーポイントで編集,デザイン効果
21
素材をPCに集める道具たち
• PC側の端子を確認
• USB接続 機器接続の万能選手
– USB1.0とUSB2.0(より高速、標準)が共
存。USB3.0も実用化中
– インテル社、マイクロソフト社
• IEEE1394
– 動画などより高速接続向け
– 端子形状が異なる 小さな正方形
– モトローラ社、アップル社
• 接続の基本はケーブル接続
– 挿すだけでOK
22
カード型メモリで移す
• 事実上の標準 デファクトスタンダード
• USBメモリ
– USBに直接挿せる
• SDメモリカード(系)
– 標準サイズの他、ミニSDやマイクロSDも一般的(携帯電
話に伴ない)
• メモリスティック
– ソニー独自のメモリカード
23
接続の小道具たち
• USBハブ(2~3千円)
– たくさんのUSB機器を接続する
– 1口について128機器まで
• マルチカードリーダー(2から3千円)
– たくさんの形状のメモリカードの読み書き
24
マイクロソフトOffice(MS-Office)
• マイクロソフト社のビジネスソフト群
– ワード、エクセル、パワーポイント、アクセス
• PCを買うとWordとExcelはついているのが普
通...でもでも本当は
– Word 文書や資料作成(看護研究計画書類)
– Excel データ分析・グラフ(データの視覚化・プレゼン)
• パワーポイント
– 必要に応じて購入するソフト(別売1~2万円)
– 施設PCには装備なしのこともあり
– プレゼン準備にハタと困る場合あり
25
自PCでソフト確認
• PC購入時には「スタ
ート」、「すべてのプ
ログラム」を開いて
MSOfficeの確認を
する
26
Officeソフト間の連携・継承
• Officeの操作性はほぼ統一されている
– ワードとパワーポイントは酷似・違和感なし
• あるソフトで作成したもの(オブジェクト)は
• 多くの場合、別のソフトへ移動できる
• MSOfficeソフト間は
• 「オブジェクト指向型」ソフト群
• 「まず対象を選び、動作を命令する」
27
Officeソフト間のオブジェクト交換
• ワードで作成した文書(テキスト)
• エクセルで作成したグラフ
• ホームページから画像をさがす
• コピー&貼り付け(ペースト)で
パワーポイントに持ってくることが可能
• コピー : クリップボードへの取り込み
• ペースト: クリップボードから貼り付け
28
• プレゼンの実際
• ソフト パワーポイントの導入
29
研究作業とOfficeソフト
仮説や課題設定
研究計画書
調査用紙
集計・分析
発表資料
人間の頭で考える
ワード
ワードかエクセル
エクセル
パワーポイント
Officeファミリの利点
操作がほぼ同じ(大区分、中区分、小区分)
異なるソフト間でのやり取り(コピペ)
30
5W1Hを思い出す
• 5つの「W」
– 1.WHEN いつ
– 2.WHERE どこで
– 3.WHO
誰が
– 4.WHAT 何を ...... そしてもう1つ,
– 5.WHY (なぜか)
• 1つの「H」
– 1.HOW
どのように
31
31
相手に伝わるコツ
• 上手な文章は「短い」
– 読点や句点をやや多めに使う
– ところでどちらが。かご存知?
• 掲示資料は「である調」
– ~である.
– ~なのです.(ですます調)は使わない
• さらに,箇条書きや体言止めも効果的
• パワポのフォントはワードより大きい
32
32
• 経験格言
– 内容のない発表はきれい(に作ろう)
– 内容のある発表は汚ない(くても許す)
•
•
•
•
•
細かな資料は突っ込まれる
ポイントを押さえた資料や効果(色やアニメーション)
シンプル イズ ベスト
時間厳守
1分で400から500文字
33
33
• データを集め、集計する
34
データの値: 4つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため 演算は出来ない
– 1.男性 2.女性 度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す 演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量 演算は加減のみ
– ℃(摂氏)、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値 加減乗除可能
– 実験データ全て
情報量大
35
35
素データ形式
行側(ギョウソク)と列(レツソク)側
•
•
•
→列側(項目、変数、変量)
行側↓
(ケース)
• 1ケースずつまとめたものを、「素データ」(生
データ)とも呼ぶ
36
36
入力した「素データ」の形
37
37
欠測値について
• 計測されなかった、計測できなかった値
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
38
38
• 素データが用意できたら、まず
• 1項目ごとにデータの姿をつかむ
• 記述統計(基礎統計、度数・クロス集計、グラ
フ表示)
39
39
1項目ずつデータを視覚化する
• 名義、順序尺度
– 度数やクロス表に集計する
– その表を棒グラフなどでながめる
• 間隔、比率尺度
– ヒストグラムで眺める
– 基礎的な統計量を算出する
• 名義尺度は整数値で得られ
• 比率尺度は整数か小数値で得られる
40
40
記述統計の主な内容
• グラフを描く
– データの形(分布)、時刻変化(時系列)など
– 名義・順序尺度の場合 度数分布表の図示
– 比率・間隔尺度の場合 ヒストグラム
• 基礎統計量(中心と散らばりを)
– (算術)平均
グラフの重心位置・中心
– 中央値
極値がある場合平均の代用
– 標準偏差、分散、不偏分散
• その分布のちらばり(散布度)
– 最大・最小値 グラフの上限・下限
• 層別
– 基礎統計はグループ別も
41
1項目のグラフと
基礎統計量の関係図
• 記述統計量とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
何かの現象を棒グラフ・度数表で描いたもの=分布図
42
42
1項目ずつ視覚化と
基礎統計量
投げ1のヒストグラム
43
43
素データから度数集計してみたら
この集計表を「表データ」と呼ん
で、素データと区別することもあ
る
44
44
層別:投げ1と投げ2を書き分ける
12
8
投1度数
投2度数
4
0
20
25
30
35
40
45
50
素データ→度数表→項目ごとにグラフ化
素データ→表データ→グラフ
グラフを書くには、Excelが標準的
素データや表データは、Excelに入力する
45
45
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
1項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか?(群別、層別分析ともいう)
• 条件とは、女性・男性、学級A、B、C別など
46
46
見やすい素材づくり
グラフ、Excelの利用
47
47
発表・論文向け科学的なグラフの要点
• Excelのグラフは、どちらかというと、プレゼン
を意識した「ビジネス系」
• グラフは、誰もが見て分かるもの。見た目は
二の次、シンプルで情報豊富
• 縦軸下限は、必ず0(原点)から。途中からの
省略(インチキ)グラフは最大の誤用
• 図はFig.、表はTable.例 Fig.5 Table.12
• 軸にはタイトルを必ず入れる
• 図はタイトルを最下、表はタイトルが最上
48
48
グラフの要点・誤用
左上① 縦軸と横軸は必ず明示する
左下② 棒グラフ 棒の並びに意味はない
右上③ 折れ線グラフ 横軸注意
横軸が時刻変化(左⇒右)とつい見てしまう
49
原点はゼロ
年々増加?
角度を変える
立体円グラフは誇張を意図?
50
2項目(変数・変量)を見る⇒散布図
• アジアの人口と
面積の関係
– 縦軸 面積大小
– 横軸 人口大小
• 4つの現象
– 面積 大小
– 人口 大小
• 平均を境に左右
と上下(2×2)
まとめ
国土大人口密=インドネシア
国土小人口疎=韓国
国土小人口中=日本やバングラディシュ
51
散布図の中に直線を見出すこと
• 散布図の点群が直線に並ぶ(比例変化)
• 右上がり=正の傾き(直線・相関)あり
• 右下がり=負の傾きあり どちらも関係あり
52
アジア10カ国の面積と人口
• 全体として
– 散布図は右上がり、面積小は人口も少なく、逆に面積大
は人口も多い
• つまり広い国には人が密集する 法則か?
• または 人口の多い国は広い国土を要する
•
散布図では因果は分からない
• さらに部分的には3グループに
– 第1 イラン、インドネシア
– 第2 韓国、タイ、トルコ、フィリピン、ベトナム
– 第3 日本、パキスタン、バングラディシュ
53
相関という考え方
•
•
•
•
•
•
•
•
2つの項目間の関係性を知りたい
2つの項目は「比例」するか「反比例」するか
比例には正比例と負比例(×反比例)
正の比例・・・片方が2倍→もう一方も2倍
負の比例・・・片方2倍→もう一方-2倍
相関は
正相関=片方が増加→もう片方も増加
負相関=片方が増加→もう片方は減少
54
正負両方の相関程度が知りたい
• 相関係数R
-1~0~1で示す値
• 重相関係数R2=R×R=Rの2乗=決定係数
– この点群(グラフ)全体の情報を1としたとき、この直線で
代表させた(代用させた)情報量の割合(直線性)
55
似た用語を間違えない
• 相関は散布図グラフを連想しましょう
• 相関係数はその点のシャープさ(直線性)を
示す(右上がり、右下がりいずれも)
• 相関係数が+なら正相関、-なら負相関
• 相関係数は記号ではRかrで表記
• R2やR^2は相関係数を2乗したもの
• R2は重相関係数、決定係数とも呼ばれる
• R=√R2を計算し相関係数に直すとヨロシ
56
相関分析の手順
1.関係を知りたい2つの項目(列)を選ぶ
2.この2項目で散布図を描く
3.この図を元に直線回帰を行う
すると
グラフ内には中心直線=回帰直線が引かれ
その方程式と相関係数の2乗R2=重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
57
(単)回帰分析
•
•
•
•
散布図を描くとX軸とY軸の関係を目視
Y=aX+bという直線関係を考える
XとYはデータとして測定される
傾きaとbを決定すれば、XとYの関係が決まる
58
係数aとbを求めれば
• 2つの項目XからYを推測できる
• 予測: 測定されていないXについて、Yの予測値を
Y←aX+bで予測可能
59
単回帰分析のポイント
•
•
•
•
•
•
直線の程度(相関度)はどのくらいか?
傾きaとbを求める
直線の相関性を示す指標 相関係数R
またRの2乗のことを決定係数・重相関係数という
-1<R<+1
経験的にR>0.7で正相関あり、R<-0.7で負相関
あり、-0.7<R<0.7で無・弱相関
• 決定係数なら 0<R<0.5で無・弱相関
• 相関係数の2乗=決定係数・重相関係数>0
60
求め方例: 散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
61
散布図→単回帰分析の完成
• 回帰直線y=x 相関係数Rの2乗=0.19(R=0.43)
• (目安: R2>0.5ならR>0.7なので相関性あり)
• 今回は正の「相関性ない」または「さほど強くない」
40
y=x
R = 0.1859
2
投げ2
30
20
10
10
20
30
40
投げ1
62
Y=1・x R2=0.2から分かること
40
y=x
R2 = 0.1859
1.散布図で分布が分かった(見える化)
投げ2
30
20
2.最適な直線(回帰直線)が引けた
10
3.回帰直線の係数a=1から
10
20
30
40
投げ1
xが1増加すると、yも同程度増加
(またはyが1増加ならxも同程度増加) ※因果は分らない
4.点群(分布)を直線で代用すれば、
全点群情報の(R2=0.2から)、20%を表現する
5.R2>0.5なら直線代用がかなり有効(相関あり)
6.直線性あるという傾向(法則)があるのでは?
このような現象は直線で代用しよう・・・と提案したい
63
おすすめの本
• 完全独習 統計学入門、小島寛之、ダイアモンド社
、\1,944(kindle電子書籍¥1,440)、2006.
– Amazonレビューより: 大変わかりやすい良書である。
簑谷千鳳彦氏の「統計学のはなし」、大村平氏の「統計の
はなし」、和達三樹氏の「キーポイント確率・統計」といっ
た良書群にひけをとらない、もしかしたら、それ以上の本
かもしれない。(略)
– 田中の感想: 分析の基本を学ぶのに良い。○×手法の
ハウツーものではなくデータに対面する姿勢・基礎がてい
ねい。平均や標準偏差。データ分析する人の基本素養
64