データ分析について

Download Report

Transcript データ分析について

スケジュール予定など
•
•
•
•
•
•
1日目 午前
10:00-11:00頃 統計学の全体像・歴史
11:00-12:00頃 看護研究の2アプローチ
昼食
13:00-14:30頃 看護研究と統計手法
14:30-16:00
回帰分析と相関
•
•
•
•
•
•
2日目 午後
10:00-11:00頃 アンクスタットと青木のサイト
11:00-12:00頃 統計的検定法
昼食
13:00-14:30頃 平均値差のt検定
14:30-16:00
クロス表の独立性検定
研修講師のメモ
• 田中 潔(たなかきよし)
–
–
–
–
–
–
–
–
–
–
略歴: 岡山大、九州大修了後岡山商大へ勤務。教授
岡山県看護協会の研修講師を25年以上歴任
最近は、広島、鳥取、香川県看護協会でも研修を行う
主な科目:情報ネットワーク論、社会調査実践他など
連絡先 岡山商科大学 〒700-8601(専用番号で届く)
[email protected] (eメール)
http://www.nahaha.org (Web)
検索エンジン 「岡山商科大学 田中潔」で検索
大学電話 086-252-0642
大学FAX 086-255-6947
もしも…研修後に
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり 」(新古今和歌集、
仁徳天皇) 帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる 。
• 大化の改新(645年)によって班田収授の法 。
• 1920(大正9)年10月1日を 期して、第1回
「国勢調査」 。
統計=stat(istics)
•
近代統計学の父ケトレー(コペルニクスに影響)
• 英語で統計または統計学= statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
近代統計学の巨人たち
•
•
•
•
•
•
•
•
1900年ごろに開花
カール・ピアソン 確率統計の帝国を確立
ロナルド・フィツシャー 実験計画法の大成功
エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成
コルモゴルフ 確率論基礎の確立
第2次大戦後の発展
エドワーズ・デミング 産業界の品質管理
ジョン・テューキー(高速フーリエ変換)、エフロン(ブートスト
ラップ法)
• 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、
竹内啓(理論)、佐和隆光(経済)などなど
わが国における小さなコップの戦い
計算機統計学の黎明
• 1975年頃 COMPSTAT(欧州計算機統計会議)に
てVisiCalc(後のExcel)発表
• 1980年頃 九大浅野、広大正法寺、岡大脇本・垂
水、塩野義製薬後藤・武田製薬田中豊(大阪)、統
数研(東京)林、大隈、北大佐藤らによって日本でも
「計算機統計学」機運。科研費プロジェクトNISAN
(ニイサン)始動。
• 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト
• パソコン統計ハンドブック(脇本、垂水、田中豊・潔)
• これ以降、統計処理は「統計パッケージ」の時代へ
あなたはなぜデータ分析を迫られるのか?
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね!
– PCができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外・論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ!
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらないと思う
• 調査では患者ひとり一人は援助できない
•
統計ギライがこの世にまたひとり
統計を使用するステップ
• データの正しい収集法
– 計画的な抽出や正しい質問の作り方
• データの集計方法(標本集団の分析)
– 基礎統計量とクロス表、グラフ化
• データの分析方法(母集団を意識)
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年)
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト(政府統計の窓口)
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング(市場調査)・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
大まかな統計分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
医療分野で
統計的分析が好まれるわけ
• 統計分析の目的: 「目標達成のために満足のできるもので
あれば良しとする接近法」
•
•
•
•
•
•
•
医療で解決すべき課題(目標仮説)
(ここに看護的意味づけが必要)
データで証明する(実現仮説または達成仮説)
つまり、調査や実験の成否判定
(有意になれば良いのではありません。
有意にならないことが大事なときもあります)
仮説設計、データ収集、集計、統計分析の各作業
看護界に「統計」は不要???
• 統計の持つ2つの役割
• 1)国家統計や国勢調査的に
– 社会調査や公衆衛生、疫学調査の視点
– 調査では個人は救えない
• 2)この個人は1)とどう食い違うのか
– 個人=人間共通な部分+個性や個人差
• 1)は厚生省を中心に進め
• 2)は施設を中心に進めるべきもの
看護研究に問われる量か質か
• 量的研究(学部卒レベル)
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究(院レベル)
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院 瀬畠さん
看護研究における統計の立場
2つの視点
• 1つめ: 国家統計の視点
– 自分が「王」となり、対象集団の状況を広く知る、
報告する立場、疫学調査など
– 母集団よりも標本集団をまとめること
• 2つめ: 推測統計的な視点
– 自分の得た標本から母集団を推し量りたい
– 自分は「標本」という実験結果を元に、真の集団
(母集団)にたどり着きたい。真の看護や看護方
式に近づきたい
統計分析にも2つの立場
• 伝統型: 実験的あるいは計画的立場
– 仮説を決める。立証のためのデータ集め
– 分析により仮説を検証(仮説主義)
• 近年型: 探索的立場
– 仮説は立てなくてもよい。1970年代米テュキー提唱。探索的データ
解析とも
– 膨大なデータから新たな発見を
– 流行のビッグデータもこの流儀(データ主義)
• どちらが多い?実験的立場が主流
• 2つの立場を混在した研究はどちらの派からも嫌われる
標本統計量から母集団統計量へ
• 平均など「中心的傾向」代表値
– 理論により、標本の平均値は母集団の平均値を
最も良く推定している
– 標本平均値=母集団平均値 同一
• 標準偏差など「ちらばり」
– 標本標準偏差より母集団標準偏差はやや大きい
– 標本標準偏差<母集団標準偏差
母集団と標本
• 母集団:未知、 標本:既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
悉皆(しっかい)調査(全数調査)
•
•
•
•
母集団の全員が標本として測定されたこと
母集団サイズ=標本サイズ
標本での分析結果がすべて母集団結果
標本を捉えることの意義
– 標本の示す傾向=母集団の中心的な傾向+
個々の誤差
統計解析法の目的
• ○標本が集まった時の「統計」=集計
• データの姿を知る統計
• 記述統計: 平均、標準偏差、分散、グラフ化
• ○集計後の「統計」=統計的分析
• 原因や要因、あるいは影響や判定など決定付ける
• 推定・推測: 標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測: 時系列データから将来を推測
– 方程式を作成する
• 検定・テスト: 比較し判定する、○×効果
• 多変量分析群
– 3つ以上の項目からなるデータを分析する
統計の中の個人・ひとり
•
•
•
•
•
•
•
•
個人(表層へ出現)=
中心的な傾向(未知)+誤差(未知)
この中心的傾向または誤差を把握する。
私は60kg=標準体重+誤差
真理・本質+個性・個人差
標準体重:仮に50kg(平均体重と呼ぶ)
誤差: 60-50=10kg
実は、中心的傾向とは平均値のこと
原因や要因に挑戦する
多変量解析の役割
• ① いろいろな要因によってある項目を予測
したい
• ② 観測された複数の項目から総合的指標
を作りたい
• ③ ものや項目の関係を視覚化したい
• ④ ものや項目を分類したい
• ⑤ 項目間の関係や構造を知りたい
主な多変量解析手法
• 予 測:
– 回帰分析、数量化1・2類、判別分析
• 指 標:
– 回帰分析、数量化1~3類、主成分分析、因子分析
• 視覚化:
– グラフ解析、数量化3・4類、主成分分析
• 分類:
– クラスター分析
• 潜在構造:
– 因子分析、共分散構造分析
統計学は節約する学問
ではありません
• 統計で分析する時の心がまえ、ポリシー
– しばしば質問
• 何サンプルあれば分析できますか?
– 何例まで減らせますか?
• 統計は「全力」な学問です。
– 頑張ってデータを生かしたい。
– 手法のデパートは聞いてて分からない
• 基本的な手法を積み上げること
• 私たち看護がなぜ統計的な視野を必要とす
るか?少しヒントが得られましたか?
• では次に統計を扱うためのいくつかの基礎知
識いや基本マナーを
• (田中研に相談する場合、これらの知識を
持っていると大変話が楽)
データの値: 4つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため 演算は出来ない
– 1.男性 2.女性 度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す 演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量 演算は加減のみ
– ℃(摂氏)、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値 加減乗除可能
– 実験データ全て
情報量大
平均が意味ある場合、ない場合
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好き どれか1つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
データ収集時の最重要事項
• 無作為抽出: 特定の偏りや意図を持たずに、
母集団から標本への抽出を心がける
• 皆さんがよくやる患者さんへのアンケート
• 本当に正しい抽出になっていますか?
• ある処置Aが効果ありか効果なしか?
• よくやる方法
• 来院者は私たちで決められない。だから無作
為と考えていいんだ。本当でしょうか?
本当に無作為?
• そこで2~3月はAなしで行い、4~5月はAありで行
い、2つのグループを分析する
• ことがよく行われています
– だって1患者から1回しか採れない
– 同一人物でも、再現性が期待できない
• しかたがない?
• 本来は、
• 調査期間2~5月として、対象者が追加されるごと
にサイコロで、偶数ならAなし、奇数ならAありで行う
べきではありませんか?
よい仮説とは、収集するデー
タが優れている
• 仮説設計のポイント
– それを立証するためのデータ収集
– データ収集が現実的に可能か?
– データ収集の制限により仮説が目標からずれて
しまっていないか?
• データ研究=仮説+データ収集+分析の三
位一体の「総合芸術」
こんな時どう計画する?
• 例題: ある運動療法Uを行い、その効果を立証した
い
• 仮説: 療法Uは明らかにXを(増)減らせるか?
• データ収集:
• ① 同一被験者の前と後のXを比べる方法(対応あ
りの場合、繰り返し測定)
• ② 前の集団を測定し、後の集団を別々に2群測定
し、2群を比較(対応なし、単独測定)
• ③ U後の集団だけ測定し、その原因を突き止める
(UやXによる変化の立証よりも原因に関心)
データにより分析法も変化
• ① 2群の繰り返しありの有意差検定
• ② 2群の繰り返しなしの有意差検定
• ③ 1群内の項目間の有意差検定
• 分析に目が行きがちだが、データが採られた経緯に
合わせた分析法を考える
• ひとたびデータが採られたら、現象の結論はもう
データの中に眠っています
• 分析の作業とは、眠った結論を掘り起こすこと
エクセル使いなら必需品A1
行側(ギョウソク)と列側(レツソク)
•
•
•
→列側(項目、変数、変量)
行側↓
(ケース)
統計分野はエクセルに似たり
でも言葉が違うケースと項目
•
•
•
•
•
ケースとは1件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→1つの変数
1変数の集計や分析
– 1列ごとに処理するデータ
• 2変数の集計
– 2列ごとに処理
• 多変数の処理
– 3列以上をまとめて処理
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか?
• 答え
• 測定値で影響されます。
– 身長160cmは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字 小数点以下0桁 でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下1桁(2桁目を四捨五入して)で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも1桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
基礎統計について
(比率や間隔尺度の場合)
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やグラフ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ(1変数ごと)の統計分析です
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計を始めるとやたら正規分布が
でてくるのですが
• 自然界の多くの現象は、数多く収集する(度数グラフに集計
する)と正規分布に近くなることが知られています。
• ネイマン流大数の法則。
• 現象には正規分布しないものも多くありますが、合計点など
加えると、極限では正規分布に帰着します。
• 中心極限定理。
• 「標本数を可能な限り集めなさい」は2つの意味で、正当なの
です。
• 統計には2つの立場があります。
– 1)数多く集めたり、加工して正規性に持ち込む派
– 2)正規性を仮定しない分析方法をあみだす派
• 2)がよさそうですが、実は性能は1)を超えられません。分布
系と分析力はトレードオフの関係に。
素データから統計量を求める
概念図
ちらばり(分散や標準偏差)
標本
集団
×
代表値(平均値や中央値)
ボール&スティックモデル
エクセルでは簡単に
基礎統計量を計算できる
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる)
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
=AVERAGE(範囲指定)
=STDEV(範囲)
=MEDIAN(範囲)
=MAX(範囲)
=MIN(範囲)
• 表の度数を求める関数
– 該当数(通常) =COUNT(範囲)または
– 条件付該当数 =COUNTIF(範囲、条件)
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう(1つの項目ずつ)
– これを棒グラフ(ヒストグラム)に描きましょう
– これである1項目の姿が見えてきます
– (全ての測定尺度で可能)
• クロス表(分割表)にまとめましょう(2つの項目ごと)
– 特に2次元クロス表(分割表)は大事
– 2つの項目を同時に表にまとめます
– (特に、順序や名義尺度でも作れます)
統計分析の道のり(再掲)
図は「大まかな統計分析の流れ 4段階」
(前掲を参照)
• 母集団を決める(想像する)、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する(実験や調査)
– 精密でなく正確な回答か?答えやすい用紙?、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ?
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた?
2つの項目の
基礎集計
投げ1のヒストグラム
素データから度数集計してみたら
投げ1と投げ2の2群を書き分ける
12
素データ→度数表→
8
2群別のグラフ
投1度数
投2度数
4
0
20
25
30
35
40
45
50
投げ2
投げ1
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
1項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか?
• 条件とは、女性・男性、学級A、B、C別など
さらに、別の図「散布図」は
2項目の関係図
40
投げ2
30
20
10
10
20
30
投げ1
40
相関という考え方
•
•
•
•
•
•
•
•
2つの項目間の関係性を知りたい
2つの項目は「比例」するか「反比例」するか
比例には正比例と負比例(×反比例)
正の比例・・・片方が2倍→もう一方も2倍
負の比例・・・片方2倍→もう一方-2倍
相関は
正相関=片方が増加→もう片方も増加
負相関=片方が増加→もう片方は減少
(正)相関を目で見る
正負両方の相関程度が知りたい
• 相関係数R
-1~0~1で示す値
よく似た用語を間違えない
•
•
•
•
•
•
•
相関は散布図グラフを連想しましょう
相関係数はその点のシャープさを示す
相関係数が+なら正相関、-なら負相関
相関係数は記号ではRかrで表記
R2やR^2は相関係数を2乗したもの
R2は重相関係数、決定係数とも呼ばれる
R=√R2を計算し相関係数に直すとヨロシ
相関分析の手順
1.関係を知りたい2つの項目(列)を選ぶ
2.この2項目で散布図を描く
3.この図を元に直線回帰を行う
すると
グラフ内には中心直線=回帰直線が引かれ
その方程式と相関係数の2乗R2=重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
(単)回帰分析
•
•
•
•
散布図を描くとX軸とY軸の関係を目視
Y=aX+bという直線関係を考える
XとYはデータとして測定される
傾きaとbを決定すれば、XとYの関係が決まる
係数aとbを求めれば
• 2つの項目XからYを推測できる
• 予測: 測定されていないXについて、Yの予測値を
Y←aX+bで予測可能
単回帰分析のポイント
•
•
•
•
•
•
直線の程度(相関度)はどのくらいか?
傾きaとbを求める
直線の相関性を示す指標 相関係数R
またRの2乗のことを決定係数・重相関係数という
-1<R<+1
経験的にR>0.7で正相関あり、R<-0.7で負相関
あり、-0.7<R<0.7で無・弱相関
• 決定係数なら 0<R<0.5で無・弱相関
• 相関係数の2乗=決定係数・重相関係数>0
求め方例: 散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析の完成
• 回帰直線y=x 相関係数Rの2乗=0.19
• (目安: R2>0.5ならR>0.7なので相関性あり)
40
y=x
R = 0.1859
2
投げ2
30
20
10
10
30
20
投げ1
40
統計ソフトについて
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで
間に合うことも多い。いつまで続くかは不明
• 市販ソフトとしては
• PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。
世界的権威ソフト 新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむね使える
が細かな使い勝手はあまり良くない
• フリーソフト(無料) R 良くできているが上級者でなければ
使いにくい!研究者向け
青木サイト使用の留意点
• 検索エンジン 群馬 青木 → おしゃべりな部屋
• 青木サイトの統計処理の多くには「Java技術」が使
われている
• Javaはサイトで計算処理を行うための仕組みであり
PC購入後各自で導入するもの
• 施設のPCではセキュリティ保護の観点からJavaを
導入していないものもあるので、青木サイトが利用
できない場合がある
• 施設PCで利用できない場合、他の統計パッケージ
やJava導入した個人PCを利用する
• 最近ではスマートホンでも利用可能
検索エンジンで「群馬 青木」で検索
統計サイト「おしゃべりな部屋」
赤い部分から統計分析サイト
「Java」メニューの内容
「JavaScript」メニューの一例
もしもPCでこんなエラーが出たら
あなたのPCのJAVAという仕組みが古
いなどの原因で、警告が出たものです。
「いいえ」を選んでうまく動作すればいい
ですね。
統計計算シートankstat
(アンクスタット)時間があれば紹介
• 田中研究室で開発されたエクセル(バージョ
ンは問わず)専用のシート
• 主に基礎集計や集計を行う。統計解析は実
施しない。
• http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「ankstat」で検索する 。
• 最新は5.09版。
• 最大500ケース×200項目を集計可能
データ入力画面例
(エクセルに同じ)
基礎等計量もらくらく
度数も集計する
「ankstat」で検索
「最新版5.9版」でダウンロード
算術平均の示すもの
•
•
•
•
•
ここに5つのデータ
2、10、1、2、1がある
1
1
2
2
10
• 2+10+1+2+1=16
• 算術平均=16÷5=3.2
• 3.2は5つのデータを表現
する代表値の一種
もう1つの代表値 中央値
• 2、10、1、2、1
•
これを
• 小さい(大きい)順に並
び替える
• 1、1、2、2、10
• この真ん中番目を中央
値(メジアン)と呼ぶ
•
•
•
•
•
この場合中央値=2
これも代表値の1つ
【性質】
中央値は
算術平均よりも極端な
値(極値)に左右されに
くい
• →頑健(ロバスト)な代
表値
• 算術平均3.2 中央値2
2グループの代表値を比べる
•
•
•
•
•
グループA 1,1,2,2,10
グループB 1,1,2,2,20
平均値
A:3.2 B:5.2
この2つに有意な差
があるか?→t検定