1日目2015/2/21

Download Report

Transcript 1日目2015/2/21

スケジュール予定など
•
•
•
•
•
•
1日目 午前
10:00-11:00頃 看護研究と統計学利用
11:00-12:00頃 データ整理とエクセル
昼食
13:00-14:30頃 1項目・2項目の分析
14:30-16:00
回帰分析と相関
研修講師のメモ
• 田中 潔(たなかきよし)
–
–
–
–
–
–
–
–
–
–
略歴: 岡山大、九州大修了後岡山商大へ勤務。教授
岡山県看護協会の研修講師を25年以上歴任
最近は、広島、鳥取、香川県看護協会でも研修を行う
主な科目:計測制御演習、社会調査実践他など
連絡先 岡山商科大学 〒700-8601(専用番号で届く)
[email protected] (eメール)
http://www.nahaha.org (Web)
検索エンジン 「岡山商大 田中」で検索
大学電話 086-252-0642
大学FAX 086-255-6947
もしも…研修後に
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり 」(新古今和歌集、
仁徳天皇) 帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる 。
• 大化の改新(645年)によって班田収授の法 。
• 1920(大正9)年10月1日を 期して、第1回
「国勢調査」 。
統計=stat(istics)
•
近代統計学の父ケトレー(コペルニクスに影響)
• 英語で統計または統計学= statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
近代統計学の巨人たち
•
•
•
•
•
•
•
•
1900年ごろに開花
カール・ピアソン 確率統計の帝国を確立
ロナルド・フィツシャー 実験計画法の大成功
エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成
コルモゴルフ 確率論基礎の確立
第2次大戦後の発展
エドワーズ・デミング 産業界の品質管理
ジョン・テューキー(高速フーリエ変換)、エフロン(ブートスト
ラップ法)
• 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、
竹内啓(理論)、佐和隆光(経済)などなど
わが国における小さなコップの戦い
計算機統計学の黎明
• 1975年頃 COMPSTAT(欧州計算機統計会議)に
てVisiCalc(後のExcel)発表
• 1980年頃 九大浅野、広大正法寺、岡大脇本・垂
水、塩野義製薬後藤・武田製薬田中豊(大阪)、統
数研(東京)林、大隈、北大佐藤らによって日本でも
「計算機統計学」機運。科研費プロジェクトNISAN
(ニイサン)始動。
• 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト
• パソコン統計ハンドブック(脇本、垂水、田中豊・潔)
• これ以降、統計処理は「統計パッケージ」の時代へ
あなたはなぜデータ分析を迫られるのか?
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね!
– PCができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外・論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ!
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらないと思う
• 調査では患者ひとり一人は援助できない
•
統計ギライがこの世にまたひとり
医療分野で
統計的分析が好まれるわけ
• 統計分析の目的: 「目標達成のために満足のできるもので
あれば良しとする接近法」
•
•
•
•
•
•
•
医療で解決すべき課題(目標仮説)
(ここに看護的意味づけが必要)
データで証明する(実現仮説または達成仮説)
つまり、調査や実験の成否判定
(有意になれば良いのではありません。
有意にならないことが大事なときもあります)
仮説設計、データ収集、集計、統計分析の各作業
大まかな統計分析の流れ 4段階
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
t検定やカイ2乗検定結果(有意かどうか)
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年)
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト(政府統計の窓口)
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング(市場調査)・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
看護研究に問われる量か質か
• 量的研究(学部卒レベル)
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究(院レベル)
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院 瀬畠さん
統計分析にも2つの立場
• 伝統型: 実験的あるいは計画的立場
– 仮説を決める。立証のためのデータ集め
– 分析により仮説を検証(仮説主義)
• 近年型: 探索的立場
– 仮説は立てなくてもよい。1970年代米テュキー提唱。探索的データ
解析とも
– 膨大なデータから新たな発見を
– 流行のビッグデータもこの流儀(データ主義)
• どちらが多い?実験的立場が主流
• 2つの立場を混在した研究はどちらの派からも嫌われる
標本統計量から母集団統計量へ
• 平均など「中心的傾向」代表値
– 理論により、標本の平均値は母集団の平均値を
最も良く推定している
– 標本平均値=母集団平均値 同一
• 標準偏差など「ちらばり」
– 標本標準偏差より母集団標準偏差はやや大きい
– 標本標準偏差<母集団標準偏差
母集団と標本
• 母集団:未知、 標本:既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団:未知
無作為
抽出
標本・サンプル
既知:データ分析の対象
未知または既知
標本は分析できる
悉皆(しっかい)調査(全数調査)
•
•
•
•
母集団の全員が標本として測定されたこと
母集団サイズ=標本サイズ
標本での分析結果がすべて母集団結果
標本を捉えることの意義
– 標本の示す傾向=母集団の中心的な傾向+
個々の誤差
統計を使用するステップ
• データの正しい収集法
– 計画的な抽出や正しい質問の作り方
• データの集計方法(標本集団の分析)
– 基礎統計量とクロス表、グラフ化
• データの分析方法(母集団を意識)
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
データ分析の概観
• 問題・課題設定→「仮説」設定
– 科学は「否定」は明確。「肯定」は困難
– 目標(最終)となる仮説: 目標仮説
– 当面の仮説: 戦略目標(統計分析の「仮説」)
• データの収集、計測
– アンケート用紙設計や調査立案
• データの入力と整理、クリーニング・修正
• 標本に対する統計分析
• 母集団に対する統計分析
もっと具体的に述べると
•
•
•
•
仮説設定や測定→人間・あなた
データを目的に合った形で集める(標本データ獲得)
データ入力→エクセルに整理する
エクセルデータで標本統計を分析
– 慣れてきたらankstatシートも活用すれば便利かも
– 集計・グラフ・基礎統計など(集めた標本の姿を確認)
• 母集団に対する統計分析
– 回帰分析、検定あるいは多変量解析がおも
– 今回集めた標本だけでなく母集団でどうなのかの検討
– 統計ソフトやWeb活用
統計解析法の目的
• ○標本が集まった時の「統計」=集計
• データの姿を知る統計
• 記述統計: 平均、標準偏差、分散、グラフ化
• ○集計後の「統計」=統計的分析
• 原因や要因、あるいは影響や判定など決定付ける
• 推定・推測: 標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測: 時系列データから将来を推測
– 方程式を作成する
• 検定・テスト: 比較し判定する、○×効果
• 多変量分析群
– 3つ以上の項目からなるデータを分析する
主な多変量解析手法
• 予 測:
– 回帰分析、数量化1・2類、判別分析
• 指 標:
– 回帰分析、数量化1~3類、主成分分析、因子分析
• 視覚化:
– グラフ解析、数量化3・4類、主成分分析
• 分類:
– クラスター分析
• 潜在構造:
– 因子分析、共分散構造分析
統計の中の個人・ひとり
•
•
•
•
•
•
•
•
個人(表層へ出現)=
中心的な傾向(未知)+誤差(未知)
この中心的傾向または誤差を把握する。
私は60kg=標準体重+誤差
真理・本質+個性・個人差
標準体重:仮に50kg(平均体重と呼ぶ)
誤差: 60-50=10kg
実は、中心的傾向とは平均値のこと
統計学は節約する学問
ではありません
• 統計で分析する時の心がまえ、ポリシー
– しばしば質問
• 何サンプルあれば分析できますか?
– 何例まで減らせますか?
• 統計は「全力」な学問です。
– 頑張ってデータを生かしたい。
– 手法のデパートは聞いてて分からない
• 基本的な手法を積み上げること
データの値: 4つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため 演算は出来ない
– 1.男性 2.女性 度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す 演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量 演算は加減のみ
– ℃(摂氏)、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値 加減乗除可能
– 実験データ全て
情報量大
平均が意味ある場合、ない場合
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好き どれか1つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
データ収集時の最重要事項
• 無作為抽出: 特定の偏りや意図を持たずに、
母集団から標本への抽出を心がける
• 皆さんがよくやる患者さんへのアンケート
• 本当に正しい抽出になっていますか?
• ある処置Aが効果ありか効果なしか?
• よくやる方法
• 来院者は私たちで決められない。だから無作
為と考えていいんだ。本当でしょうか?
本当に無作為?
• そこで2~3月はAなしで行い、4~5月はAありで行
い、2つのグループを分析する
• ことがよく行われています
– だって1患者から1回しか採れない
– 同一人物でも、再現性が期待できない
• しかたがない?
• 本来は、
• 調査期間2~5月として、対象者が追加されるごと
にサイコロで、偶数ならAなし、奇数ならAありで行う
べきではありませんか?
よい仮説とは、収集するデー
タが優れている
• 仮説設計のポイント
– それを立証するためのデータ収集
– データ収集が現実的に可能か?
– データ収集の制限により仮説が目標からずれて
しまっていないか?
• データ研究=仮説+データ収集+分析の三
位一体の「総合芸術」
こんな時どう計画する?
• 例題: ある運動療法Uを行い、その効果を立証した
い
• 仮説: 療法Uは明らかにXを(増)減らせるか?
• データ収集:
• ① 同一被験者の前と後のXを比べる方法(対応あ
りの場合、繰り返し測定)
• ② 前の集団を測定し、後の集団を別々に2群測定
し、2群を比較(対応なし、単独測定)
• ③ U後の集団だけ測定し、その原因を突き止める
(UやXによる変化の立証よりも原因に関心)
データにより分析法も変化
• ① 2群の繰り返しありの有意差検定
• ② 2群の繰り返しなしの有意差検定
• ③ 1群内の項目間の有意差検定
• 分析に目が行きがちだが、データが採られた経緯に
合わせた分析法を考える
• ひとたびデータが採られたら、現象の結論はもう
データの中に眠っています
• 分析の作業とは、眠った結論を掘り起こすこと
エクセル使いなら必需品A1
行側(ギョウソク)と列側(レツソク)
•
•
•
→列側(項目、変数、変量)
行側↓
(ケース)
統計分野はエクセルに似たり
でも言葉が違うケースと項目
•
•
•
•
•
ケースとは1件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→1つの変数
1変数の集計や分析
– 1列ごとに処理するデータ
• 2変数の集計
– 2列ごとに処理
• 多変数の処理
– 3列以上をまとめて処理
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか?
• 答え
• 測定値で影響されます。
– 身長160cmは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字 小数点以下0桁 でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下1桁(2桁目を四捨五入して)で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも1桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
基礎統計について
(比率や間隔尺度の場合)
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やグラフ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ(1変数ごと)の統計分析です
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計を始めるとやたら正規分布が
でてくるのですが
• 自然界の多くの現象は、数多く収集する(度数グラフに集計
する)と正規分布に近くなることが知られています。
• ネイマン流大数の法則。
• 現象には正規分布しないものも多くありますが、合計点など
加えると、極限では正規分布に帰着します。
• 中心極限定理。
• 「標本数を可能な限り集めなさい」は2つの意味で、正当なの
です。
• 統計には2つの立場があります。
– 1)数多く集めたり、加工して正規性に持ち込む派
– 2)正規性を仮定しない分析方法をあみだす派
• 2)がよさそうですが、実は性能は1)を超えられません。分布
系と分析力はトレードオフの関係に。
素データから統計量を求める
概念図
ちらばり(分散や標準偏差)
標本
集団
×
代表値(平均値や中央値)
ボール&スティックモデル
エクセルでは簡単に
基礎統計量を計算できる
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる)
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
=AVERAGE(範囲指定)
=STDEV(範囲)
=MEDIAN(範囲)
=MAX(範囲)
=MIN(範囲)
• 表の度数を求める関数
– 該当数(通常) =COUNT(範囲)または
– 条件付該当数 =COUNTIF(範囲、条件)
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう(1つの項目ずつ)
– これを棒グラフ(ヒストグラム)に描きましょう
– これである1項目の姿が見えてきます
– (全ての測定尺度で可能)
• クロス表(分割表)にまとめましょう(2つの項目ごと)
– 特に2次元クロス表(分割表)は大事
– 2つの項目を同時に表にまとめます
– (特に、順序や名義尺度でも作れます)
統計分析の道のり(再掲)
図は「大まかな統計分析の流れ 4段階」
(前掲を参照)
• 母集団を決める(想像する)、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する(実験や調査)
– 精密でなく正確な回答か?答えやすい用紙?、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ?
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた?
2つの項目の
基礎集計
投げ1のヒストグラム
素データから度数集計してみたら
投げ1と投げ2の2群を書き分ける
12
素データ→度数表→
8
2群別のグラフ
投1度数
投2度数
4
0
20
25
30
35
40
45
50
投げ2
投げ1
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
1項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか?
• 条件とは、女性・男性、学級A、B、C別など
データ入力や集計に役立つエクセルシート
統計計算シートankstat(アンクスタット)時間があれば
• 田中研究室で開発されたエクセル(バージョ
ンは問わず)専用のシート
• 主に基礎集計や集計を行う。統計解析は実
施しない
– http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「アンクスタット」か「anksta
t」で検索する 。最新は5.03版
• 最大500ケース×200項目を集計可能
「ankstat」で検索
アンクスタットankstatや研修資料は
「岡山商大 田中」サイトから
さらに進むと…
シートankstatの入力シート
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
(%表示も可能)を算出
「最新版5.9版」でダウンロード
データ入力画面例
(エクセルに同じ)
基礎等計量もらくらく
度数も集計する
1項目ずつの分析から2項目の分析へ
ボール投げデータ 15x2ball.xls
15人がボール投げを2回
ケース数15、項目数 2
あるクラスでボール投げを
行った。1人につき2回ずつ投
げ、その距離(m)を記録した
(左表)。
15×2のデータ、繰り返しあり
2項目データは、グラフ化する
ことが可能
「散布図」は2項目の関係図
40
投げ2
30
20
10
10
20
30
投げ1
40
相関という考え方
•
•
•
•
•
•
•
•
2つの項目間の関係性を知りたい
2つの項目は「比例」するか「反比例」するか
比例には正比例と負比例(×反比例)
正の比例・・・片方が2倍→もう一方も2倍
負の比例・・・片方2倍→もう一方-2倍
相関は
正相関=片方が増加→もう片方も増加
負相関=片方が増加→もう片方は減少
(正)相関を目で見る
正負両方の相関程度が知りたい
• 相関係数R
-1~0~1で示す値
よく似た用語を間違えない
•
•
•
•
•
•
•
相関は散布図グラフを連想しましょう
相関係数はその点のシャープさを示す
相関係数が+なら正相関、-なら負相関
相関係数は記号ではRかrで表記
R2やR^2は相関係数を2乗したもの
R2は重相関係数、決定係数とも呼ばれる
R=√R2を計算し相関係数に直すとヨロシ
相関分析の手順
1.関係を知りたい2つの項目(列)を選ぶ
2.この2項目で散布図を描く
3.この図を元に直線回帰を行う
すると
グラフ内には中心直線=回帰直線が引かれ
その方程式と相関係数の2乗R2=重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
(単)回帰分析
•
•
•
•
散布図を描くとX軸とY軸の関係を目視
Y=aX+bという直線関係を考える
XとYはデータとして測定される
傾きaとbを決定すれば、XとYの関係が決まる
係数aとbを求めれば
• 2つの項目XからYを推測できる
• 予測: 測定されていないXについて、Yの予測値を
Y←aX+bで予測可能
単回帰分析のポイント
•
•
•
•
•
•
直線の程度(相関度)はどのくらいか?
傾きaとbを求める
直線の相関性を示す指標 相関係数R
またRの2乗のことを決定係数・重相関係数という
-1<R<+1
経験的にR>0.7で正相関あり、R<-0.7で負相関
あり、-0.7<R<0.7で無・弱相関
• 決定係数なら 0<R<0.5で無・弱相関
• 相関係数の2乗=決定係数・重相関係数>0
求め方例: 散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析の完成
• 回帰直線y=x 相関係数Rの2乗=0.19
• (目安: R2>0.5ならR>0.7なので相関性あり)
40
y=x
R = 0.1859
2
投げ2
30
20
10
10
30
20
投げ1
40