1日目2015/2/21

Transcript 1日目2015/2/21

スケジュール予定など
•
•
•
•
•
•
１日目午前
10:00-11:00頃看護研究と統計学利用
11:00-12:00頃データ整理とエクセル
昼食
13:00-14:30頃１項目・２項目の分析
14:30-16:00
回帰分析と相関
研修講師のメモ
• 田中潔（たなかきよし）
–
–
–
–
–
–
–
–
–
–
略歴：岡山大、九州大修了後岡山商大へ勤務。教授
岡山県看護協会の研修講師を25年以上歴任
最近は、広島、鳥取、香川県看護協会でも研修を行う
主な科目：計測制御演習、社会調査実践他など
連絡先岡山商科大学〒700-8601（専用番号で届く）
[email protected] （ｅメール）
http://www.nahaha.org (Web)
検索エンジン「岡山商大田中」で検索
大学電話 086-252-0642
大学FAX 086-255-6947
もしも…研修後に
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話Ｆ
ＡＸは086-284-7726（自宅）でも可能。
• 相談の「三種の神器」：看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル（すでにあれば）
• 遠方の場合メールだけで指導する場合もある
（PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能）
「統計」のことば始め
• 「高き屋にのぼりて見れば煙けぶり立つ民の
かまどはにぎはひにけり」（新古今和歌集、
仁徳天皇）帝王の学問
• 最も古いのはBC3800年代バビロン王朝で行
われ、約BC3000年エジプトや中国などで見
られる。
• 大化の改新（645年）によって班田収授の法。
• 1920（大正９）年10月１日を期して、第１回
「国勢調査」。
統計＝ｓｔａｔ(istics)
•
近代統計学の父ケトレー(コペルニクスに影響）
• 英語で統計または統計学＝ statistics。
• 語源はラテン語で「状態」を意味するstatisticum 。
• イタリア語で「国家」を意味するようになり、国家の人力、財
力等といった国勢データを比較検討する学問。
• さらに費用対効果から、必要最低限度の数を調査して、そ
の場合の精度が、「目標達成のために満足のできるもので
あれば良しとする接近法」が考案される。⇒現代の「統計
学」の基本原理
• 推測統計学(stochastics)。
近代統計学の巨人たち
•
•
•
•
•
•
•
•
1900年ごろに開花
カール・ピアソン確率統計の帝国を確立
ロナルド・フィツシャー実験計画法の大成功
エゴン・ピアソンとイェジー・ネイマン仮説検定法の完成
コルモゴルフ確率論基礎の確立
第２次大戦後の発展
エドワーズ・デミング産業界の品質管理
ジョン・テューキー（高速フーリエ変換）、エフロン（ブートスト
ラップ法）
• 戦後の日本では、林知己夫（数量化）、赤池弘次、（AIC）、
竹内啓（理論）、佐和隆光（経済）などなど
わが国における小さなコップの戦い
計算機統計学の黎明
• 1975年頃 COMPSTAT（欧州計算機統計会議）に
てVisiCalc（後のExcel）発表
• 1980年頃九大浅野、広大正法寺、岡大脇本・垂
水、塩野義製薬後藤・武田製薬田中豊（大阪）、統
数研（東京）林、大隈、北大佐藤らによって日本でも
「計算機統計学」機運。科研費プロジェクトNISAN
（ニイサン）始動。
• 1985年頃SPSS日本版上陸。垂水・田中潔ｱﾙﾊﾞｲﾄ
• パソコン統計ハンドブック（脇本、垂水、田中豊・潔）
• これ以降、統計処理は「統計パッケージ」の時代へ
あなたはなぜデータ分析を迫られるのか？
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね！
– ＰＣができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外･論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ！
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらないと思う
• 調査では患者ひとり一人は援助できない
•
統計ギライがこの世にまたひとり
医療分野で
統計的分析が好まれるわけ
• 統計分析の目的：「目標達成のために満足のできるもので
あれば良しとする接近法」
•
•
•
•
•
•
•
医療で解決すべき課題（目標仮説）
（ここに看護的意味づけが必要）
データで証明する（実現仮説または達成仮説）
つまり、調査や実験の成否判定
（有意になれば良いのではありません。
有意にならないことが大事なときもあります）
仮説設計、データ収集、集計、統計分析の各作業
大まかな統計分析の流れ４段階
•
•
•
•
•
母集団（未知であり不可視）
標本（可視）
データの収集
アンケート調査
無作為抽出
•
•
•
集計
データ集計
推定・検定
統計解析
平均値やクロス表
基礎統計量や集計表
ｔ検定やカイ２乗検定結果（有意かどうか）
•
•
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく(2010年は調査年）
http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト（政府統計の窓口）
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング（市場調査）・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模、実験データ
看護研究に問われる量か質か
• 量的研究（学部卒レベル）
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究（院レベル）
– インタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院瀬畠さん
統計分析にも２つの立場
• 伝統型：実験的あるいは計画的立場
– 仮説を決める。立証のためのデータ集め
– 分析により仮説を検証（仮説主義）
• 近年型：探索的立場
– 仮説は立てなくてもよい。1970年代米テュキー提唱。探索的データ
解析とも
– 膨大なデータから新たな発見を
– 流行のビッグデータもこの流儀（データ主義）
• どちらが多い？実験的立場が主流
• ２つの立場を混在した研究はどちらの派からも嫌われる
標本統計量から母集団統計量へ
• 平均など「中心的傾向」代表値
– 理論により、標本の平均値は母集団の平均値を
最も良く推定している
– 標本平均値＝母集団平均値同一
• 標準偏差など「ちらばり」
– 標本標準偏差より母集団標準偏差はやや大きい
– 標本標準偏差＜母集団標準偏差
母集団と標本
• 母集団：未知、標本：既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団：未知
無作為
抽出
標本・サンプル
既知：データ分析の対象
未知または既知
標本は分析できる
悉皆（しっかい）調査（全数調査）
•
•
•
•
母集団の全員が標本として測定されたこと
母集団サイズ＝標本サイズ
標本での分析結果がすべて母集団結果
標本を捉えることの意義
– 標本の示す傾向＝母集団の中心的な傾向＋
個々の誤差
統計を使用するステップ
• データの正しい収集法
– 計画的な抽出や正しい質問の作り方
• データの集計方法（標本集団の分析）
– 基礎統計量とクロス表、グラフ化
• データの分析方法（母集団を意識）
– 検定、回帰・相関、因子分析など多変量解析法
• 統計分析、データ分析、データ科学、
• データマイニングなど呼び方はさまざま
データ分析の概観
• 問題・課題設定→「仮説」設定
– 科学は「否定」は明確。「肯定」は困難
– 目標（最終）となる仮説：目標仮説
– 当面の仮説：戦略目標（統計分析の「仮説」）
• データの収集、計測
– アンケート用紙設計や調査立案
• データの入力と整理、クリーニング・修正
• 標本に対する統計分析
• 母集団に対する統計分析
もっと具体的に述べると
•
•
•
•
仮説設定や測定→人間・あなた
データを目的に合った形で集める（標本データ獲得）
データ入力→エクセルに整理する
エクセルデータで標本統計を分析
– 慣れてきたらankstatシートも活用すれば便利かも
– 集計・グラフ・基礎統計など（集めた標本の姿を確認）
• 母集団に対する統計分析
– 回帰分析、検定あるいは多変量解析がおも
– 今回集めた標本だけでなく母集団でどうなのかの検討
– 統計ソフトやＷｅｂ活用
統計解析法の目的
• ○標本が集まった時の「統計」＝集計
• データの姿を知る統計
• 記述統計：平均、標準偏差、分散、グラフ化
• ○集計後の「統計」＝統計的分析
• 原因や要因、あるいは影響や判定など決定付ける
• 推定・推測：標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測：時系列データから将来を推測
– 方程式を作成する
• 検定・テスト：比較し判定する、○×効果
• 多変量分析群
– ３つ以上の項目からなるデータを分析する
主な多変量解析手法
• 予測：
– 回帰分析、数量化１・２類、判別分析
• 指標：
– 回帰分析、数量化１～３類、主成分分析、因子分析
• 視覚化：
– グラフ解析、数量化３・４類、主成分分析
• 分類：
– クラスター分析
• 潜在構造：
– 因子分析、共分散構造分析
統計の中の個人・ひとり
•
•
•
•
•
•
•
•
個人（表層へ出現）＝
中心的な傾向（未知）＋誤差（未知）
この中心的傾向または誤差を把握する。
私は60ｋｇ＝標準体重＋誤差
真理・本質＋個性・個人差
標準体重：仮に50ｋｇ（平均体重と呼ぶ）
誤差： 60-50＝10ｋｇ
実は、中心的傾向とは平均値のこと
統計学は節約する学問
ではありません
• 統計で分析する時の心がまえ、ポリシー
– しばしば質問
• 何サンプルあれば分析できますか？
– 何例まで減らせますか？
• 統計は「全力」な学問です。
– 頑張ってデータを生かしたい。
– 手法のデパートは聞いてて分からない
• 基本的な手法を積み上げること
データの値：４つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため演算は出来ない
– 1.男性 2.女性度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量演算は加減のみ
– ℃（摂氏）、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値加減乗除可能
– 実験データ全て
情報量大
平均が意味ある場合、ない場合
• 比率や間隔尺度
– 身長160,170,180 平均は170cm ◎
• 順序尺度
– 1.嫌い 2.まあまあ 3.好きどれか１つ選ぶ
– 回答 2,1,1,3,3,3,2 合計15 平均2.1 △
• 名義尺度
– 1.品数 2.一ヶ所で買える 3.駐車場 4.その他
– この場合平均は求められません→集計へ ×
データ収集時の最重要事項
• 無作為抽出：特定の偏りや意図を持たずに、
母集団から標本への抽出を心がける
• 皆さんがよくやる患者さんへのアンケート
• 本当に正しい抽出になっていますか？
• ある処置Ａが効果ありか効果なしか？
• よくやる方法
• 来院者は私たちで決められない。だから無作
為と考えていいんだ。本当でしょうか？
本当に無作為？
• そこで２～３月はＡなしで行い、４～５月はＡありで行
い、２つのグループを分析する
• ことがよく行われています
– だって１患者から１回しか採れない
– 同一人物でも、再現性が期待できない
• しかたがない？
• 本来は、
• 調査期間２～５月として、対象者が追加されるごと
にサイコロで、偶数ならＡなし、奇数ならＡありで行う
べきではありませんか？
よい仮説とは、収集するデー
タが優れている
• 仮説設計のポイント
– それを立証するためのデータ収集
– データ収集が現実的に可能か？
– データ収集の制限により仮説が目標からずれて
しまっていないか？
• データ研究＝仮説+データ収集＋分析の三
位一体の「総合芸術」
こんな時どう計画する？
• 例題：ある運動療法Uを行い、その効果を立証した
い
• 仮説：療法Uは明らかにXを（増）減らせるか？
• データ収集：
• ① 同一被験者の前と後のＸを比べる方法（対応あ
りの場合、繰り返し測定）
• ② 前の集団を測定し、後の集団を別々に２群測定
し、２群を比較（対応なし、単独測定）
• ③ Ｕ後の集団だけ測定し、その原因を突き止める
（ＵやＸによる変化の立証よりも原因に関心）
データにより分析法も変化
• ① ２群の繰り返しありの有意差検定
• ② ２群の繰り返しなしの有意差検定
• ③ １群内の項目間の有意差検定
• 分析に目が行きがちだが、データが採られた経緯に
合わせた分析法を考える
• ひとたびデータが採られたら、現象の結論はもう
データの中に眠っています
• 分析の作業とは、眠った結論を掘り起こすこと
エクセル使いなら必需品A1
行側（ｷﾞｮｳｿｸ）と列側（ﾚﾂｿｸ）
•
•
•
→列側（項目、変数、変量）
行側↓
（ケース）
統計分野はエクセルに似たり
でも言葉が違うケースと項目
•
•
•
•
•
ケースとは１件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→１つの変数
１変数の集計や分析
– １列ごとに処理するデータ
• ２変数の集計
– ２列ごとに処理
• 多変数の処理
– ３列以上をまとめて処理
入力したデータ
データ収集の時、気づかうこと
有効数字について
• 計算結果を小数点何桁まで取るべきか？
• 答え
• 測定値で影響されます。
– 身長160ｃｍは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字小数点以下0桁でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下１桁（２桁目を四捨五入して）で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも１桁多く
収集データの欠席扱いとは
欠測値について
• 計測されなかった、計測できなかった値・回答
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
基礎統計について
（比率や間隔尺度の場合）
• 基礎、キソと軽んじてはいけません。
• この基礎統計からデータの概要を思い浮か
べることが、解明の第一歩
• 基礎統計量算出やｸﾞﾗﾌ書きは地味ですが、
• 多くの発表はこれで決まります。
• 項目ずつ（１変数ごと）の統計分析です
最初のデータ分析
• 記述または基礎統計量
とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
統計を始めるとやたら正規分布が
でてくるのですが
• 自然界の多くの現象は、数多く収集する（度数グラフに集計
する）と正規分布に近くなることが知られています。
• ネイマン流大数の法則。
• 現象には正規分布しないものも多くありますが、合計点など
加えると、極限では正規分布に帰着します。
• 中心極限定理。
• 「標本数を可能な限り集めなさい」は２つの意味で、正当なの
です。
• 統計には２つの立場があります。
– １）数多く集めたり、加工して正規性に持ち込む派
– ２）正規性を仮定しない分析方法をあみだす派
• 2）がよさそうですが、実は性能は１）を超えられません。分布
系と分析力はトレードオフの関係に。
素データから統計量を求める
概念図
ちらばり（分散や標準偏差）
標本
集団
×
代表値（平均値や中央値）
ボール＆スティックモデル
エクセルでは簡単に
基礎統計量を計算できる
• 関数をセルに挿入で求める
• ○○値を求める関数(名前知らなくても利用できる）
–
–
–
–
–
平均
標準偏差
中央値
最大値
最小値
＝ＡＶＥＲＡＧＥ（範囲指定）
＝ＳＴＤＥＶ（範囲）
＝ＭＥＤＩＡＮ（範囲）
＝ＭＡＸ（範囲）
＝ＭＩＮ（範囲）
• 表の度数を求める関数
– 該当数（通常）＝COUNT(範囲）または
– 条件付該当数＝ＣＯＵＮＴＩＦ（範囲、条件）
名義や順序尺度の場合、基礎統計量
はあまり意味を持ちません。
集計しましょう
• 度数分布表を作りましょう（１つの項目ずつ）
– これを棒グラフ（ヒストグラム）に描きましょう
– これである１項目の姿が見えてきます
– （全ての測定尺度で可能）
• クロス表（分割表）にまとめましょう（２つの項目ごと）
– 特に２次元クロス表（分割表）は大事
– ２つの項目を同時に表にまとめます
– （特に、順序や名義尺度でも作れます）
統計分析の道のり（再掲）
図は「大まかな統計分析の流れ４段階」
（前掲を参照）
• 母集団を決める（想像する）、仮説を決める
– 見えないけれど、どんな現象集団
• 標本集団を収集する（実験や調査）
– 精密でなく正確な回答か？答えやすい用紙？、回収率
• 分析に合うよう素データの加工や集計
– 度数表、基礎等計量、グラフ、クロス表など
– 仮説をうらづけるグラフ？
• 統計手法で分析する
– 種々の統計解析法、仮説を説明できた？
２つの項目の
基礎集計
投げ１のヒストグラム
素データから度数集計してみたら
投げ１と投げ２の２群を書き分ける
12
素データ→度数表→
8
２群別のグラフ
投１度数
投2度数
4
0
20
25
30
35
40
45
50
投げ２
投げ１
グラフは統計分析の設計図
•
•
•
•
•
最初のうちは、グラフ化することがとても大事
図中には、実は分析結果が見えています。
１項目の現象には
棒グラフか折れ線グラフがしばしば。
大切なことは、条件によりグラフを書き分けて
いますか？
• 条件とは、女性・男性、学級Ａ、Ｂ、Ｃ別など
データ入力や集計に役立つエクセルシート
統計計算シートａｎｋｓｔａｔ（アンクスタット）時間があれば
• 田中研究室で開発されたエクセル（バージョ
ンは問わず）専用のシート
• 主に基礎集計や集計を行う。統計解析は実
施しない
– http://www.osu.ac.jp/~tanaka/ankstat/
• 検索エンジンにて「アンクスタット」か「ａｎｋｓｔａ
ｔ」で検索する。最新は5.03版
• 最大500ケース×200項目を集計可能
「ankstat」で検索
アンクスタットａｎｋｓｔａｔや研修資料は
「岡山商大田中」サイトから
さらに進むと…
シートａnkstatの入力シート
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
（％表示も可能）を算出
「最新版５．９版」でダウンロード
データ入力画面例
（エクセルに同じ）
基礎等計量もらくらく
度数も集計する
１項目ずつの分析から２項目の分析へ
ボール投げデータ 15x2ball.xls
15人がボール投げを２回
ケース数15、項目数 2
あるクラスでボール投げを
行った。１人につき２回ずつ投
げ、その距離（ｍ）を記録した
（左表）。
15×2のデータ、繰り返しあり
２項目データは、グラフ化する
ことが可能
「散布図」は２項目の関係図
40
投げ２
30
20
10
10
20
30
投げ１
40
相関という考え方
•
•
•
•
•
•
•
•
２つの項目間の関係性を知りたい
２つの項目は「比例」するか「反比例」するか
比例には正比例と負比例（×反比例）
正の比例・・・片方が２倍→もう一方も２倍
負の比例・・・片方２倍→もう一方-２倍
相関は
正相関＝片方が増加→もう片方も増加
負相関＝片方が増加→もう片方は減少
（正）相関を目で見る
正負両方の相関程度が知りたい
• 相関係数R
-1～0～1で示す値
よく似た用語を間違えない
•
•
•
•
•
•
•
相関は散布図グラフを連想しましょう
相関係数はその点のシャープさを示す
相関係数が＋なら正相関、－なら負相関
相関係数は記号ではRかrで表記
R2やR^2は相関係数を２乗したもの
R2は重相関係数、決定係数とも呼ばれる
R＝√R2を計算し相関係数に直すとヨロシ
相関分析の手順
１．関係を知りたい２つの項目（列）を選ぶ
２．この２項目で散布図を描く
３．この図を元に直線回帰を行う
すると
グラフ内には中心直線＝回帰直線が引かれ
その方程式と相関係数の２乗R2＝重相関係数
が表示される
これら一連の分析を単回帰分析と呼ぶ
（単）回帰分析
•
•
•
•
散布図を描くとＸ軸とＹ軸の関係を目視
Ｙ＝ａＸ＋ｂという直線関係を考える
ＸとＹはデータとして測定される
傾きａとｂを決定すれば、ＸとＹの関係が決まる
係数ａとｂを求めれば
• ２つの項目ＸからＹを推測できる
• 予測：測定されていないＸについて、Ｙの予測値を
Ｙ←ａＸ＋ｂで予測可能
単回帰分析のポイント
•
•
•
•
•
•
直線の程度（相関度）はどのくらいか？
傾きａとｂを求める
直線の相関性を示す指標相関係数Ｒ
またＲの２乗のことを決定係数・重相関係数という
－１＜Ｒ＜＋１
経験的にＲ＞0.7で正相関あり、Ｒ＜－0.7で負相関
あり、-0.7＜Ｒ＜0.7で無・弱相関
• 決定係数なら 0＜Ｒ＜0.5で無・弱相関
• 相関係数の２乗＝決定係数・重相関係数＞0
求め方例：散布図からエクセルで
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析の完成
• 回帰直線ｙ＝ｘ相関係数Ｒの2乗＝0.19
• （目安： R2＞0.5ならR>0.7なので相関性あり）
40
y=x
R = 0.1859
2
投げ２
30
20
10
10
30
20
投げ１
40

1日目2015/2/21

Transcript 1日目2015/2/21

Directory