How to face MY data

Download Report

Transcript How to face MY data

Statistical Genetics
11 How to face MY data
Graduate School of Medicine
Kyoto University
2008/09/17-25
IMS-UT
Ryo Yamada
本日の構成
• 『遺伝統計学・統計遺伝学』という少し特殊な
領域と無縁なヒトにも、役に立つ統計の話し
• 『遺伝統計学・統計遺伝学とは』
統計学とは
• 統計学は、経験的に得られたバラツキのある
データから、応用数学の手法を用いて数値上
の性質や規則性あるいは不規則性を見いだ
す。統計的手法は、実験計画、データの要約
や解釈を行う上での根拠を提供する学問で
あり、幅広い分野で応用されている。
出典: フリー百科事典『ウィキペディア(Wikipedia)』
~医科学のための情報生命学~
• 生物統計学
• 医療統計学
• 遺伝統計学
いわゆる統計学
•
•
•
•
•
•
•
•
•
•
•
第1章 確率の基礎
第2章 線形モデルと最小二乗法
第3章 実験データの分析
第4章 最尤法
第5章 適合度検定
第6章 検定と標本の大きさ
第7章 分布の仮定
第8章 質的データ統計的分析
第9章 ベイズ決定
第10章 確率過程の基礎
第11章 乱数の性質
生物統計学
•
•
•
•
•
•
•
•
•
•
第1章 データの記述
第2章 確率と確率分布
第3章 いろいろな確率分布
第4章 推定
第5章 検定
第6章 分散分析
第7章 回帰分析
第8章 サンプリング
第9章 ノンパラメトリック検定
第10章 統計モデルと推測
医療統計学
•
•
•
•
•
•
•
•
•
•
•
•
第1章 基礎
第2章 確率と分布
第3章 記述統計とグラフ
第4章 1標本または2標本の検定--t検定およびWilcoxon検定-第5章 回帰と相関
第6章 分散分析とKruskal-Wallis検定
第7章 分割表データ
第8章 検出力および標本の大きさの計算
第9章 重回帰分析
第10章 線形モデル
第11章 ロジスティック回帰分析
第12章 生存分析
遺伝統計学
•
•
•
•
•
•
•
•
•
•
•
•
•
第1章 遺伝統計学と数理統計学
第2章 染色体とゲノム情報
第3章 細胞分裂とゲノム情報の継承
第4章 遺伝継承法則
第5章 複雑な形質の遺伝
第6章 集団と遺伝的多型
第7章 ハプロタイプと連鎖不平衡解析
第8章 連鎖不平衡を用いた関連解析
第9章 連鎖解析の基礎
第10章 パラメトリック連鎖解析
第11章 ノンパラメトリック連鎖解析
第12章 量的表現型
第13章 研究のデザイニング
いわゆる統計学
生物統計学
医療統計学
確率の基礎
線形モデルと最小二
乗法
実験データの分析
最尤法
適合度検定
検定と標本の大きさ
分布の仮定
質的データ統計的分
析
ベイズ決定
確率過程の基礎
乱数の性質
データの記述
基礎
確率と確率分布
確率と分布
いろいろな確率分布 記述統計とグラ
フ
推定
1標本または2標
検定
本の検定--t
分散分析
検定および
回帰分析
Wilcoxon検
サンプリング
定-ノンパラメトリック検 回帰と相関
定
分散分析と
Kruskal統計モデルと推測
Wallis検定
分割表データ
検出力および標
本の大きさ
の計算
重回帰分析
線形モデル
ロジスティック回
帰分析
生存分析
遺伝統計学
遺伝統計学と数理
統計学
染色体とゲノム情報
細胞分裂とゲノム情
報の継承
遺伝継承法則
複雑な形質の遺伝
集団と遺伝的多型
ハプロタイプと連鎖
不平衡解析
連鎖不平衡を用い
た関連解析
連鎖解析の基礎
パラメトリック連鎖解
析
ノンパラメトリック連
鎖解析
量的表現型
研究のデザイニング
~医科学のための情報生命学~
• いわゆる生物学・医科学研究における統計
学から、遺伝統計学がやや遠い存在であるこ
とがわかった今、この90分を有意義にするに
は・・・
生物学→生物統計学
医科学→医療統計学
?
生物統計学
•
•
•
•
•
•
•
•
•
•
第1章 データの記述
第2章 確率と確率分布
第3章 いろいろな確率分布
第4章 推定
第5章 検定
第6章 分散分析
第7章 回帰分析
第8章 サンプリング
第9章 ノンパラメトリック検定
第10章 統計モデルと推測
医療統計学
•
•
•
•
•
•
•
•
•
•
•
•
第1章 基礎
第2章 確率と分布
第3章 記述統計とグラフ
第4章 1標本または2標本の検定--t検定およびWilcoxon検定-第5章 回帰と相関
第6章 分散分析とKruskal-Wallis検定
第7章 分割表データ
第8章 検出力および標本の大きさの計算
第9章 重回帰分析
第10章 線形モデル
第11章 ロジスティック回帰分析
第12章 生存分析
• 解析手法を中心に「統計学」を修め
ても、解析手法は山のようにあり、統
計を専門にしない限り、メリットが少
ないことが多い・・・
• それよりは、「検定とは」とか「信頼区
間とは」といった、統計解析の基礎的
な考え方をおさらいすることの方が有
意義
• あくまで無料で、とあればウェブ で
も 群馬大学 青木 繁伸 教授 の
サイト 「群馬大学 青木」で『検索』
http://aoki2.si.gunma-u.ac.jp/lecture/
統計解析の基礎的な考え方は見につ
いたとする
さて、データを手にしたとして、では、自
分のデータの要約や解釈を行う上での
根拠を提供するためには、統計的に
データを提示する必要性があることは
理解できたが、個々の手法については
まったく白紙な状態。
自分のデータの要約や解釈を行う
上での根拠を提供するためにはど
うすれば・・・
根拠を提供しなくてはならない
=根拠なくしては、「あやふや」である
→根拠を与える方法は確固たるものである必
要がある
=使い古された、新規性のない方法を選ぶ
使い古された、新規性のない方法の
探し方と留意点
• みんなが使っている方法
• 論文に出ている方法
• 複数の「(統計手法にも)査読の厳しい」論文のメソッ
ド
• 生物学的・医科学的に目覚しい内容の論文は、得
てして
– 統計解析手法の説明が少ない
– 統計解析手法にやや難があっても、生物学的すばらしさ
から、アクセプトになっていることもある
• 論文の統計解析部分の記載は結構、誤りがあ
る・・・
使い古された、新規性のない方法が
見つかったら
• 商用の統計パッケージを使う
– 使い方を間違えなければ安心
– 問題は、使い方を間違えていないかどうかだ
が・・・
• 自分のデータと「同一のシチュエーション」を想定した
データサンプルがついていれば、それでの実行結果と
自データでの実行結果の一致を見届ける
• 参考にした論文のデータを手法検証用に使用できる
幸運に恵まれていたら、そうすることで自分のパッケー
ジの使い方の正しさを保証する
『そうは言っても、やっていることが正
しいかどうか不安だ・・・』
• 知っている
誰かに質問
しよう
– ただし、質
問する相手
を間違えな
いこと
(再) 自分のデータの要約や解釈
を行う上での根拠を提供するため
にはどうすれば・・・
根拠を提供しなくてはならない
=根拠なくしては、「あやふや」である
→根拠を与える方法は確固たるものである必要があ
る
=使い古された、新規性のない方法を選びたいけれ
ども、分野が新しすぎて、『確固たる』ものがどれな
のかわからない、解説書も見当たらない
使い古された、新規性のない方法を選びた
いけれども、分野が新しすぎて、『確固た
る』ものがどれなのかわからない、解説書
も見当たらない
• 方法1
– そうは言っても、
誰かが使った方
法を使う
• 追随論文のメソッ
ドを読み込む
• さらにメソドロジー
のオリジナル論
文を読み込む
• 方法2
– 自分で解釈を行う
上での根拠を提
供する統計手法
を編み出して発表
する
方法が見つかったら
• 商用の統計パッケージでは解析できない
• 商用でないアプリケーションを入手する
– 入手先は論文に書いてある
– 問題は、使い方を間違えていないかどうかだが、たいて
い、親切な説明書とサンプルデータが手に入るので
• 自分のデータと「同一のシチュエーション」を想定したデータサン
プルがついていれば、それでの実行結果と自データでの実行結
果の一致を見届ける
• 参考にした論文のデータを手法検証用に使用できる幸運に恵ま
れていたら、そうすることで自分のパッケージの使い方の正しさを
保証する
『そうは言っても、やっていることが正
しいかどうか不安だ・・・』
• 知っている誰かに質問しよう
– ただし、質問する相手を間違えないこと
– すでに最先端。自分に訊くか、手法の開発者に訊く
かしかない
実は・・・
• 使い古された、新規性のない方法を選びたいけれ
ども、分野が新しすぎて、『確固たる』ものがどれな
のかわからない、解説書も見当たらない
• このような場合は少なくない。なぜなら、
– 研究は、いつも最先端だから、「研究」として成立している
ことが多い
– 「最先端」であることは、実験手法か、解析手法かが「新
規」であることで支えられていることが多い
• 遺伝統計学・統計遺伝学は、統計学の中で昔は主流だった
が、ここ数十年はマイナーな存在なので、
• 『確固たる』ものがどれなのかわからない、解説書も見当た
らない、商用パッケージも相手にしてくれない(需要が小さい)、
という状況が続いているがために、
• 新しい統計解析手法への対応を迫られた、医科学・情報生
命学研究者にとって、参考になる経験が多い・・・かもしれな
い
• 遺伝統計学について少々・・・