Transcript 林檎殺人事件 曖昧な情報 京大(医)統計遺伝学分野 山田 亮 とある
林檎殺人事件 曖昧な情報
京大 ( 医 ) 統計遺伝学分野 山田 亮
とあるさびしい峠で 殺人事件が起こりました 現場にはたくさんの林檎が落 ちていたとの目撃情報が寄せ られました 犯人が落として行ったものらし いのです あいにく、現場の保全をする前 に、サルが大挙して出没し、す べての林檎は跡形もなく食べら れてしまったそうです
耳より情報が寄せられた
• ある1種類の品種の林檎ばかりを載せた軽ト ラックの運転手が関わっていた
林檎の品種を特定して 犯人を絞り込みたい!
耳より情報が寄せられました
• ある主婦 Y が現場に落ちていた林檎の数と 品種を数え上げていたと言うのです。 • 『さんたろうが 213 個、こうたろうが 326 個』
林檎は1品種なのに
… • • • 主婦 Y の情報は使えないのか !?
主婦 Y の「さんたろう・こうたろう」識別能力試 験が行われた – – さんたろう 100 個を見せたところ • さんたろう 80 個、こうたろう 20 個 と答えた こうたろう 100 個を見せたところ • さんたろう 40 個、こうたろう 60 個 と答えた さて、軽トラックに積まれていた林檎はさんた ろうかこうたろうか?
計算中・・・
あいまいな識別能力も 「数打ちゃ、当たる」
曖昧な情報を丸めて白黒つける
『実験結果って、絶対に、ぜーったいに、正し いって言えるんですか?』
『ぜーったい』と言わ れると絶対とはいい かねるが、でも、『実 質的に正確だ』と 思っている
『実質的に正確だ』とは?
• 『実質的に正確』~『めったに間違わない』 • 『すべてのマーカー、その全部があっているよ、 ほとんどの場合にはね』
A B C D E
間違い行列
間違い確率 p の場合
A
(1-p)^2 (1-p) p/4 (1-p) p/4 (1-p) p/4 (1-p) p/4
B
(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2
C
(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2
D
(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2 a : タイプ数 2 試料のタイプが一致する確率 : x = (1-p)^2 + (a-1 ) * (p/(a-1))^2 2 試料のタイプが一致しない確率 : 1- x = p*
E
(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2
『すべてのマーカー、その全部があっ ているよ、ほとんどの場合にはね』 • マーカー数 n • • • • • (1-p*)^n ~ ほとんど 1 と信じられる (1-p*)^n ~ 1 – np + δ – デルタは p* が小さいとき、無視できる 1 – np* > 1-t t は小さい値 p* < t/n あなたの t はどれくらい?
実験に要求している精度
• (1-p)^2 + (a-1 ) * (p/(a-1))^2 = 1 – p* • • • … 少し式変形して …p^2 の項は無視して … 2p ~ p* p ~ p*/2 < t/(2n) p の上限 が決まる • もし2つの試料の実験精度が異なるなら – p1 + p2 ~ p* 2つの試料の実験精度が異なるって … ?
どちらを信用するか?
• • • • • • • • 5 箇所のマーカーのすべてが一致した 15 箇所のマーカーのすべてが一致した 100 箇所のマーカーのすべてが一致した 1,000 箇所のマーカーのすべてが一致した 10,000 箇所のマーカーのすべてが一致した 100,000 箇所のマーカーのすべてが一致した … 30 億箇所のマーカーのすべてが一致した – 2つの試料の実験結果なのに、1つの結果を2つの 試料の結果にコピーペーストしたんじゃない?
• • 1-(1-p*)^k ~ 1-kp* p* が小さいと言っても …k が大きくなれば – 1-kp* はあり得ないくらい小さいでしょう? • • では、 k がどれくらいだと、ミスが入っていそ う? そこから、 p* の下限 想定値が決まる
30
億箇所調べたら
… • • • • • • • • • • • • 30 億箇所のマーカーのすべてが一致した 1 箇所違っていた 10 箇所違っていた 100 箇所違っていた 1000 箇所違っていた 10,000 箇所違っていた 100,000 箇所違っていた 1,000,000 箇所違っていた 10,000,000 箇所違っていた 100,000,000 箇所違っていた 1,000,000,000 箇所違っていた (10 億箇所 ) 3,000,000,000 箇所違っていた
10 万回に 1 度のエラーなら 30,000 箇所のエラー • • • 同一個人由来なら、何箇所違うはず? 赤の他人2人由来なら、何カ所違うはず? K 箇所違っていた、じゃあどっち
あいまいな識別能力も 「数打ちゃ、当たる」
不一致箇所の増え方
• • • • 完璧な実験系の場合 2つの同一試料での実験結果を比較すると マーカー数を増やしても、不一致箇所は 0,0,0,0,…..,0,0,….,0,0,0,……….
不一致箇所の増え方
• • 完璧な実験系の場 合 2つの異なる個人由 来の試料での実験 結果を比較すると • • マーカー数を増やす と、不一致箇所は どんどん増える
不一致箇所の増え方
• • マーカー数を増 やすと、不一致 箇所は、どんど ん増えるが、ばら つきもある ばらつきがあると いうことは、不一 致箇所として、 「らしい箇所数」と 「らしからぬ箇所 数」がある
尤度比で比較しているのは?
• 「平均的な線」との 乖離の程度を調べ ている
尤度比で比較しているのは?
• 「平均的な線」との 乖離の程度を調べ ている • こんなに離れた線は 観測されないくらい 珍しい、と考えてもよ い
「ぜーったい」に正しいわけでもない • 「犯人」の方の不一 致箇所数がある程 度、増えてもよい
「ぜーったい」に正しいわけでもない • ただし、2つの場合 とも、ばらつきつつ、 十分に離れていれ ば、区別ができる
箇所数の増え方は マーカーの増加に対して直線的 確率・尤度にすると 「倍々」式~指数関数的 対数尤度は マーカーの増加に対して直線的なの で 対数尤度の比較は 箇所数と同様に直線的
対数の場合は 値の差~比 対数尤度の差が直線的に開いていく 尤度比が指数関数的に大きくなっていく
2つの仮説の間で 十分な尤度の違いが出ればよいので 2つの直線 ( ばらつきに対応して幅 がある ) のおおまかな傾きにしかる べき差があり、 その差が十分に開くだけのマーカー 数があればよい これが あいまいな識別能力も 「数打ちゃ、当たる」
手描き
たとえば 最後の 1 マーカーが … コールエラーがないとする
たとえば 最後の 1 マーカーが … コールエラーがないとする
たとえば 最後の 1 マーカーが … コールエラーがないとする
たとえば 15 マーカーで 14 マーカーはほぼ完璧 最後の 1 マーカーが怪しい … コールエラーがあるとする 完璧に異なる型 に合致 まったく読み取れ ない 完璧に合致
DNA
鑑定
15
マーカーの場合
• • すべてのマーカーである特定のジェノタイプ の頻度を q = 0.1
とする 同じ型のときに実験結果が一致する確率を = p* = 1, 0.9999
とする p • 今、 14/15 マーカーで2つの試料の実験結果 が一致している
• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 – p = 0.9999^14 = 0.9986
仮説2「 2 つの同一人物由来ではない」 – q = 0.1
• q^14 = 10^(-14) 尤度比 – – p = 1: 10^14 p = 0.9999: 0.9986 x 10^14
最後のマーカーが一致した
• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 1^15 = 1 – p = 0.9999^14 = 0.9986 0.9999^15 = 0.0085
仮説2「 2 つの同一人物由来ではない」 – q = 0.1
• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 1 x 10^15 p = 0.9999: 0.9986 x 10^14 0.9985 x 10^15
最後のマーカーが一致しなかった
• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 1^14 x 0 = 0 – p = 0.9999^14 = 0.9986 0.9999^14 * (1-p) = 0.00009986
仮説2「 2 つの同一人物由来ではない」 – q = 0.1
• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 0 p = 0.9999: 0.9986 x 10^14 0.9986 x 10^12