林檎殺人事件 曖昧な情報 京大(医)統計遺伝学分野 山田 亮 とある

Download Report

Transcript 林檎殺人事件 曖昧な情報 京大(医)統計遺伝学分野 山田 亮 とある

林檎殺人事件 曖昧な情報

京大 ( 医 ) 統計遺伝学分野 山田 亮

とあるさびしい峠で 殺人事件が起こりました 現場にはたくさんの林檎が落 ちていたとの目撃情報が寄せ られました 犯人が落として行ったものらし いのです あいにく、現場の保全をする前 に、サルが大挙して出没し、す べての林檎は跡形もなく食べら れてしまったそうです

耳より情報が寄せられた

• ある1種類の品種の林檎ばかりを載せた軽ト ラックの運転手が関わっていた

林檎の品種を特定して 犯人を絞り込みたい!

耳より情報が寄せられました

• ある主婦 Y が現場に落ちていた林檎の数と 品種を数え上げていたと言うのです。 • 『さんたろうが 213 個、こうたろうが 326 個』

林檎は1品種なのに

… • • • 主婦 Y の情報は使えないのか !?

主婦 Y の「さんたろう・こうたろう」識別能力試 験が行われた – – さんたろう 100 個を見せたところ • さんたろう 80 個、こうたろう 20 個 と答えた こうたろう 100 個を見せたところ • さんたろう 40 個、こうたろう 60 個 と答えた さて、軽トラックに積まれていた林檎はさんた ろうかこうたろうか?

計算中・・・

あいまいな識別能力も 「数打ちゃ、当たる」

曖昧な情報を丸めて白黒つける

『実験結果って、絶対に、ぜーったいに、正し いって言えるんですか?』

『ぜーったい』と言わ れると絶対とはいい かねるが、でも、『実 質的に正確だ』と 思っている

『実質的に正確だ』とは?

• 『実質的に正確』~『めったに間違わない』 • 『すべてのマーカー、その全部があっているよ、 ほとんどの場合にはね』

A B C D E

間違い行列

間違い確率 p の場合

A

(1-p)^2 (1-p) p/4 (1-p) p/4 (1-p) p/4 (1-p) p/4

B

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2

C

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2

D

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2 a : タイプ数 2 試料のタイプが一致する確率 : x = (1-p)^2 + (a-1 ) * (p/(a-1))^2 2 試料のタイプが一致しない確率 : 1- x = p*

E

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2

『すべてのマーカー、その全部があっ ているよ、ほとんどの場合にはね』 • マーカー数 n • • • • • (1-p*)^n ~ ほとんど 1 と信じられる (1-p*)^n ~ 1 – np + δ – デルタは p* が小さいとき、無視できる 1 – np* > 1-t t は小さい値 p* < t/n あなたの t はどれくらい?

実験に要求している精度

• (1-p)^2 + (a-1 ) * (p/(a-1))^2 = 1 – p* • • • … 少し式変形して …p^2 の項は無視して … 2p ~ p* p ~ p*/2 < t/(2n) p の上限 が決まる • もし2つの試料の実験精度が異なるなら – p1 + p2 ~ p* 2つの試料の実験精度が異なるって … ?

どちらを信用するか?

• • • • • • • • 5 箇所のマーカーのすべてが一致した 15 箇所のマーカーのすべてが一致した 100 箇所のマーカーのすべてが一致した 1,000 箇所のマーカーのすべてが一致した 10,000 箇所のマーカーのすべてが一致した 100,000 箇所のマーカーのすべてが一致した … 30 億箇所のマーカーのすべてが一致した – 2つの試料の実験結果なのに、1つの結果を2つの 試料の結果にコピーペーストしたんじゃない?

• • 1-(1-p*)^k ~ 1-kp* p* が小さいと言っても …k が大きくなれば – 1-kp* はあり得ないくらい小さいでしょう? • • では、 k がどれくらいだと、ミスが入っていそ う? そこから、 p* の下限 想定値が決まる

30

億箇所調べたら

… • • • • • • • • • • • • 30 億箇所のマーカーのすべてが一致した 1 箇所違っていた 10 箇所違っていた 100 箇所違っていた 1000 箇所違っていた 10,000 箇所違っていた 100,000 箇所違っていた 1,000,000 箇所違っていた 10,000,000 箇所違っていた 100,000,000 箇所違っていた 1,000,000,000 箇所違っていた (10 億箇所 ) 3,000,000,000 箇所違っていた

10 万回に 1 度のエラーなら 30,000 箇所のエラー • • • 同一個人由来なら、何箇所違うはず? 赤の他人2人由来なら、何カ所違うはず? K 箇所違っていた、じゃあどっち

あいまいな識別能力も 「数打ちゃ、当たる」

不一致箇所の増え方

• • • • 完璧な実験系の場合 2つの同一試料での実験結果を比較すると マーカー数を増やしても、不一致箇所は 0,0,0,0,…..,0,0,….,0,0,0,……….

不一致箇所の増え方

• • 完璧な実験系の場 合 2つの異なる個人由 来の試料での実験 結果を比較すると • • マーカー数を増やす と、不一致箇所は どんどん増える

不一致箇所の増え方

• • マーカー数を増 やすと、不一致 箇所は、どんど ん増えるが、ばら つきもある ばらつきがあると いうことは、不一 致箇所として、 「らしい箇所数」と 「らしからぬ箇所 数」がある

尤度比で比較しているのは?

• 「平均的な線」との 乖離の程度を調べ ている

尤度比で比較しているのは?

• 「平均的な線」との 乖離の程度を調べ ている • こんなに離れた線は 観測されないくらい 珍しい、と考えてもよ い

「ぜーったい」に正しいわけでもない • 「犯人」の方の不一 致箇所数がある程 度、増えてもよい

「ぜーったい」に正しいわけでもない • ただし、2つの場合 とも、ばらつきつつ、 十分に離れていれ ば、区別ができる

箇所数の増え方は マーカーの増加に対して直線的 確率・尤度にすると 「倍々」式~指数関数的 対数尤度は マーカーの増加に対して直線的なの で 対数尤度の比較は 箇所数と同様に直線的

対数の場合は 値の差~比 対数尤度の差が直線的に開いていく 尤度比が指数関数的に大きくなっていく

2つの仮説の間で 十分な尤度の違いが出ればよいので 2つの直線 ( ばらつきに対応して幅 がある ) のおおまかな傾きにしかる べき差があり、 その差が十分に開くだけのマーカー 数があればよい これが あいまいな識別能力も 「数打ちゃ、当たる」

手描き

たとえば 最後の 1 マーカーが … コールエラーがないとする

たとえば 最後の 1 マーカーが … コールエラーがないとする

たとえば 最後の 1 マーカーが … コールエラーがないとする

たとえば 15 マーカーで 14 マーカーはほぼ完璧 最後の 1 マーカーが怪しい … コールエラーがあるとする 完璧に異なる型 に合致 まったく読み取れ ない 完璧に合致

DNA

鑑定

15

マーカーの場合

• • すべてのマーカーである特定のジェノタイプ の頻度を q = 0.1

とする 同じ型のときに実験結果が一致する確率を = p* = 1, 0.9999

とする p • 今、 14/15 マーカーで2つの試料の実験結果 が一致している

• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 – p = 0.9999^14 = 0.9986

仮説2「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) 尤度比 – – p = 1: 10^14 p = 0.9999: 0.9986 x 10^14

最後のマーカーが一致した

• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 1^15 = 1 – p = 0.9999^14 = 0.9986 0.9999^15 = 0.0085

仮説2「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 1 x 10^15 p = 0.9999: 0.9986 x 10^14 0.9985 x 10^15

最後のマーカーが一致しなかった

• • • 仮説1「2つは同一人物由来である」 – p = 1: • 1^14 = 1 1^14 x 0 = 0 – p = 0.9999^14 = 0.9986 0.9999^14 * (1-p) = 0.00009986

仮説2「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 0 p = 0.9999: 0.9986 x 10^14 0.9986 x 10^12