林檎殺人事件曖昧な情報京大(医)統計遺伝学分野山田亮とある

Transcript 林檎殺人事件曖昧な情報京大(医)統計遺伝学分野山田亮とある

林檎殺人事件曖昧な情報

京大 ( 医 ) 統計遺伝学分野山田亮

とあるさびしい峠で殺人事件が起こりました現場にはたくさんの林檎が落ちていたとの目撃情報が寄せられました犯人が落として行ったものらしいのですあいにく、現場の保全をする前に、サルが大挙して出没し、すべての林檎は跡形もなく食べられてしまったそうです

耳より情報が寄せられた

• ある１種類の品種の林檎ばかりを載せた軽トラックの運転手が関わっていた

林檎の品種を特定して犯人を絞り込みたい！

耳より情報が寄せられました

• ある主婦 Y が現場に落ちていた林檎の数と品種を数え上げていたと言うのです。 • 『さんたろうが 213 個、こうたろうが 326 個』

林檎は１品種なのに

… • • • 主婦 Y の情報は使えないのか !?

主婦 Y の「さんたろう・こうたろう」識別能力試験が行われた – – さんたろう 100 個を見せたところ • さんたろう 80 個、こうたろう 20 個と答えたこうたろう 100 個を見せたところ • さんたろう 40 個、こうたろう 60 個と答えたさて、軽トラックに積まれていた林檎はさんたろうかこうたろうか？

計算中・・・

あいまいな識別能力も「数打ちゃ、当たる」

曖昧な情報を丸めて白黒つける

『実験結果って、絶対に、ぜーったいに、正しいって言えるんですか？』

『ぜーったい』と言われると絶対とはいいかねるが、でも、『実質的に正確だ』と思っている

『実質的に正確だ』とは？

• 『実質的に正確』～『めったに間違わない』 • 『すべてのマーカー、その全部があっているよ、ほとんどの場合にはね』

A B C D E

間違い行列

間違い確率 p の場合

(1-p)^2 (1-p) p/4 (1-p) p/4 (1-p) p/4 (1-p) p/4

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2 a : タイプ数 2 試料のタイプが一致する確率 : x = (1-p)^2 + (a-1 ) * (p/(a-1))^2 2 試料のタイプが一致しない確率 : 1- x = p*

(1-p) p/4 (p/4)^2 (p/4)^2 (p/4)^2 (p/4)^2

『すべてのマーカー、その全部があっているよ、ほとんどの場合にはね』 • マーカー数 n • • • • • (1-p*)^n ～ほとんど 1 と信じられる (1-p*)^n ～ 1 – np + δ – デルタは p* が小さいとき、無視できる 1 – np* > 1-t t は小さい値 p* < t/n あなたの t はどれくらい？

実験に要求している精度

• (1-p)^2 + (a-1 ) * (p/(a-1))^2 = 1 – p* • • • … 少し式変形して …p^2 の項は無視して … 2p ～ p* p ～ p*/2 < t/(2n) p の上限が決まる • もし２つの試料の実験精度が異なるなら – p1 + p2 ～ p* ２つの試料の実験精度が異なるって … ？

どちらを信用するか？

• • • • • • • • 5 箇所のマーカーのすべてが一致した 15 箇所のマーカーのすべてが一致した 100 箇所のマーカーのすべてが一致した 1,000 箇所のマーカーのすべてが一致した 10,000 箇所のマーカーのすべてが一致した 100,000 箇所のマーカーのすべてが一致した … 30 億箇所のマーカーのすべてが一致した – ２つの試料の実験結果なのに、１つの結果を２つの試料の結果にコピーペーストしたんじゃない？

• • 1-(1-p*)^k ～ 1-kp* p* が小さいと言っても …k が大きくなれば – 1-kp* はあり得ないくらい小さいでしょう？ • • では、 k がどれくらいだと、ミスが入っていそう？そこから、 p* の下限想定値が決まる

億箇所調べたら

… • • • • • • • • • • • • 30 億箇所のマーカーのすべてが一致した 1 箇所違っていた 10 箇所違っていた 100 箇所違っていた 1000 箇所違っていた 10,000 箇所違っていた 100,000 箇所違っていた 1,000,000 箇所違っていた 10,000,000 箇所違っていた 100,000,000 箇所違っていた 1,000,000,000 箇所違っていた (10 億箇所 ) 3,000,000,000 箇所違っていた

10 万回に 1 度のエラーなら 30,000 箇所のエラー • • • 同一個人由来なら、何箇所違うはず？赤の他人２人由来なら、何カ所違うはず？ K 箇所違っていた、じゃあどっち

あいまいな識別能力も「数打ちゃ、当たる」

不一致箇所の増え方

• • • • 完璧な実験系の場合２つの同一試料での実験結果を比較するとマーカー数を増やしても、不一致箇所は 0,0,0,0,…..,0,0,….,0,0,0,……….

不一致箇所の増え方

• • 完璧な実験系の場合２つの異なる個人由来の試料での実験結果を比較すると • • マーカー数を増やすと、不一致箇所はどんどん増える

不一致箇所の増え方

• • マーカー数を増やすと、不一致箇所は、どんどん増えるが、ばらつきもあるばらつきがあるということは、不一致箇所として、「らしい箇所数」と「らしからぬ箇所数」がある

尤度比で比較しているのは？

• 「平均的な線」との乖離の程度を調べている

尤度比で比較しているのは？

• 「平均的な線」との乖離の程度を調べている • こんなに離れた線は観測されないくらい珍しい、と考えてもよい

「ぜーったい」に正しいわけでもない • 「犯人」の方の不一致箇所数がある程度、増えてもよい

「ぜーったい」に正しいわけでもない • ただし、２つの場合とも、ばらつきつつ、十分に離れていれば、区別ができる

箇所数の増え方はマーカーの増加に対して直線的確率・尤度にすると「倍々」式～指数関数的対数尤度はマーカーの増加に対して直線的なので対数尤度の比較は箇所数と同様に直線的

対数の場合は値の差～比対数尤度の差が直線的に開いていく尤度比が指数関数的に大きくなっていく

２つの仮説の間で十分な尤度の違いが出ればよいので２つの直線 ( ばらつきに対応して幅がある ) のおおまかな傾きにしかるべき差があり、その差が十分に開くだけのマーカー数があればよいこれがあいまいな識別能力も「数打ちゃ、当たる」

手描き

たとえば最後の 1 マーカーが … コールエラーがないとする

たとえば 15 マーカーで 14 マーカーはほぼ完璧最後の 1 マーカーが怪しい … コールエラーがあるとする完璧に異なる型に合致まったく読み取れない完璧に合致

DNA

鑑定

マーカーの場合

• • すべてのマーカーである特定のジェノタイプの頻度を q = 0.1

とする同じ型のときに実験結果が一致する確率を = p* = 1, 0.9999

とする p • 今、 14/15 マーカーで２つの試料の実験結果が一致している

• • • 仮説１「２つは同一人物由来である」 – p = 1: • 1^14 = 1 – p = 0.9999^14 = 0.9986

仮説２「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) 尤度比 – – p = 1: 10^14 p = 0.9999: 0.9986 x 10^14

最後のマーカーが一致した

• • • 仮説１「２つは同一人物由来である」 – p = 1: • 1^14 = 1 1^15 = 1 – p = 0.9999^14 = 0.9986 0.9999^15 = 0.0085

仮説２「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 1 x 10^15 p = 0.9999: 0.9986 x 10^14 0.9985 x 10^15

最後のマーカーが一致しなかった

• • • 仮説１「２つは同一人物由来である」 – p = 1: • 1^14 = 1 1^14 x 0 = 0 – p = 0.9999^14 = 0.9986 0.9999^14 * (1-p) = 0.00009986

仮説２「 2 つの同一人物由来ではない」 – q = 0.1

• q^14 = 10^(-14) q^15 = 10^(-15) 尤度比 – – p = 1: 1 x 10^14 0 p = 0.9999: 0.9986 x 10^14 0.9986 x 10^12

林檎殺人事件 曖昧な情報 京大(医)統計遺伝学分野 山田 亮 とある

Transcript 林檎殺人事件 曖昧な情報 京大(医)統計遺伝学分野 山田 亮 とある