Natural Language Processing in Hospitals

Download Report

Transcript Natural Language Processing in Hospitals

クラウドソーシングによる
アレルギー・リスク推定
仮説形成から実験までの研究を半自動で行う試み
荒牧英治(京大/さきがけ)
四方朱子 (京大)
渡部恵理子 (アイアールアルト)
宮部真衣 (京大)
臼田泰如 (京大)
綾屋紗月 (東大)
当事者研究G
熊谷晋一郎 (東大)
2014/12/17 第6回集合知シンポジウム
よい研究はよい仮説から
• 仮説:窒化ガリウムで青色ダイオードが
実現できるのでは?
• 仮説:句情報を単純化したら母語推定の
精度向上ができるんじゃないか?
• 仮説:ピアスが原因で金属アレルギーが
おこるのでは?
クラウドソーシングによる調査
患者属性に関する質問
年齢はおいくつですか
アレルギーはありますか?
□喘息 □花粉症 □アレルギー性鼻
炎 □アトピー性皮膚炎
リスクに関する質問
家族関係は良好でしたか?
虫歯はありますか?
進化する質問紙
患者属性に関する質問
年齢はおいくつですか
アレルギーはありますか?
□喘息 □花粉症 □アレルギー性鼻
炎 □アトピー性皮膚炎
リスクに関する質問
家族関係は良好でしたか?
虫歯はありますか?
新たなリスクを求める質問
アレルギーに影響ある要因を探
すために,あなたなら,他にど
んな質問をしますか?
これまでの研究 VS 提案手法
〜について研究したい
仮説をたてる
アレルギーを持っている患者さんは〜
が多いなぁ
研究デザイン決定
仮説をたてる
(RCT or コホート?)
倫理申請
アンケート調査
ほぼすべてをクラウドにゆだねる
臨床実験
目的とResearch Questions
• アレルギーのリスクを調査する
• このために: クラウドソーシングという新し
い調査法を試みる
– 妥当性の検証
– (RQ1)既知リスクを再発見できるか?
– (RQ2)既知リスクを正しく有意な相関と判断で
きるか?
– 潜在的可能性の検証
– (RQ3)未知リスクをどれくらい提案できるか?
概要
• 背景 & 目的
• 予備知識
– 疫学研究の考え方
•
•
•
•
手法
結果
考察
おわりに
予備知識
疫学研究におけるリスク発見とは
アレルギー
ピアスを
していま
すか?
オッズ比=
は
い
242
無
57
24
ピアスをすると70%
罹患
しないと57%罹患
い
い
え
57
有
242
✕
✕
179
179
= 1.79
24
オッズ比の95%信頼区間 = 1.04 - 2.93
オッズ比が1以上
=尤もらしい
オッズ比95%信頼区間
の下限が1以上なので
有意
予備知識
既知のアレルギーのリスク
• 政府公開情報:
– リウマチ・アレルギー情報センター に掲載されているリスク
• 研究成果
– レビュー論文に収載されているリスク
ピアスをしていますか?
虫歯はありますか?
入れ歯、もしくは差し歯は使用していますか?
生まれ育った地域は工業地帯でしたか?
小さいころはよく風邪をひく子供でしたか?
家族関係は良好でしたか?
気分の浮き沈みが多い方ですか?
29リスク
Jenerowicz, D., et al., Environmental factors and allergic diseases. Ann Agric Environ Med, 2012.
19(3): p. 475-81.
概要
•
•
•
•
•
•
背景 & 目的
予備知識
手法
結果
考察
おわりに
進化する質問紙
アレルギーの有無
既知のリスク8仮説を疑問
形にしたものを含む
最大99質問
最大5個の新仮説提案
概要
•
•
•
•
•
•
背景 & 目的
予備知識
手法
結果
考察
おわりに
実装と結果
• Yahoo! クラウドソーシング
– 人数100人 × 5ラウンド
• 質問投入時から1日以内に回答あり
• 質問紙の整理に2〜7日程度
– 重複した質問をまとめる(1日)
– 過去に棄却した質問でないかチェック(半
日)
– オッズ比を計算し,高いものから採用(最大
99個)(1−3日)
ROUND1
(n=100)
ROUND2
(n=100)
患者属性 (5)
初期質問 (8)
質問拡張 (1)
165
患者属性 (5)
有効
159
初期質問 (8)
重複内容をまと める
54,
追加質問 (54)
質問拡張 (1)
158
患者属性 (5)
ROUND3
(n=100)
初期質問 (8)
有効
143
重複内容をまと める
42,
オッズ比1 以上
47,
7
オッズ比1 以上
52,
38
棄却ブール
追加質問 (89)
質問拡張 (1)
172
有効
157
重複内容をまと める
44,
ROUND4
(n=101)
患者属性 (5)
過去に棄却していない
33,
初期質問 (8)
追加質問 (85)
質問拡張 (1)
169
有意となったリスク
(高オッズ比のものから抜粋)
質問
未成年の頃から他人と性交渉をもっていた
子供の頃よく砂場や泥で遊んだ
環境変化(引越、転職など)が多い
よくクシャミをしたり,鼻がムズムズしたりする
家族にアレルギーを持った人がいる
注射直後に体調の変化があった事がある
特定の場所に行くと体調が悪くなることがある
痒み,かぶれなど,皮膚のトラブルが多い
いじめられていたことがある
洗剤を触る時手袋をしている
目やにがよく出る
オッズ比
8.75
5.66
5.32
4.89
4.88
4.14
4.11
3.79
3.62
3.60
3.50
* 赤字は既知リスク
結果
• 610(異なりでは157)の仮説が生成
され,そのうち51が有意
• (RQ1)既知リスクを再発見できる
か?
61%
– 既知リスク21のうち13を再発見
• (RQ2)既知リスクを有意な相関と判
断できるか?
– 初期質問8のうち6が有意
30〜75%
• (RQ3)未知仮説を提案できるか?
– 51の有意な仮説のうち,41が未知仮説
41仮説
(RQ2)既知リスクを有意な
相関と判断できるか?
• 初期質問8問のうち6つが有意
• 再発見13仮説のち4つが有意
75%
30%
• なぜ初期質問は有意になりやすいのか
– 初期質問は毎回アンケートに含まれ十分なサンプル
数をもつ(n=500)
– 再発見仮説は最後のラウンドで提案されたものは
n=100 →まだ有意になっていない可能性
• BUT: 有意でない既知仮説の平均オッズ比は1を上
回る1.23であり,弱いながらも支持されている
概要
•
•
•
•
•
•
背景 & 目的
予備知識
手法
結果
考察
おわりに
素人発想の貢献
• 有意と判定されなかった仮説も結果に貢献し
うる
– 棄却された場合もよい仮説をインスパイア
– 「多人数との性交渉があるか」
→ 「あなたは未成年の頃から他人との性行為を
していましたか?」
– 不特定多数が連想的に仮説を発案することで,斬
新な仮説を導いている可能性
• クラウドソーシングの匿名性
→プライベートな仮説
因果関係の曖昧さ
• 「ダニ対策をしていますか?」
• ダニ対策をしている人のほうにアレル
ギー罹患の有意
• 既にアレルギーを発症したがためにダニ
対策を始めた人が「対策をしている」と
答えた可能性
– このような「インシュリンが糖尿病の原因」
的逆転がしばしばみられる
– BUT: 一目瞭然
終了タイミングについて
• New Hypothesis Ratio
– (過去に棄却されなかった)新しい仮説の割合
• Significant Hypothesis Ratio
– 統計的に有意であった仮説の割合
ROUND5
ROUND4
New Hypothesis Ratio
ROUND3
Significant Hypothesis Ratio
ROUND2
ROUND1
0%
20%
40%
60%
80%
当事者であることの意味
• 有意と判定された仮説はアレル
ギー保有者(当事者)によって提
案されたのかどうか?
• 当事者が提案/非当事者が提案,
有意である/有意でない,のカイ
二乗検定の結果,有意ではない
(p=0.187)
概要
•
•
•
•
•
•
背景 & 目的
予備知識
手法
結果
考察
おわりに
まとめ
• クラウドソーシングにより仮説形成から
実験までの研究を半自動で行う方法を提
案
61%
n=500
• 既知リスクのかなりの割合を十分なサン
プルがある場合高い確率で再発見可能
41仮説
75%
• 多くの未知の仮説が提案され,今後の緻
密な臨床研究による調査が待ち望まれる
クラウド・ソーシングで
不可能な研究と可能な研究
• GISTの原因の一部は,PDGFR-α遺伝子の
異常である
(Gastrointestinal stromal tumor; 消化管間質腫瘍)
希少疾患 10万人に1,2人
• アレルギーの原因の一部は,入れ歯(金
属)である.
クラウド上に罹患者が存在
する身近な疾患
仮説を検証するために
生活習慣/環境と関係
• 幸いなことに: このような疾患は多数
(インフル予防,認知症,うつ,肩こり,近視,腰痛…)
Webサイトによるシームレス仮説検証
http://mednlp.jp/allergy
クラウドソーシングによる
アレルギー・リスク推定
仮説形成から実験までの研究を全自動で行う試み
荒牧英治(京大/さきがけ)
四方朱子 (京大)
渡部恵理子 (アイアールアルト)
宮部真衣 (京大)
臼田泰如 (京大)
綾屋紗月 (東大)
当事者研究G
熊谷晋一郎 (東大)
2014/12/17 第6回集合知シンポジウム
Thank you
Role of Authors
荒牧 (総括/執筆/実装)
四方 (実験/統計/執筆)
渡部 (実験/実装)
熊谷 (統計/医学アドバイス)
他
(アドバイス)
Acknowledgement
島本 (議論)
COI掲示
本研究遂行にあたって開示すべき
関係にある企業はありません
http://mednlp.jp