SVM - LUULULU

Download Report

Transcript SVM - LUULULU

Twitter Catches the Flu:
事実性判定を用いた
インフルエンザ流行予測
荒牧英治 * **
増川佐知子 *
森田瑞樹 ***
* 東京大学 知の構造化センター
** 科学技術振興機構 さきがけ
*** 独立行政法人 医薬基盤研究所
4/13/2015
NL201SLP86
1
4/13/2015
NL201SLP86
2
4/13/2015
NL201SLP86
3
本研究の特徴
• 即時性
– これまで: 1週間間隔の更新であり,非常事態に
おいてその察知が遅れる可能性がある
– 本研究: 超早期での警告が可能
• 大規模
– これまで: 全国5,000の医療機関の定点観測
– 本研究: 毎日数万を超えるインフルエンザに関す
るTweet
4/13/2015
NL201SLP86
4
OUTLINE
• 背景
問題設定
• 目的
Twitterを用いることの問題
• 提案手法
• 実験
• まとめ
4/13/2015
NL201SLP86
5
20081118
20081128
20081208
20081218
20081228
20090107
20090117
20090127
20090206
20090216
20090226
20090308
20090318
20090328
20090407
20090417
20090427
20090507
20090517
20090527
20090606
20090616
20090626
20090706
20090716
20090726
20090805
20090815
20090825
20090904
20090914
単語の頻度
「風邪」「熱」「インフルエンザ」
0.10000%
0.01000%
0.00100%
influenza
4/13/2015
冬
NL201SLP86
cold
fevor
0.00010%
夏
6
「ひきそう」
• 今日は暑いなぁ・・・・昨日は涼しかったのに。
風邪ひきそうだよ・・・
• あう、変な場所で寝てしまった。風邪ひきそう
• 冷房ききすぎてて寒い…。本格的な風邪ひく
かも。
• おはやう、昨日は寒くて風邪引くかとおもた
• 風邪一歩手前。身体が冷えきってるので湯た
んぽなう。昨日は遊びすぎた
4/13/2015
NL201SLP86
7
「願望」「予防」
• 今年の年末は風邪なんて引いちゃいられな
い!
• 雨で靴が濡れて足が冷えた。ヘッドホンの延
長コードが断線した……帰りに新しいのを買い
に行く。風邪ひきたくないな。
• 風邪予防マスクがあったかい朝。
• 風邪予防に夜は濡れマスクをして寝てるんだ
けど、思わぬ副効果有り!唇が荒れない!
4/13/2015
NL201SLP86
8
動物の症状/誤字
• そんなことより今はまじめに家事やりたい。今
日は子犬さんが風邪気味なので早めに帰っ
てあったかいものを作ってあげたいと思いま
す。...
• おっはよぅ。晴れてるけ
ど風邪が強いなぁ。
• 台風並みに風邪が強いな
4/13/2015
NL201SLP86
9
アニメの人物の症状
• オリジナル展開のせい
でりっちゃんと唯ちゃん
で風邪が被ったな
• 唯が最終話でひいた
風邪が律より重たかっ
たのは、唯は風邪引い
たことが無かったので
免疫が無かったからかな。
4/13/2015
NL201SLP86
10
OUTLINE
• 背景
• 目的
• 提案手法
提案手法
• 実験
• まとめ
4/13/2015
NL201SLP86
11
学習器による判定(ベースライン)
≒スパム判定
• 判定のための2つの条件
入力文
「投稿者(またはその周辺の人間)が
風邪をひく」といった内容であるか?
内容(命題)の妥当性
その内容は,現在(または近い過去)
であり,肯定文であるか?
モダリティの妥当性
非事実
4/13/2015
事実
NL201SLP86
12
コーパスの例
4/13/2015
NL201SLP86
13
学習の素性
周辺語のBOW (window size=6)
たぶん インフル
L1
4/13/2015
がちょっと流行ってるんかなぁ
R1
R2
NL201SLP86
R3
R4 R5 R6
14
SVM以外の学習手法は?
Classifier
AdaBoost
Bagging
Decision Tree
Logistic Regression
Naive Bayes
Nearest Neighbor
Random Forest
SVM
4/13/2015
F-Measure
0.592
0.739
0.698
0.729
0.741
0.695
0.729
0.738
NL201SLP86
Time
40.192
530.310
239.446
696.704
7.383
22.441
38.683
92.723
15
OUTLINE
• 背景
• 目的
• 提案手法
• 実験
実験
• まとめ
4/13/2015
NL201SLP86
16
どの程度,現実を予測できるのか?
• 比較手法
– (1) Tweet-SVM: 提案手法
– (2) Tweet-Raw: ベースライン
• 単なるインフルエンザを含んだツィート数
– (3) Google:
• Google Flu Trend 日本版 [Ginsberg et.al., Nature2009]
– (4) Drug:
• 感冒薬(風邪薬) の家計支出 [総務省家計調査]
• 評価
– 国立感染症情報センターの報告との相関係数
4/13/2015
NL201SLP86
17
平常時
過熱報道期
(新型インフル騒動)
過熱報道期
(新型インフル騒動)
平常時
4/13/2015
NL201SLP86
19
結果
過熱報道期
4/13/2015
NL201SLP86
20
4/13/2015
NL201SLP86
21
R=0.816
R=0.817
R=-0.208
R=0.683
4/13/2015
NL201SLP86
22
結果
4/13/2015
NL201SLP86
23
ピーク前とピーク後で分けて評価
R=0.955
R=0.959
R=0.974
R=0.962
4/13/2015
NL201SLP86
24
OUTLINE
• 背景
• 目的
• 提案手法
• 実験
• まとめ
医学/疫学研究(感染症モデル)との比較
4/13/2015
NL201SLP86
25
感染症モデル
SIRモデル(1次マルコフ近似)
S
感染率β
Susceptible
感受性人口
I
Infectious
感染人口
隔離率γ
R
Removed
隔離人口
経験的にγ≒0.38
(半減期は1.8日)
[西浦&合原2009]
仮定: S→I 遷移にTweetする
γ=0.38 とすると r=0.834 (> 0.821)
BUT: もっともフィットした時はγ≒0.2 (R=0.842)
(半減期は3.5日)
4/13/2015
NL201SLP86
27
OUTLINE
• 背景
• 目的
• 提案手法
• 実験
• まとめ
まとめ
4/13/2015
NL201SLP86
28
まとめ
• 言語情報のみでインフルエンザ流行を推定
– TwitterはWeb検索クエリと同等の精度
– 特に平常時の流行のピーク前の予測精度は世界最高精
度(r=0.97)
• 感染症モデル(SIRモデル)との整合性
– TwitterはS→I 遷移の観測に相当する
– 既存のモデルと整合しつつ高精度
• 実世界を扱うこと
社会的にも学術的にも重要な課題
4/13/2015
NL201SLP86
29
公開しているリソース
• コーパス
• ガイドライン
http://mednlp.jp/
• カゼミル: 「カゼミル」で検索
4/13/2015
荒牧英治 Ph.D.
University of Tokyo
[email protected]
NL201SLP86
30