流言訂正情報に着目

Download Report

Transcript 流言訂正情報に着目

流言情報クラウド:
人間の発信した訂正情報の抽出による
流言収集
宮部
梅島
灘本
荒牧
真衣†
彩奈‡
明代‡
英治†
†東京大学知の構造化センター
‡甲南大学知能情報学部
Outline
1. 背景と目的
2. 流言情報クラウド
3. 訂正情報分類器
4. 実験
5. まとめ
Center for Knowledge Structuring, The University of Tokyo.
2
1.背景と目的
背景
• マイクロブログの普及
– Twitter利用者数:1455万人(2011年10月)
• 東日本大震災(2011年3月11日)
– Twitterなどのマイクロブログが重要な情報インフラ
の1つとして活用された
– 重要な情報の共有・伝搬が行われた一方で,多く
の流言も拡散された
流言の拡散しにくい環境の構築が必要
Center for Knowledge Structuring, The University of Tokyo.
3
1.背景と目的
流言の拡散防止
• 流言の拡散
– 人は,その情報が正しいと思って発信する
– つまり,流言であることを認識していない
発信する前に,ユーザに対して
その情報が流言である可能性を提示する
• 流言に関する情報(訂正情報)の提供
– 東日本大震災では,流言に関する情報が人手でま
とめられ,提供されていた
Center for Knowledge Structuring, The University of Tokyo.
4
1.背景と目的
東日本大震災における流言拡散の例
2011/3/11 Twitter上のドワンゴ社員によるデマ
地震が起きた時、社内サーバールームにいたのだが、ラックが倒壊した。腹部を
潰され、血が流れている。痛い、誰か助けてくれ。
流言ツイート
訂正ツイート
訂正情報がうまくユーザに伝わっていない
Center for Knowledge Structuring, The University of Tokyo.
5
1.背景と目的
ユーザへの訂正情報の提供
• 人手による訂正情報提供の問題点
– 誰かがまとめない限り,情報は提供されない
– 情報をまとめる人に負荷がかかる
流言に関する情報収集の自動化
– 1つの情報サイトに全ての情報が集まるとは限らない
– ある情報が流言かどうかは,まとめサイトやWebなどで自
分で調べなければならない
流言に関する情報提供方法の改善
流言に関する情報を
自動的に収集・提供するサービスを提案
Center for Knowledge Structuring, The University of Tokyo.
6
Outline
1. 背景と目的
2. 流言情報クラウド
3. 訂正情報分類器
4. 実験
5. まとめ
Center for Knowledge Structuring, The University of Tokyo.
7
2.流言情報クラウド
流言情報クラウドの概要
• 流言に関する情報を収集し,ユーザの流言拡
散防止を支援するサービス
自動収集
・・・・・
・・・・・
手動登録
流言に関する
情報を収集
Center for Knowledge Structuring, The University of Tokyo.
流言情報を提供し
流言拡散を防止
8
2.流言情報クラウド
流言収集の自動化(1/4)
• 流言を収集・蓄積するためには,
その情報の真偽を判別する必要がある
情報の真偽判定は
可能か?
Center for Knowledge Structuring, The University of Tokyo.
9
2.流言情報クラウド
Question 1
ゴム報知新聞 という
専門紙があるらしい.
TRUE or FALSE?
Center for Knowledge Structuring, The University of Tokyo.
10
2.流言情報クラウド
Question 2
月刊手摺 という
業界誌があるらしい.
TRUE or FALSE?
Center for Knowledge Structuring, The University of Tokyo.
11
2.流言情報クラウド
Question 3
NLP2012では,
セッションA4の会場に
はかなり人が集まって
いるらしい.
TRUE or FALSE?
Center for Knowledge Structuring, The University of Tokyo.
12
2.流言情報クラウド
流言収集の自動化(2/4)
• 情報の真偽は,人間でも判別が困難
CASE 1
CASE 2
(ある時点で)誰かが真偽を知っ
ている情報
(ある時点で)誰も真偽を
知らない情報(現在発生中の事象など)
情報の真偽は判定可能
だが,正しい情報を
含むリソースが不可欠
(誰かが作成するまで)
正しい情報は存在しないため,
情報の真偽判定は不可能
情報の真偽を判定するためには,
正しい情報が蓄積されていなければならない
Center for Knowledge Structuring, The University of Tokyo.
13
2.流言情報クラウド
流言収集の自動化(3/4)
• 流言情報の内容は多岐にわたる
流言
ツイート例
ツイート数
ドワンゴ社員による流
言
拡散して!近くの人誰か気づいて!RT @xxx 地震が起きた時、
社内サーバールームにいたのだが、ラックが倒壊した。腹部を潰
され、血が流れている。痛い、誰か助けてくれ。
約2500件
命の三角形に関する
流言
命の三角形、ためになりました。地震では机の下にすぐ入る事を
考えがちだけど、机等のすぐ横のほうがつぶされない三角形の
空間になり、助かる可能性が高いんだね。
約1400件
関西電力の節電呼び
かけに関する流言
【拡散希望】中の人が今友達からメールで回ってきました。 関西
地区にお住まいのみなさん。地震に伴い、関西電力が電力の提
供を始めたようです。少しの節電でも立派な支援になります。電
子レンジや炊飯器など、普段さしっぱなしのコンセントを今日だけ
でも抜いて節電しましょう。
約500件
ある情報が流言であることを
単純に判定するのは容易ではない
Center for Knowledge Structuring, The University of Tokyo.
14
2.流言情報クラウド
流言収集の自動化(4/4)
本研究では,流言訂正情報に着目
Center for Knowledge Structuring, The University of Tokyo.
15
2.流言情報クラウド
流言訂正情報とは?
• 本研究における定義
– ある情報に関する不確かさの記述が含まれる情報
このツイートはデマです。RT xxx: 〇〇〇
〇〇〇は本当なの?デマじゃないの?
〇〇〇というデマを広げた人間がいるみたいだね
– 流言に関するまとめ
地震に関するデマhttp://…
Center for Knowledge Structuring, The University of Tokyo.
16
2.流言情報クラウド
流言訂正情報の傾向
• 訂正していることを明示する用語
(流言マーカー)が含まれる場合が多い
– デマ
– 間違い
– ガセ
– 誤り
–嘘
流言を直接検出するよりも
訂正情報の方が容易に検出できる可能性がある
Center for Knowledge Structuring, The University of Tokyo.
17
2.流言情報クラウド
本研究のアプローチ(1/2)
流言
情報
訂正情報を収集することにより,
間接的に流言を収集
訂正
情報
Center for Knowledge Structuring, The University of Tokyo.
○○○○○は,
デマらしいです.
18
2.流言情報クラウド
本研究のアプローチ(2/2)
流言ツイート
1. 流言訂正情報を検出し,
リアルタイムに情報を蓄積
2. 流言訂正情報出現以降の
流言拡散を防止
流言訂正ツイート
Center for Knowledge Structuring, The University of Tokyo.
19
Outline
1. 背景と目的
2. 流言情報クラウド
3. 訂正情報分類器
4. 実験
5. まとめ
Center for Knowledge Structuring, The University of Tokyo.
20
3.訂正情報分類器
流言訂正情報の分類
• 本研究では,流言訂正情報をTwitterから収集
• 流言マーカーを含むツイートを訂正情報として収集
– 流言マーカーとして,「デマ」を利用
ツイート例
千葉のコスモ石油、有害な雨が…の件、デマ確定です。拡散しないようにご注意。
→【東北地方太平洋沖地震】コスモ石油、「有害物質が降る」メールに注意呼びかけ
近畿の地震デマだったんだ~複雑だけどよかった
千葉の有害雨もプレート型による深夜の地震もデマか
訂正
情報
デマゴギーって何?デマの省略前の言葉?
なにかデマ騒動があったのかな?
明らかなデマであったなら、論外だけど、そうでないんだから、頭使えよ!、って
かんじだよね。
その他
訂正情報かどうか判定する必要がある
Center for Knowledge Structuring, The University of Tokyo.
21
3.訂正情報分類器
分類器の構築(1/2)
• コーパス(「デマ」を含むツイート)
– 平常時データ:2010年3月のツイート
– 災害時データ:2011年3月のツイート
• 「地震」というキーワードを含むツイート
データ
ツイート数
平常時
災害時
1000件
1000件
Center for Knowledge Structuring, The University of Tokyo.
訂正情報
(正例)
187件
602件
22
3.訂正情報分類器
分類器の構築(2/2)
• 素性
– 流言マーカー「デマ」の
周辺文脈
• 学習アルゴリズム
– SVM(多項カーネル,
d=2)を利用
• 両側,1~3形態素
– ツイートの形態素数
– URLの有無
– 引用(RT @)の有無
ウィンドウサイズ
Center for Knowledge Structuring, The University of Tokyo.
23
Outline
1. 背景と目的
2. 流言情報クラウド
3. 訂正情報分類器
4. 実験
5. まとめ
Center for Knowledge Structuring, The University of Tokyo.
24
4.実験
検証項目
Q1. 判定精度
訂正情報分類器によって,
訂正情報は判定できるか?
Q2. 教師データの影響
平常時のデータを用いた分類器は,
災害時にも性能を発揮できるか?
Center for Knowledge Structuring, The University of Tokyo.
25
4.実験
Q1とQ2に関する検証の概要
• Q1.判定精度
– 各データについて,10分割交差検定により検証
• 平常時データ
• 災害時データ
• 平常時+災害時データ
• Q2.教師データの影響
– 以下の条件で,それぞれの精度を検証
1. 教師データ:平常時データ,
テストデータ:災害時データ
2. 教師データ:災害時データ,
テストデータ:平常時データ
Center for Knowledge Structuring, The University of Tokyo.
26
4.実験
Q1:判定精度
訂正情報分類器によって,
訂正情報は判定できるか?
Center for Knowledge Structuring, The University of Tokyo.
80%程度の精度で
判定可能
27
4.実験
Q2:教師データの影響
平常時のデータを用いた分類器は,
災害時にも性能を発揮できるか?
Center for Knowledge Structuring, The University of Tokyo.
平常時のデータから
80%程度判定可能
28
Outline
1. 背景と目的
2. 流言情報クラウド
3. 訂正情報分類器
4. 実験
5. まとめ
Center for Knowledge Structuring, The University of Tokyo.
29
5.まとめ
本発表のまとめ
• 概要
– 流言拡散を防ぐ仕組みとして,流言情報クラウドを提
案
• 流言を収集する方法として,流言訂正情報に着目
– 流言訂正情報分類器を構築し,精度を評価
• 結果
– 流言訂正情報は,80%程度の精度で判定可能
– 平常時のデータをもとに,災害時の流言訂正情報を
判定可能
Center for Knowledge Structuring, The University of Tokyo.
30
5.まとめ
今後の課題
• 精度の向上
• サービスの運用
Center for Knowledge Structuring, The University of Tokyo.
31
ご清聴ありがとうございました
[email protected]
本研究で用いた地震に関するツイートデータは,
以下のURLから取得・利用できます.
http://mednlp.jp/resource.html
Center for Knowledge Structuring, The University of Tokyo.
32