スパムブログ合成方式 “ワードサラダ”の生成実験

Download Report

Transcript スパムブログ合成方式 “ワードサラダ”の生成実験

鴨志田芳典*
菊池浩明**
**東海大学情報理工学部情報メディア学科
*東海大学
ワードサラダ
つまり自分が、怒りに引き揚げても、謂
わばいいくらいでしたのぞ》を食べなけ
れば通俗の苦しみ、それは、子供のは
爽快《もっ》のこぶしを感じるの腰布(し
かし、めしを、もじもじした。
材料:太宰治「人間失格」
 引用元とは異なる文章を合成する
 毎回異なる文章を生成する
新政権は銀行で、土地約300議席を…
 2回目 元秘書らがないの虚偽記載される…..
 1回目
 構文解析では検出できない
Step1:形態素解析
にわにはにわにわとりがいる。
わににはわにわにわにがおる。
↓ MeCabによる分かち書き
に/わに/はにわ/にわとり/が/いる/。
わに/に/は/わに/わに/わに/が/おる/。
Step2-1:コーパス作成
マルコフ連鎖(n=1)で文を作る場合
はにわ
に
1/2
1/5
1/2 は
いる
1/1
1/1
1/2
1/5 にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
Step3-1
単純マルコフ連鎖による文章生成
はにわ
に
1/2
1/5
1/2 は 1/5
いる
1/1
1/1
1/2
にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
に は わに わに わに にわに
はにわにわとり が いる 。
Step2-1:コーパス作成 (n=2)
に/わに
1/1
わに/はにわ
1/1
はにわ/にわとり
1/1
1/1
にわとり/が
わに/に
1/1
が/いる
に/は
1/1
1/1
いる/。
は/わに
1/1
わに/わに
2/3
1/3
わに/が
1/1
が/おる
1/1
おる/。
Step3-2
2階マルコフ連鎖による文章生成
わにに は わにわにわに わに が おる 。
わに/に
1/1
に/は
1/1
は/わに
1/1
わに/わに
2/3
1/3
わに/が
1/1
が/おる
1/1
おる/。
単純マルコフ連鎖(n=1)
基本方針を含め、罰金の314年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50%台に組んだ47
千万円の数百万円単位の運営する政治主導した。
3階マルコフ連鎖
(n=3)
この3億円を含め、新生党と自由党の解党時の残金22億
円余が、小沢氏関連の3つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
マルコフ情報源
現在出現する事象の確率が,
それ以前の要素によって決定する情報源
n 階マルコフ連鎖
マルコフ性を持つ確率過程において
時間的な連続性のないもの
n 階マルコフ連鎖において
i 番目に出力される語Xiの発生確率
P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)
ワードサラダを試験的に作成し評価
その結果を元にワードサラダの
効果的な排除方法について検討
評価データ
5000文字程度の政治・経済に関する記事から
合成したワードサラダについて
ワードサラダ(n=1,…,4) 40題
センテンスサラダ
10題
原文からの一部切り取り 50題
計100題
平均応答時間
20
16
平均正答率
応
12 答
時
間
8
s
正
答
率
[ ]
[%]
4
0
階数 n
センテンス
原文
正答率 100%
応答時間平均4.6秒 (n=1)
基本方針を含め、罰金の314年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50%台に組んだ47
千万円の数百万円単位の運営する政治主導した。
正答率50%
(n=3)
応答時間平均23.4秒
この3億円を含め、新生党と自由党の解党時の残金22億
円余が、小沢氏関連の3つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
実験内容
条件を揃えた評価データをブログサービス「ココログ」に公開
し、3日間のアクセス情報を観測する。
評価データ
話題のニュース記事3,…,5 件から合成した
ワードサラダについて
ワードサラダ(n=1,…,4)
16件
センテンスサラダ
4件
自然な文章
4件
(文脈を考慮しコーパスを切り貼りした文章)
計24件
センテンス
切り貼り
実験内容
ワードサラダ1000文を生成し復元率を調査する
復元率
=
元の文書と同じ文を生成した数
文を生成した数
評価データ
夏目漱石著 「吾輩ハ猫デアル」 の本文の一部
から作られたワードサラダについて
ワードサラダ
コーパス長 L = 2500, . . . , 10000
階数
n =1, . . . , 6
L = 2500
復
元
率
L = 5000
(%)
L = 10000
階数n
 実験1より
 ワードサラダは階数が増える程,
自然な文章と見分けがつき辛くなる
 実験2より
 ココログではワードサラダの文法に対する
フィルタリングは行われていない
 ワードサラダである事はアクセス数には無関係
 実験3より
 復元率が80%を超える階数nとコーパス長Lの
値の組み合わせが存在する
T. Larvergne, et al.,:“Detecting Fack Content with Relatine Entropy Scoring”,
CEVR,Vol.377, pp. 27-31,2008.
ワードサラダは
「生成される語はn 語前まで にしか依存していない」
これに着目し,n+1gramでのカルバック・ライブラー情報量の
差を用いて検出を行う方法。
しかし
実験3の結果より、
復元率が80%を超える階数nとコーパス長Lの値の組み合わせ
が存在する。
この場合従来手法では検出ができない。
大規模なコーパスや, 口語表現を多く用いたコーパ
スを用いた場合についての実験
それに伴ったシステムの改良
ワードサラダの検出方法の再検討
御清聴御有難う御座いました。
従来手法と,Webからの検索を合わせて
使用してフィルタリングする必要がある.
マルコフ連鎖による文生成には, データベースの増大に伴
い一文の文字数が多くなる事が知られており、本研究で
もその事を確認している。
ならばワードサラダの一文の 文字数から
コーパスサイズが予測できる可能性がある.
コーパスサイズが予測できれば、従来手法で検出不可能
であることを事前に窺い知る事が できるかもしれない
ね!?
また文末までを表示しないワードサラダも存在するが,
その場合 文末に相応しくない単語が出現しているため,
そこから検出できるはず。
 コーパス
とは
 電子化され大量に蓄積された言語データ
 サンプルコーパス
 モニタコーパス
 汎用コーパス
 特殊目的コーパス
 コーパスの特性を把握した上で、目的にあったコーパ
スを選択する必要がある。
26