スパムブログ合成方式 “ワードサラダ”の生成実験

Transcript スパムブログ合成方式 “ワードサラダ”の生成実験

鴨志田芳典*
菊池浩明**
**東海大学情報理工学部情報メディア学科
*東海大学
ワードサラダ
つまり自分が、怒りに引き揚げても、謂
わばいいくらいでしたのぞ》を食べなけ
れば通俗の苦しみ、それは、子供のは
爽快《もっ》のこぶしを感じるの腰布（し
かし、めしを、もじもじした。
材料：太宰治「人間失格」
 引用元とは異なる文章を合成する
 毎回異なる文章を生成する
新政権は銀行で、土地約300議席を…
 2回目元秘書らがないの虚偽記載される…..
 1回目
 構文解析では検出できない
Ｓｔｅｐ１：形態素解析
にわにはにわにわとりがいる。
わににはわにわにわにがおる。
↓ MeCabによる分かち書き
に/わに/はにわ/にわとり/が/いる/。
わに/に/は/わに/わに/わに/が/おる/。
Step2-1:コーパス作成
マルコフ連鎖(n=1)で文を作る場合
はにわ
に
1/2
1/5
1/2 は
いる
1/1
1/1
1/2
1/5 にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
Step3-1
単純マルコフ連鎖による文章生成
はにわ
に
1/2
1/5
1/2 は 1/5
いる
1/1
1/1
1/2
にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
にはわにわにわににわに
はにわにわとりがいる。
Step2-1:コーパス作成 (n=2)
に／わに
1/1
わに／はにわ
1/1
はにわ／にわとり
1/1
1/1
にわとり／が
わに／に
1/1
が／いる
に／は
1/1
1/1
いる／。
は／わに
1/1
わに／わに
2/3
1/3
わに／が
1/1
が／おる
1/1
おる／。
Step3-2
2階マルコフ連鎖による文章生成
わににはわにわにわにわにがおる。
わに／に
1/1
に／は
1/1
は／わに
1/1
わに／わに
2/3
1/3
わに／が
1/1
が／おる
1/1
おる／。
単純マルコフ連鎖（n=1）
基本方針を含め、罰金の３１４年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50％台に組んだ４７
千万円の数百万円単位の運営する政治主導した。
３階マルコフ連鎖
(n=3)
この３億円を含め、新生党と自由党の解党時の残金２２億
円余が、小沢氏関連の３つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
マルコフ情報源
現在出現する事象の確率が，
それ以前の要素によって決定する情報源
n 階マルコフ連鎖
マルコフ性を持つ確率過程において
時間的な連続性のないもの
n 階マルコフ連鎖において
i 番目に出力される語Xiの発生確率
P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)
ワードサラダを試験的に作成し評価
その結果を元にワードサラダの
効果的な排除方法について検討
評価データ
5000文字程度の政治・経済に関する記事から
合成したワードサラダについて
ワードサラダ（n=1,…,4） 40題
センテンスサラダ
10題
原文からの一部切り取り 50題
計100題
平均応答時間
20
16
平均正答率
応
12 答
時
間
8
ｓ
正
答
率
[ ]
[%]
4
0
階数 n
センテンス
原文
正答率 100%
応答時間平均4.6秒（n=1）
基本方針を含め、罰金の３１４年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50％台に組んだ４７
千万円の数百万円単位の運営する政治主導した。
正答率50%
(n=3)
応答時間平均23.4秒
この３億円を含め、新生党と自由党の解党時の残金２２億
円余が、小沢氏関連の３つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
実験内容
条件を揃えた評価データをブログサービス「ココログ」に公開
し、3日間のアクセス情報を観測する。
評価データ
話題のニュース記事3,…,5 件から合成した
ワードサラダについて
ワードサラダ（n=1,…,4）
１６件
センテンスサラダ
４件
自然な文章
４件
(文脈を考慮しコーパスを切り貼りした文章)
計24件
センテンス
切り貼り
実験内容
ワードサラダ1000文を生成し復元率を調査する
復元率
＝
元の文書と同じ文を生成した数
文を生成した数
評価データ
夏目漱石著「吾輩ハ猫デアル」の本文の一部
から作られたワードサラダについて
ワードサラダ
コーパス長 L = 2500, . . . , 10000
階数
n =1, . . . , 6
L = 2500
復
元
率
L = 5000
(%)
L = 10000
階数n
 実験1より
 ワードサラダは階数が増える程，
自然な文章と見分けがつき辛くなる
 実験2より
 ココログではワードサラダの文法に対する
フィルタリングは行われていない
 ワードサラダである事はアクセス数には無関係
 実験3より
 復元率が80%を超える階数nとコーパス長Ｌの
値の組み合わせが存在する
T. Larvergne, et al.,：“Detecting Fack Content with Relatine Entropy Scoring”,
CEVR,Vol.377, pp. 27-31,2008.
ワードサラダは
「生成される語はn 語前までにしか依存していない」
これに着目し，n+1gramでのカルバック・ライブラー情報量の
差を用いて検出を行う方法。
しかし
実験３の結果より、
復元率が80%を超える階数nとコーパス長Ｌの値の組み合わせ
が存在する。
この場合従来手法では検出ができない。
大規模なコーパスや, 口語表現を多く用いたコーパ
スを用いた場合についての実験
それに伴ったシステムの改良
ワードサラダの検出方法の再検討
御清聴御有難う御座いました。
従来手法と,Webからの検索を合わせて
使用してフィルタリングする必要がある.
マルコフ連鎖による文生成には, データベースの増大に伴
い一文の文字数が多くなる事が知られており、本研究で
もその事を確認している。
ならばワードサラダの一文の文字数から
コーパスサイズが予測できる可能性がある.
コーパスサイズが予測できれば、従来手法で検出不可能
であることを事前に窺い知る事ができるかもしれない
ね！？
また文末までを表示しないワードサラダも存在するが，
その場合文末に相応しくない単語が出現しているため，
そこから検出できるはず。
 コーパス
とは
 電子化され大量に蓄積された言語データ
 サンプルコーパス
 モニタコーパス
 汎用コーパス
 特殊目的コーパス
 コーパスの特性を把握した上で、目的にあったコーパ
スを選択する必要がある。
26

スパムブログ合成方式 “ワードサラダ”の生成実験

Transcript スパムブログ合成方式 “ワードサラダ”の生成実験

Directory