スパムブログ合成方式 “ワードサラダ”の生成実験
Download
Report
Transcript スパムブログ合成方式 “ワードサラダ”の生成実験
鴨志田芳典*
菊池浩明**
**東海大学情報理工学部情報メディア学科
*東海大学
ワードサラダ
つまり自分が、怒りに引き揚げても、謂
わばいいくらいでしたのぞ》を食べなけ
れば通俗の苦しみ、それは、子供のは
爽快《もっ》のこぶしを感じるの腰布(し
かし、めしを、もじもじした。
材料:太宰治「人間失格」
引用元とは異なる文章を合成する
毎回異なる文章を生成する
新政権は銀行で、土地約300議席を…
2回目 元秘書らがないの虚偽記載される…..
1回目
構文解析では検出できない
Step1:形態素解析
にわにはにわにわとりがいる。
わににはわにわにわにがおる。
↓ MeCabによる分かち書き
に/わに/はにわ/にわとり/が/いる/。
わに/に/は/わに/わに/わに/が/おる/。
Step2-1:コーパス作成
マルコフ連鎖(n=1)で文を作る場合
はにわ
に
1/2
1/5
1/2 は
いる
1/1
1/1
1/2
1/5 にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
Step3-1
単純マルコフ連鎖による文章生成
はにわ
に
1/2
1/5
1/2 は 1/5
いる
1/1
1/1
1/2
にわとり
1/1
1/1
1/1
わに
2/5
1/5
。
が
おる
1/2
に は わに わに わに にわに
はにわにわとり が いる 。
Step2-1:コーパス作成 (n=2)
に/わに
1/1
わに/はにわ
1/1
はにわ/にわとり
1/1
1/1
にわとり/が
わに/に
1/1
が/いる
に/は
1/1
1/1
いる/。
は/わに
1/1
わに/わに
2/3
1/3
わに/が
1/1
が/おる
1/1
おる/。
Step3-2
2階マルコフ連鎖による文章生成
わにに は わにわにわに わに が おる 。
わに/に
1/1
に/は
1/1
は/わに
1/1
わに/わに
2/3
1/3
わに/が
1/1
が/おる
1/1
おる/。
単純マルコフ連鎖(n=1)
基本方針を含め、罰金の314年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50%台に組んだ47
千万円の数百万円単位の運営する政治主導した。
3階マルコフ連鎖
(n=3)
この3億円を含め、新生党と自由党の解党時の残金22億
円余が、小沢氏関連の3つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
マルコフ情報源
現在出現する事象の確率が,
それ以前の要素によって決定する情報源
n 階マルコフ連鎖
マルコフ性を持つ確率過程において
時間的な連続性のないもの
n 階マルコフ連鎖において
i 番目に出力される語Xiの発生確率
P(Xi) = P(Xi|Xi−1, Xi−2, . . . , Xi−n)
ワードサラダを試験的に作成し評価
その結果を元にワードサラダの
効果的な排除方法について検討
評価データ
5000文字程度の政治・経済に関する記事から
合成したワードサラダについて
ワードサラダ(n=1,…,4) 40題
センテンスサラダ
10題
原文からの一部切り取り 50題
計100題
平均応答時間
20
16
平均正答率
応
12 答
時
間
8
s
正
答
率
[ ]
[%]
4
0
階数 n
センテンス
原文
正答率 100%
応答時間平均4.6秒 (n=1)
基本方針を含め、罰金の314年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50%台に組んだ47
千万円の数百万円単位の運営する政治主導した。
正答率50%
(n=3)
応答時間平均23.4秒
この3億円を含め、新生党と自由党の解党時の残金22億
円余が、小沢氏関連の3つの政治団体に移されていたこ
とが、関係者への取材で分かった。鳩山首相は不起訴だ
ったとはいえ、政治的責任は極めて重大である。
実験内容
条件を揃えた評価データをブログサービス「ココログ」に公開
し、3日間のアクセス情報を観測する。
評価データ
話題のニュース記事3,…,5 件から合成した
ワードサラダについて
ワードサラダ(n=1,…,4)
16件
センテンスサラダ
4件
自然な文章
4件
(文脈を考慮しコーパスを切り貼りした文章)
計24件
センテンス
切り貼り
実験内容
ワードサラダ1000文を生成し復元率を調査する
復元率
=
元の文書と同じ文を生成した数
文を生成した数
評価データ
夏目漱石著 「吾輩ハ猫デアル」 の本文の一部
から作られたワードサラダについて
ワードサラダ
コーパス長 L = 2500, . . . , 10000
階数
n =1, . . . , 6
L = 2500
復
元
率
L = 5000
(%)
L = 10000
階数n
実験1より
ワードサラダは階数が増える程,
自然な文章と見分けがつき辛くなる
実験2より
ココログではワードサラダの文法に対する
フィルタリングは行われていない
ワードサラダである事はアクセス数には無関係
実験3より
復元率が80%を超える階数nとコーパス長Lの
値の組み合わせが存在する
T. Larvergne, et al.,:“Detecting Fack Content with Relatine Entropy Scoring”,
CEVR,Vol.377, pp. 27-31,2008.
ワードサラダは
「生成される語はn 語前まで にしか依存していない」
これに着目し,n+1gramでのカルバック・ライブラー情報量の
差を用いて検出を行う方法。
しかし
実験3の結果より、
復元率が80%を超える階数nとコーパス長Lの値の組み合わせ
が存在する。
この場合従来手法では検出ができない。
大規模なコーパスや, 口語表現を多く用いたコーパ
スを用いた場合についての実験
それに伴ったシステムの改良
ワードサラダの検出方法の再検討
御清聴御有難う御座いました。
従来手法と,Webからの検索を合わせて
使用してフィルタリングする必要がある.
マルコフ連鎖による文生成には, データベースの増大に伴
い一文の文字数が多くなる事が知られており、本研究で
もその事を確認している。
ならばワードサラダの一文の 文字数から
コーパスサイズが予測できる可能性がある.
コーパスサイズが予測できれば、従来手法で検出不可能
であることを事前に窺い知る事が できるかもしれない
ね!?
また文末までを表示しないワードサラダも存在するが,
その場合 文末に相応しくない単語が出現しているため,
そこから検出できるはず。
コーパス
とは
電子化され大量に蓄積された言語データ
サンプルコーパス
モニタコーパス
汎用コーパス
特殊目的コーパス
コーパスの特性を把握した上で、目的にあったコーパ
スを選択する必要がある。
26