Transcript Slides

マルコフ連鎖による合成文章の不自然さを用いた
CAPTCHAの安全性評価と改良について
東海大学大学院
工学研究科情報理工学専攻
○鴨志田芳典 菊池浩明
2012/07/04
DICOMO2012
1
CAPTCHA
CAPTCHA
(Completely Automated Public Turing test to tell Computers and Humans
Apart)


プログラムによるアカウントの大量取得対策など
文字列画像変形CAPTCHAの脆弱性


より高性能なOCR機能を持つ攻撃
大量の人手による攻撃
(リレーアタック・クラウドサーチング)
2
関連研究
人間の高度な認知処理を用いたCAPTCHA

Assira[3]




J. Elson,J. Douceur,J. Howell and J. Saul
2007 ACM CSS, pp. 366-374, 2007.
特定の特徴を持つ画像を選択させるCAPTCHA
機械翻訳の違和感を用いたCAPTCHA[6]
 山本匠,J. D. Tygar, 西垣正勝
 CSEC-46 No. 37,2009.
 文章の自然さ、不自然さを認識する事の困難さを利用
3
マルコフ連鎖による
合成文章の不自然さを用いたCAPTCHA

CAPTCHA方法



合成された文 (Spam)と人の書いた文(Ham)を順次提示
それぞれ不自然,自然を判断させる
正しく判断できた回数kが閾値θ以上ならばCAPTCHA成功
ラク・オバマ大統領の紛争や
国民に対して政治的に殆ど
被害を謳歌している。

自然!
不自然!
不自然な文としてワードサラダを合成する.




ワードサラダ:マルコフ連鎖モデルを利用した合成文章
スパムの大量投稿に利用されている
文法が正しく合成される傾向があり,検出が困難
ある程度以上の語学力が無ければ,判断は難しい
4
要素技術:マルコフ連鎖による文章合成
単純マルコフ連鎖モデル(n=1)を用いる場合
今日は雨が降った。
入力(コーパス) 今日は気温が高い。
気温
高い
1/2
1/2
1/1
1/1
1/1
。
が
今日
は
1/2
1/2
雨
出力例:今日は気温が降った。
1/1
降った
5
本日の発表
1.
文章校正を用いた攻撃に対する耐性の評価
2.
より良い出題条件の検討
3.
日本語以外への言語への適用
6
Pq 人の一題辺りの
CAPTCHA 失敗率
Pw 機械の一題辺りの
1. 文章校正を用いた攻撃に
対する耐性の評価
case3(20c5)
図4
1.2
CAPTCHA 正答率
c CAPTCHA の問題数の総数
s
CAPTCHA に含まれる
h
CAPTCHA に含まれる
hc
spam 文書数
hum 文書数
k 正解数
θ 正解数の閾値
1
認証成功率(%)
認
証
成
功
率
校正使用
機械受入率 F ( M ) AR w
0.8
c  k
ck
  k  Pw (1  Pw )
k  

c
FAR
w

FRR
0.6
FARw
総当り攻撃
EER
0.4
c
FRR 

k 
random
FAR  FRR となる値
人間拒否率 F ( H ) RR
0.2
23%
c  k
ck
  Pq (1  Pq )
k 
8%
0
0
2
4
6
8
10
閾値θ(k)
閾値θ(k)
12
14
16
18
20
7
実験2:実験内容

目的


評価データ



文章校正ツールによる検出の精度の調査
n=1, 2, 3のワードサラダとニュース記事の切り取り
各300文
内容


評価データについて,Microsoft Word2007による文章校
正が行われる確率を調査
タイプミス(赤線)、要検討(緑線)を共に校正が行われたとし
て、1箇所でも校正が行われた文は校正されたと扱う.
8
W 文章校正が行われる
事象
P (W ) 文章校正が行われる確
実験2:実験結果
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
 実験結果
表4:文章校正が行われた確率P(W|X=S)

検出された例
 第二次世界における影響力は、各国の影響力を樹立し
ていったのクリストファー・検閲等から遠洋捕鯨が民間
に送られてさらに各地から購入した。
書き間違いとして検出
9
W 文章校正が行われる
事象
P (W ) 文章校正が行われる確
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
一題当りの校正率から確率を纏める P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
一題辺りの検出(文章校正)が行われる確率P(W)
CAPTCHA中のSpamの割合×Spamに校正が行われる確率
+CAPTCHA中のHumの割合×Humに校正が行われる確率
= 0.24×0.25 + 0×0.75 = 0.06
CAPTCHA
P(X=S)=0.25
Spam
全体の中で検
出が行われる
割合
P(W)=0.06
P(W|X=S)P(X=S)
=0.19
P(W|X=S)
P(W|X=S)P(X=S)
=0.06
×P(X=S)=0.06
P(X=H)=0.75
Ham
校
正
無
P(W|X=H)P(X=H)
=0.75
校正有
P(W|X=H)P(X=H)=0
P(W|X=H)P(X=H)=0
10
W 文章校正が行われる
事象
P (W ) 文章校正が行われる確
機械の正解率を求める
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
判定
X=S
X=H
W
P(X=S|W)
=1
P(X=H|W)
=0
W
P(X=S|W)
=0.2
P(X=H|W)
=0.8
検出
表7.出題と機械判定の条件付き確率P(Yw|X)
判定
Yw=H
Yw=S
入力
X=H
0.798
0.202
X=S
0.394
0.606
機械の正答率
Pw  0 . 697
11
Pq 人の一題辺りの
CAPTCHA 失敗率
Pw 機械の一題辺りの
実験2:評価
CAPTCHA 正答率
c CAPTCHA の問題数の総数
case3(20c5)
図4
1.2
s
CAPTCHA に含まれる
h
CAPTCHA に含まれる
hc
spam 文書数
hum 文書数
k 正解数
θ 正解数の閾値
1
認証成功率(%)
精
度
校正使用
機械受入率 F ( M ) AR w
0.8
c  k
ck
  k  Pw (1  Pw )
k  

c
FAR
w

Pw=0.697
0.6
FRR
FARw
総当り攻撃
0.4
人間拒否率
0.2
c
FRR 

k 
random
EER
Pr=0.625
F ( H ) RR
23%
FAR  FRR となる値
c  k
ck
  Pq (1  Pq )
k 
Pq=0.135
0
0
2
4
6
8
10
閾値θ(k)
閾値θ(k)
12
14
16
18
20
12
評価3.1 より良い出題条件の検討
1.0
P(X=S)=0.55の時
0.8
P(X=S,Yw=S)
Pw
機
械
の
正
答
率
最低値を取る
校正使用
0.6
総当り
0.4
0.2
機械にとってはHamが多い方が都合が良い.
人にとってはSpamが多い方が都合が良い.
0
0
0.2
0.4
0.6
Spam出題率P(X=S)
0.8
01.0
13
評価3.2 より良い出題条件の検討
1
P(X=S)=0.45の時
EER=15%
0.1
FAR
0.01
P(X=S)=0.50の時
よりも精度が良い.
0.001
FRR
0.0001
0.0001
0.001
0.01
0.1
1
14
3. 日本語以外への言語への適用
実験3

目的


内容


提案手法を他言語へ適用する為の条件を調査する
各言語の評価データを順次提示し,正答率を計測
評価データ
Wikipediaのアメリカ合衆国の記事の本文から合成した
Spam (n=1,2,3)各10題と本文の一部切り取り(Ham)10題
計40題

被験者

日本人学生3名,イギリス,中国,タイ人学生それぞれ1名
15
例:英語ワードサラダ(Spam)
 スペースを区切りとし、括弧表現()を取り除いた.
 n=1
 Farther west of the Dutch ceded their establishment of New
Amsterdam on the United States is the north to the U.S. s American
Revolution, with an American Civil War of Alaska's most recent
state-eight national economy is a strong central North American is
sub arctic or polar.
 n=3
 The United States also possesses five major overseas territories:
Puerto Rico and the United States displaced native tribes, acquired
the Louisiana territory from France, Florida from Spain, part of the
Oregon Country from the United Kingdom, Alta California and New
Mexico from Mexico, and Alaska from Russia, and annexed the
Republic of Hawaii.
16
例:タイ語ワードサラダ


コーパスの分かち書きは,
タイ人留学生に依頼し手作業で行った.
n=1
 ที่ราบชายฝั่งแอตแลนติกเป็ นประเทศจึงรับอิสรภาพ ผลของสหรัฐอเมริ กา โดย
ในอีกครึ่ งศตวรรษต่อมาอย่างรวดเร็ว ขบวนการตรวจสอบและวัฒนธรรมของ
ฝ่ ายมหาอานาจกลางตกต่าครั้งที่สามารถเอาชนะของแอฟริ กนั เพียงแต่ระดับชาติ
เข้ามาจากความขัดแย้งทางการโจมตีค่ายซัมเตอร์ของประเทศ ซึ่ งได้ประกาศ
และยุติการค้าทาสแอฟริ กนั อเมริ กนั ถึงแม้วา่ เป็ นพลเมืองของป่ าไม้ไม่ผลัดใบ
เข้ามาเป็ นประเทศเศรษฐกิจ การทาให้รัฐกสิ กรรมทางการบังคับแห่งชาติที่รู้จกั
กันมากอพยพจากข้อมูลของฝ่ ายสมาพันธรัฐเป็ นการเลิกกฎหมายในพื้นที่
ครอบคลุมส่ วนใหญ่ในสงครามยุติ รัฐสภาไม่นบั รวมกับรองลงสมัครรับความ
กระตือรื อร้นของประเทศไป
17
実験3.実験結果
P(Y=S,X=S)
P(Y=H,X=H)
言語
n=1
n=2
n=3
自然文
日本
0.87
0.47
0.20
0.90
英語
1.0
0.8
0.6
0.7
中国
1.0
0.8
0.5
0.7
タイ
1.0
1.0
0.8
0.6
提案方式で使用するn=1のワードサラダ(Spam)において,
高い確率で不自然と判定出来るという結果.
18
考察

タイ語では,全ての場合で不自然に見える



文節記号がない為,文の終了条件を学習出来ない
形態素解析を手動で行った
それ以外の言語では,理想的な結果が得られた


それぞれの言語で文法等は大きく異なる
適切な形態素解析が他言語への適用条件
19
おわりに


結論

文章校正による検出で提案手法の精度は8%低下する.

攻撃者の判断の精度を考慮して出題を調整する事により精度は
8%向上した.

適切な形態素解析を行えれば,提案手法は日本語以外にも適
用可能である.
今後の課題
 他のスパム検出法を用いた場合との精度の比較
 問題に含まれるスパムの割合を一定にしない場合の精度の評価
 提案手法において,検出され得るスパムを予めに除去する機能の追加
 他言語への適応についての再実験
20
21
22
実験3:実験結果1
文章量による正答率
1行
5行
増減
自然な文 (n=5)
0.91
0.59
+0.32
ワードサラダ(m=10)
0.73
0.99
-0.27
5行
増減
文章量による応答時間[秒](N=1)
1行
自然な文 (n=5)
8.05
21.07
-13.2
ワードサラダ (m=10)
6.19
13.2
-7.01
23
実験3:実験結果2
表2:文章量による正答率
N=1
N=2
N=3
自然な文 (n=5)
0.91
0.80
0.68
ワードサラダ(m=10)
0.73
0.62
0.45
表3:文章量による応答時間[秒]
N=1
N=2
N=3
自然な文 (n=5)
8.05
8.12
7.44
ワードサラダ (m=10)
6.19
7.76
8.58
24
文章量によるERRの比較
必要時間 151.7秒
0.031
θ=15 のとき,
FRR=0.043, FAR=0.02
また,最小 EERは
0.031
25
改善案の検討
1.
問題文を短くする
2.
より不自然な文を合成するように,
ワードサラダを調整する.
2.1
2.2

コーパスサイズの拡大
より適切なコーパスの選択
今後実験予定
2.3
2.4
マルコフ連鎖の遷移確率の操作
ワードサラダの検出手法の応用
26
おわりに

マルコフ連鎖による合成文章を利用した
CAPTCHAを提案した.


提案手法は,最適な条件下では,人間拒否率及び機械受け入
れ率2%の精度と,308.75秒のパフォーマンスで検査が可能
である事を示した.
文章の不自然さの理解を用いた問題は,
リレーアタックに耐性を持つ事を示した.
 今後の課題




実験2:留学生による主観評価の再実験
提案手法の実装実験
より短い文章量で不自然さを確保できる文章合成方法の検討
n, m, θを一度のCAPTCHA毎に可変とした時の評価
27
実験結果:正答率
Nの増加に従い減少
不自然な文書に対する正答率k/m
日本人:
0.9875 ±0.04 (N=1)
凡そ0.2ポイントの差
留学生:
0.81 ±0.12 (N=1)
自然な文書に対する正答率k/ n
日本人:
0.59±0.19
留学生: ※ 0.50
※実験を行っていないため,暫定的に最低値とした
センテンス
28
実験結果:応答時間
センテンス
29
ワードサラダの文章合成例
単純マルコフ連鎖(N=1)
基本方針を含め、罰金の314年に丸投げした。本人を受
け、12月中旬に目先の寄付を記載する二つの辞任を導入
し、まじめに同額の事務所は、実際は50%台に組んだ47
千万円の数百万円単位の運営する政治主導した。
3階マルコフ連鎖(N=3)
この3億円を含め、新生党と自由党の解党時の残金22億
円余が、小沢氏関連の3つの政治団体に移されていたこと
が、関係者への取材で分かった。鳩山首相は不起訴だっ
たとはいえ、政治的責任は極めて重大である。
30
関連研究
•山本匠,J. D. Tygar, 西垣正勝
機械翻訳の違和感を用いたCAPTCHA の提案

コンセプト

機械翻訳により再翻訳された語
の違和感を利用して,
CAPTCHAを行う.
山本匠,J. D. Tygar, 西垣正勝:機械翻訳の違和感を用いたCAPTCHA の
31
提案,情報処理学会研究報告, CSEC-46 No. 37,2009. より図を引用.
閾値θについてのFRRとFAR
(n=5,m=15)
CAPTCHAとして適切なパラメータ
n=5, m=15の20題のとき
正解数kの閾値θ=15で
EERは最低値を取る.
32
ワードサラダの割合による
精度の変化
0.155
0.049
0.02
n=5, m=15の20題
正解数kの閾値θ=15
この時,
FRR及びFARは2%
33
実験
文字列変形CAPTCHAとの比較

目的
広く利用されている文字列変形CAPTCHAとの精度とパフォー
マンスの違いを調査する.
CAPTCHA公式サイトに提示されているCAPTCHAデモプログラ
ムを利用し,2名に20回ずつCAPTCHAを行わせ,成功率と必
要時間を計測する.
34
従来手法との比較:結果
FRR
提案手法
(マルコフ)
文字列
画像変形
2%
0%
FAR
必要時間
リレーア
タック
2% 307.85秒 58%
9.74秒 耐性低
35
過去研究:日本人による主観評価

実験内容
 日本人学生9名と留学生3名に対し評価データを100件で提示し,
コンピュータで合成された文章か否かを判定させ, 正答率と応答時
間を計測する.
評価データ
作文方法
ワードサラダ
(Order N = 1,…,4)
件数
40題
センテンスサラダ
コーパスの一部抜粋

10題
50題
計100題
5000文字程度の政治・経済に関する記事から合成
36
実験3:日本人による主観実験2

目的
文章量と正答率k/n, k/mの関係を調査する.

7名の被験者に対し,1行の文からなる評価データ
をn=5,m=10,s=15の条件で順次提示し,被験者に
自然か不自然かを判断させ正答率k/n, k/mと応
答時間を計測する.
37
評価方法
CAPTCHA1問あたりの成功/失敗率を以下の同時確率で与え
成功
る.
P (Y  H , X  H )  P (Y  H | X  H ) P ( X  H )
P (Y  S , X  S )  P (Y  S | X  S ) P ( X  S )
失敗
P (Y  S , X  H )  P (Y  S | X  H ) P ( X  H )
P (Y  H , X  S )  P (Y  H | X  S ) P ( X  S )
これらをまとめて,CAPTCHA失敗率Pqを以下のように定める.
P  P(Y  S,X  H)  P(Y  H,X  S)
q
38
評価:1
Order n=1, の時の条件付確率P(Y|X)
判別文書 Y=H
Y=S
X=Human
0.59
0.41
X=Spam
0.01
0.99
入力文書
自然な文書の出題率:
P(X  H ) 
n
s
不自然な文書の出題率
: P(X  S ) 
m
s
 1
n
s
39
実験2
タイ語ワードサラダの文章量
40
留学生と日本人との精度の差
精度に27%の差
41
文章量による精度の変化
総当たり攻撃を想定した時,
自然な文の出題数 h=15
スパムの出題数 s=5
総問題数 c=20
正解数kの閾値Θ=15 の時,
EER = 3.7%
42
提案手法:概要
問題1:自然な文章
解答1:自然
問題2:不自然な文章
解答2:不自然
問題3:自然な文章
解答3:不自然
問題4:不自然な文章
解答4:不自然
問題5:不自然な文章
問題5:自然
正解数 k = 3
閾値 θ = 4 とした場合
自然な文書数 h = 2
不自然な文書数 s = 3
全体の問題数 c = 5
正答率Pq = k/c = 3/5
43
リレーアタック
攻撃者のWebサイト
3.CAPTCHA問題閲覧
低賃金労働者
26714
.
攻撃プログラム
5
解
答
取
得
4.解答送信
.
2
問
題
転
載
正規Webサイト
6.アカウント取得
1.CAPTCHA問題取得
44
提案手法:方法
1.
Webからのコーパス収集
2.
n階マルコフ連鎖による文章合成
3.
CAPTCHAによる検査



自然な文書h個,不自然な文書s個からなる
c個の文書を順次提示
解答の方法は「自然」か「不自然」の二択
正解数kの値が閾値θ以上ならCAPTCHA成功
45
提案手法:概要
 合成された文と人の書いた文を順次提
示する.
 出題に対して自然・不自然を正確に判断
できた回数を正解数とし,正解数が閾値
以上であればCAPTCHA成功とする.
46
実験2:実験内容

目的
文章量と正答率k/n, k/mの関係を調査する.

7名の被験者に対し,1行の文からなる評価データ
をh=5,s=10,c=15の条件で順次提示し,被験者に
自然か不自然かを判断させ正答率応答時間を計
測する.
47
従来研究
•提案方式を実装し、実験により「日本人はどれくらい
ワードサラダを不自然であると感じるのか」を評価.
•日本人は8割以上の確率でワードサラダを不自然
と感じる.
•総当り攻撃への耐性を評価.
•総当り攻撃を想定した場合,人間拒否率及び機
械受け入れ率は3.7%.
精度に27%の差
•日本語を学んだ留学生と日本人学生との精度の比
較により、リレーアタックへの耐性を評価.
•同閾値では、留学生との成功率の差は27%.
48
実験2:実験結果
Order n=1, の時の条件付確率P(Y|X)
判別文書 Y=H
Y=S
X=Human
0.91
0.09
X=Spam
0.27
0.73
入力文書
自然な文書の出題率:
P(X  H ) 
h
c
不自然な文書の出題率
: P(X  S ) 
s
c
 1
h
c
49
Step1.一題当りの校正(検出)率を求める
一題辺りの文章校正が行われる確率は、
CAPTCHA中のSpamの割合×Spamに校正が行われる確率
+CAPTCHA中のHumの割合×Humに校正が行われる確率
CAPTCHA
Spam
校正されない
Hum
校正されない
校正される
校正される
50
W 文章校正が行われる
事象
P (W ) 文章校正が行われる確
Step1.
一題当りの校正(検出)率を求める
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
一題辺りの検出(文章校正)が行われる確率P(W)は、
CAPTCHA中のSpamの割合×Spamに校正が行われる確率
+CAPTCHA中のHumの割合×Humに校正が行われる確率
= 0.24×0.25 + 0×0.75 = 0.06
CAPTCHA
P(X=S)=0.25
Spam
全体の中で検
出が行われる
割合
P(W)=0.06
P(W|X=S)P(X=S)
=0.19
P(W|X=S)
P(W|X=S)P(X=S)
=0.06
×P(X=S)=0.06
P(X=H)=0.75
Ham
校
正
無
P(W|X=H)P(X=H)
=0.75
校正有
P(W|X=H)P(X=H)=0
P(W|X=H)P(X=H)=0
51
W 文章校正が行われる
Step2.
機械の解答率を求める

事象
P (W ) 文章校正が行われる確
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
機械の解答率を求める.


校正が行われない時に機械がSpamと判定する確率
P(X=S|W) はベイズの定理により求められる
P( X  S |W ) 
P (W | X  S ) P ( X  S )
P (W )

0 . 76  0 . 25
 0 .2
0 . 94
着色部分以外を
無視した時の、
オレンジの割合
P(X=S|W)
=0.2
P(X=H|W)
=0.8
52
W 文章校正が行われる
Step2.
機械の解答率を求める

事象
P (W ) 文章校正が行われる確
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
Step2.1と同様に以下の表の値を求める.
判定
X=S
検出
W
X=H
P(X=H|W)
P(X=S|W)
=1
=0
P(X=S|W)
P(X=H|W)
=0.2
=0.8
W
今回の場合では,検出された時必ずSpamと判定し,
検出されない時は0.8の確率でHamと判定する.
(校正されないからといってHamと断定する事は出来ない)

53
W 文章校正が行われる
Step3.
機械の解答の正解率を求める

事象
P (W ) 文章校正が行われる確
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
機械の解答の正解率を求める.
 機械による判定率P(X=H|W),P(X=S|W)
⇒機械による出力率P(Yw=H|W),P(Yw=S|W)

機械のSpam判定が正解する確率
P (Y w  S , X  S )
 P (Y w  S | W ) P (W | X  S )  P (Y w  S | W ) P (W | X  S )
 P ( X  S | W ) P (W | X  S )  P ( X  S | W ) P (W | X  S )
 1  0 . 24  0.2  0.24  0 . 606
54
W 文章校正が行われる
Step3.
機械の解答の正解率を求める

事象
P (W ) 文章校正が行われる確
率
X 入力を表す確率変
数
Y 出力を表す確率変
数
P(X  S) 問題が
Spam である確率
P(X  H) 問題が
Ham である確率
この判定が正解する確率Pwを求める.
P w  P (Y w  S , X  S )  P (Y w  H , X  H )
 0 . 697
Pw  0 . 697
総当り攻撃の正解率は0.625となる為,
0.072の上昇.
表7 判定機を用いた機械による条件付確率 P(Yw|X)
出力
Yw=H
Yw=S
入力
X=H
0.798 0.202
X=S
0.394 0.606
55
Pq 人の一題辺りの
CAPTCHA 失敗率
Pw 機械の一題辺りの
実験2:評価
CAPTCHA 正答率
c CAPTCHA の問題数の総数
case3(20c5)
図4
1.2
s
CAPTCHA に含まれる
h
CAPTCHA に含まれる
hc
spam 文書数
hum 文書数
k 正解数
θ 正解数の閾値
1
認証成功率(%)
認
証
成
功
率
校正使用
機械受入率 F ( M ) AR w
0.8
c  k
ck
  k  Pw (1  Pw )
k  

c
FAR
w

Pw=0.697
0.6
FRR
FARw
総当り攻撃
random
EER
0.4
FAR  FRR となる値
人間拒否率 F ( H ) RR
0.2
c
FRR 

k 
23%
c  k
ck
  Pq (1  Pq )
k 
Pq=0.135
0
0
2
4
6
8
10
閾値θ(k)
閾値θ(k)
12
14
16
18
20
56
日本語についてのワードサラダ


コーパスの形態素解析にはMecabを用い,
括弧表現「」()を取り除いた.
n=1


第二次世界における影響力は、各国の影響力を樹立して
いったのクリストファー・検閲等から遠洋捕鯨が民間に送
られてさらに各地から購入した。
n=3

一方、1915年にハイチ、1916年にドミニカ共和国に出
兵していない。
57
中国語ワードサラダ

コーパスの形態素解析にはICACLSを用い,
括弧表現《》を取り除いた.

n=1


1819年,1952年公布中国面积是世界上加上了许多地区
是哥伦比亚特区及军事力量,数千种已经被推翻。
n=3

本气候分类法的温带大陆性湿润气候:受墨西哥湾暖流
影响,温暖湿润,年降雨量2000毫米以上。
58