TYPO Writer ヒトはどのように打ち間違えるのか?

Download Report

Transcript TYPO Writer ヒトはどのように打ち間違えるのか?

TYPOって?
TYPO Writer
ヒトはどのように打ち間違えるのか?
荒牧英治 東大
宇野良子 農工大
岡瑞起 東大
まだ間違いに気が付いていないのか?
TYPOが致命的な場合も
日本看護協会の告知[Dec2008]より
TYPOの特徴
• 従来のコーパス(新聞や論文)ではまれ
• BUT: 例外的現象ではない
人間ならだれしも行う
平均3%の割合で打鍵ミス
エキスパートでも0.9%
[Grudin1983]
チャットやマイクロブログ
カルテ文章=ungrammatical
fragmented [Sibanda 2005]
• 記述者は気づきにくい→
いったいヒトはなぜタイポをするのか?
本研究の2つの課題
• いったいなぜ/どのようにタイポするのか
主課題:タイポの分析
• BUT: 従来のコーパス(新聞,論文 etc)
においてタイポはまれ
副課題:タイポの収集
本研究
• はじめに
• 課題1: タイポの収集
– どうやって自動的に大量のタイポをあつめるか?
• 課題2: タイポの分析
• 実験
• おわりに
(本研究における)タイポとは
仮定1
タイポの出現頻度は原型に比べて著しく低い
→ |SOTP| : |STOP| < 1:50
仮定2
タイポと原型のスペリング/コンテキストは類似
している
→ sim (please sotp it, please stop it) > TH.
仮定3
タイポは辞書に収載されていない
→ (form ⇔from) は対象外.
仮定はインプリしやすい
手法
• 材料:
(2008年クロール; 500MB)
• STEP1: 3grmに分解→頻度集計 仮定1
• SPTE2: 頻度差30倍の類似した3grmペア抽出
仮定2
仮定3
TYPO
wace
ORG
wave
N-gram (Freq)
TYPE
The google wace (2)
R1
have
wave
R1
The google have (202)
N-gram (Freq)
The google wave (42205)
The google wave (42205)
結果
• 3.9万ペア (原型: タイポのペア)
• 評価: 正しいタイポが定義不能のため困難
• 百聞<一見→ http://luululu.com/tweet/
本研究
• はじめに
• 課題1: タイポの収集
• 課題2: タイポの分析
– タイポとはどんな特徴を持っているか?
• 実験
• おわりに
各操作別の
タイポされた文字
i
d
a
y
e
t
n
o
1420
981
850
760
741
735
684
609
IN
RM
挿入
削除
/
/
/
/
/
/
/
/
40412
13567
34515
50418
50418
44495
33891
46884
=
=
=
=
=
=
=
=
0.0351
0.0723
0.0246
0.0150
0.0146
0.0165
0.0201
0.0129
R1
R2
順入替
置換
a 1673 / 34515 = 0.0484 e/h 242
o 1671 / 46884 = 0.0356 e/m 129
e 1004 / 50418 = 0.0199 a/h 107
i
742 / 40412 = 0.0183 h/t
78
l
661 / 19796 = 0.0333 i/e
70
h
653 / 28020 = 0.0233 o/t
63
n 499 / 33891 = 0.0147 g/n 63
t
394 / 44495 = 0.0088 s/u
60
iの挿入が多い
a の脱落が多い
a:e
m:s
m:n
y:t
z:s
t:e
q:g
r:e
しかし
a と i の置換は少ない
何がバイアスになっているか?
954
392
310
280
278
265
238
218
要因1: 指とタイポの関係
文字順の入れ替えは
右手と左手の間で起こりやすい
置換は同じ右手/左手の指の間
で起こりやすい
要因1: 指とタイポの関係
各指で起こるタイポ操作が異なる
要因2: 視覚的要因
形がよく似た文字は置換されやすい!?
画像類似度
類似度した文字
要因3: 単語内の位置
真ん中と後末にタイポが起きやすい
頻度
単語内の相対位置
語末になりやすい文字
More info
要因4: Doubling
要因4: 音韻
p_a_p_e_r_w_e_i_g_h_t
p_eI_p_@_ _w_e_I_ _ _t
CELEX2 DATABASE aligned by GIZA++
RMされた文字の発音
タイポを起こす要因とタイポモデル
要因1:打鍵ミス
Cognitive Error
要因5:音韻
Type Error
[Kukich1992]
要因4: doubling
要因2:画像類似度
Check Failure
要因3:単語内位置
要因5:音韻
タイポ
何が主要な
要因なのだ
ろう?
本研究
•
•
•
•
はじめに
課題1: タイポの収集
課題2: タイポの分析
実験
– タイポをタイポらしくしているのは何か?
– =タイポと擬似タイポを識別
→ 識別に貢献ものは何か?
• おわりに
実験設定
• 目的 : タイポらしさはどの要因からくるのか調
べる
• データ (自動抽出結果と擬似負例)
正例
自動抽出した原型:タイポのペア
Twitter:Twiter
負例
正例の原型をランダムに編集
Twitter:Zwitter
• 手法: SVMで要因1-5をfeatureとして表現
要因1
Twitter:Twiter
Twitter:Zwitter
F4-RM
F4-F1-R2
要因3
L-RM
L-R2
4of7
1of7
実験結果
• (1) どの要因を削除しても精度が下がる
→ どの要因も少なくともタイポの一部を説明
• (2) 特に 単語内位置 が重要
単語認知の研究との不整合
単語に内在する情報量の偏在 [田中, 2008]
単語中央の
情報量が少ない
単語の中央/末尾に
タイポが多い
≒
単語中央付近の間違い
に気づかない
仮説「逐次的に単語認知を行う」
No-look typing
check
i n v i
B
E
No-look typing
check
i n v i t e
B
=
E
本研究
•
•
•
•
•
はじめに
課題1: タイポの収集
課題2: タイポの分析
実験
おわりに
まとめ
• 人はなぜ打ち間違うか?
神のみぞ知る
• 人はどのように打ち間違うか...
本研究により定量的に調査可能
• →数学的モデル化
• →認知研究との関連 「逐次的単語認知」の検討
• →人間と同じように打ち間違えるプログラム
see TYPO Writer http://luululu.com/research/pm3/index.html
発音しない文字
中央付近