04T214-岡田壮史-検索エンジンを利用した英文作成支援ツールの
Download
Report
Transcript 04T214-岡田壮史-検索エンジンを利用した英文作成支援ツールの
検索エンジンを用いた
英文作成支援ツールの拡張
安藤研究室
04t214 岡田 壮史
背景
検索エンジンを利用した英文作成支援ツールを構築
表現・フレーズの検証機能
ヒット数を参考に妥当性を検証
at? on? in?のどれが正しい
your own risk
at ~ : 1140000 hit
on ~ :
4650 hit
in ~ :
146 hit
英文の検証に関して
文が長いとヒット数が少なく,検証が困難
N-gram検証機能
実行例(N-gram検証機能)
ヒット数によるレベルで色分けされたグラフ
目的
N-gram検証機能は文構造を考慮した検証が困難
英文の修正・検証機能が無い
本研究では・・・
英文の抽象化支援
文の構造を保持しつつ英文検証を行う機能
同義語・類似熟語の表示
英文の修正・検証機能
英文作成支援ツールの構成
支援ツール
検索・検証機能
フレーズ検証機能
検索対象
入力
N-gram検証機能
検索
検索エンジン
英文の抽象化支援
ブラウザ
結果表示
同義語の表示機能
結果の書き込み
検索結果
類似熟語の表示機能
用例提示機能
提案する三つの機能
検索ログ
英文の抽象化支援
N-gramでは文構造の正誤がわからない
構文解析器を用いて文構造の誤りを検出
Link Grammar Parserを使用
文構造の汎用性と意味的妥当性の検証が必要
長文ではヒット数が低く,検証できない
句単位での抽象化により,検証を支援
余剰部分の削除,ワイルドカード化
自動抽象化,手動抽象化の二つを実装
手動抽象化のフォーム
入力文: the codominium is which the architect designed
誤りメッセージ
has not been constructed
スペルミス
構文解析結果より
抽象化された文
句に対する処理をコマンド選択
* has not been constructed
再検索へ
STAY(無処理),DEL(削除),WILD(ワイルドカード化)
手動抽象化の結果
抽象化した文
抽象化前の文
文全体の構造の汎用性がわかる
同義語の表示
英文の修正・検証機能
同義語群をWordNetから抽出
約15万語の概念辞書
一部の語は独自のリストから抽出
冠詞,関係代名詞など
whoであれば which, whom, whose, that,what
ユーザが知らない語も修正候補として
表示されるので修正の幅がひろがる
同義語の表示例
選択
意味と例文
ヒット数順
同義語組み合わせの検索結果
『speak』で“utter”と”talk”, 『at』で“to”,“for”を選択
“talk to you”が妥当なのがわかる
類似熟語の表示
入力: I am at charge of this project
ヒット数順
単語にはオンライン辞書へのリンクを付加
評価
被験者は学部生4名(誤り検出3問,英作文4問)
それぞれの機能の有用性についてアンケート
評価は高い
5段階評価
表示する候補が多い
項目
評価は高い
自動抽象化
対応する熟語が限られる
手動抽象化
同義語の表示
類義熟語の表示
平均
2.75
3.25
4.50
4.25
評価が低い
インタフェースのユーザビリティに問題
まとめ
文の構造を保持しつつ英文検証を行う機能
英文の修正・検証機能
英文の抽象化支援
同義語の表示
類似熟語の表示
アンケートによる評価
英文の抽象化支援の評価は低い
同義語・類似熟語の表示の評価は高い
今後の課題
英文の抽象化支援のインタフェース改善
同義語表示での表示候補の質向上
候補の表示方法の工夫
類似熟語の熟語数を増加
候補の表示方法の工夫
手動抽象化の過程
対象となる文を構文解析,情報の取得
句単位のコマンド選択フォームを表示
1.
2.
3.
選択したコマンドにより句に対して処理
STAY ・・・ なにもしない
DEL ・・・ 削除
WILD ・・・ ワイルドカード化
再検索
自動抽象化の選択フォーム
入力文:the codominium is which the architect designed
has not been constructed
スペルミスは赤で表示
解析で無視された語は灰色で表示
2つを指定
自動抽象化の結果
関係詞句
抽象化された文
支援ツール
検索・検証機能
フレーズ検証機能
検索対象
入力
N-gram検証機能
検索
検索エンジン
英文の抽象化支援
ブラウザ
結果表示
同義語の表示機能
類似熟語の表示機能
用例提示機能
結果の書き込み
検索結果
検索ログ
支援ツール
検索対象
入力
ブラウザ
検索・検証機能
検索
検索エンジン
フレーズ検証機能
結果表示
結果の書き込み
検索結果
N-gram検証機能
用例提示機能
検索ログ
自動抽象化の過程
対象となる文を構文解析,情報の取得
1.
句情報,構文タグ,スペルチェック情報
抽象化のための句の選択フォームを表示
指定された句に以下のルールを適用
2.
3.
PP(前置詞句),ADVP(副詞句)は削除
NP(名詞句),QP(数値)はワイルドカード化
SBAR(接続詞句,関係詞句)の削除,再検索
ex. The lecture which the engineer gave us was difficult
SBAR
4.
5.
解析で無視された語を削除
抽象化された文の再検索
類似熟語の表示
英文中の熟語,類似熟語を表示
誤り熟語の修正
ユーザが知らない熟語の表示
熟語リストのSIL6000を利用
ユーザの修正候補を増やす
基本的フレーズ、構文、動詞句、語法、コロケーション、
名詞句 なども含む
類似度は,単語の一致数を利用して計算
●類似熟語の判定のポイント加算
ポイントの合計/(熟語の単語数 - A,Bのマッチ数) ≧ 0.5
①1,2文字の語もしくは“the”とマッチすれば,0.5
ポイント加算
②AまたはBとマッチすれば,判定での熟語の単語
数をマッチしたA,Bの数だけ減算(ここでのA,Bは単
語であればマッチする)
③上記三つの条件にあてはまらずマッチすれば,
1ポイント加算
④一切マッチしなければ,0ポイント加算
類似度計算の例
Warriors make up on charity stripe deficiencies
make up for の場合
make で1ポイント加算
up で0.5ポイント加算
on はマッチしないので0ポイント
結果
1.5/3(= 0.5) ≧ 0.5 なので表示
評価2
英文の抽象化支援
同義語の表示
自動抽象化の評価が低い
インタフェースのユーザビリティに問題
高い評価
表示する候補が多い
類似熟語の表示
高い評価
対応する熟語が限られる
背景
Web上には有用な用例が多く存在
検索エンジンを利用した英文作成支援ツールを構築
表現・フレーズの検証機能
ヒット数を参考に妥当性を検証
at? on? for?のどれが正しい
your own risk
at: 889,000 hit
on: 312,000 hit
for: 302,000 hit
英文の検証に関して
文が長いとヒット数が少なく,検証が困難
N-gram検証機能
手動抽象化のフォーム
入力文: the codominium is which the architect designed
has not been constructed
スペルミス
誤りメッセージ
コマンド選択
抽象化された文
抽象化の過程
英文を構文解析,情報の取得
抽象化のための句選択フォームを表示
句ごとに抽象化処理
1.
2.
3.
4.
抽象化規則に基づいた抽象化(自動抽象化)
対象となる句をユーザが選択
ユーザが句の処理内容を決定(手動抽象化)
処理内容(無処理,削除,ワイルドカード化)
抽象化した文を再検索
抽象化の過程
英文を構文解析,情報の取得
抽象化のための句選択フォームを表示
句ごとに抽象化処理
1.
2.
3.
4.
抽象化規則に基づいた抽象化(自動抽象化)
対象となる句をユーザが選択
ユーザが句の処理内容を決定(手動抽象化)
処理内容(無処理,削除,ワイルドカード化)
抽象化した文を再検索
手動抽象化のフォーム
入力文: the codominium is which the architect designed
has not been constructed 誤りメッセージ
スペルミス,無視された語
構文解析結果より
抽象化された文
句に対する処理をコマンド選択
再検索へ
STAY(無処理),DEL(削除),WILD(ワイルドカード化)