04T214-岡田壮史-検索エンジンを利用した英文作成支援ツールの

Download Report

Transcript 04T214-岡田壮史-検索エンジンを利用した英文作成支援ツールの

検索エンジンを用いた
英文作成支援ツールの拡張
安藤研究室
04t214 岡田 壮史
背景

検索エンジンを利用した英文作成支援ツールを構築

表現・フレーズの検証機能


ヒット数を参考に妥当性を検証
at? on? in?のどれが正しい
your own risk

at ~ : 1140000 hit
on ~ :
4650 hit
in ~ :
146 hit
英文の検証に関して


文が長いとヒット数が少なく,検証が困難
N-gram検証機能
実行例(N-gram検証機能)
ヒット数によるレベルで色分けされたグラフ
目的

N-gram検証機能は文構造を考慮した検証が困難

英文の修正・検証機能が無い

本研究では・・・

英文の抽象化支援
 文の構造を保持しつつ英文検証を行う機能

同義語・類似熟語の表示
 英文の修正・検証機能
英文作成支援ツールの構成
支援ツール
検索・検証機能
フレーズ検証機能
検索対象
入力
N-gram検証機能
検索
検索エンジン
英文の抽象化支援
ブラウザ
結果表示
同義語の表示機能
結果の書き込み
検索結果
類似熟語の表示機能
用例提示機能
提案する三つの機能
検索ログ
英文の抽象化支援

N-gramでは文構造の正誤がわからない

構文解析器を用いて文構造の誤りを検出

Link Grammar Parserを使用

文構造の汎用性と意味的妥当性の検証が必要
長文ではヒット数が低く,検証できない

句単位での抽象化により,検証を支援



余剰部分の削除,ワイルドカード化
自動抽象化,手動抽象化の二つを実装
手動抽象化のフォーム
入力文: the codominium is which the architect designed
誤りメッセージ
has not been constructed
スペルミス
構文解析結果より
抽象化された文
句に対する処理をコマンド選択
* has not been constructed
再検索へ
STAY(無処理),DEL(削除),WILD(ワイルドカード化)
手動抽象化の結果
抽象化した文
抽象化前の文

文全体の構造の汎用性がわかる
同義語の表示


英文の修正・検証機能
同義語群をWordNetから抽出


約15万語の概念辞書
一部の語は独自のリストから抽出


冠詞,関係代名詞など
whoであれば which, whom, whose, that,what
ユーザが知らない語も修正候補として
表示されるので修正の幅がひろがる
同義語の表示例
選択
意味と例文
ヒット数順
同義語組み合わせの検索結果

『speak』で“utter”と”talk”, 『at』で“to”,“for”を選択

“talk to you”が妥当なのがわかる
類似熟語の表示

入力: I am at charge of this project
ヒット数順

単語にはオンライン辞書へのリンクを付加
評価



被験者は学部生4名(誤り検出3問,英作文4問)
それぞれの機能の有用性についてアンケート
評価は高い
5段階評価
表示する候補が多い
項目
評価は高い
自動抽象化
対応する熟語が限られる
手動抽象化
同義語の表示
類義熟語の表示
平均
2.75
3.25
4.50
4.25
評価が低い
インタフェースのユーザビリティに問題
まとめ

文の構造を保持しつつ英文検証を行う機能


英文の修正・検証機能



英文の抽象化支援
同義語の表示
類似熟語の表示
アンケートによる評価


英文の抽象化支援の評価は低い
同義語・類似熟語の表示の評価は高い
今後の課題

英文の抽象化支援のインタフェース改善

同義語表示での表示候補の質向上
候補の表示方法の工夫



類似熟語の熟語数を増加
候補の表示方法の工夫
手動抽象化の過程
対象となる文を構文解析,情報の取得
句単位のコマンド選択フォームを表示
1.
2.




3.
選択したコマンドにより句に対して処理
STAY ・・・ なにもしない
DEL ・・・ 削除
WILD ・・・ ワイルドカード化
再検索
自動抽象化の選択フォーム
入力文:the codominium is which the architect designed
has not been constructed


スペルミスは赤で表示
解析で無視された語は灰色で表示
2つを指定
自動抽象化の結果
関係詞句
抽象化された文
支援ツール
検索・検証機能
フレーズ検証機能
検索対象
入力
N-gram検証機能
検索
検索エンジン
英文の抽象化支援
ブラウザ
結果表示
同義語の表示機能
類似熟語の表示機能
用例提示機能
結果の書き込み
検索結果
検索ログ
支援ツール
検索対象
入力
ブラウザ
検索・検証機能
検索
検索エンジン
フレーズ検証機能
結果表示
結果の書き込み
検索結果
N-gram検証機能
用例提示機能
検索ログ
自動抽象化の過程
対象となる文を構文解析,情報の取得
1.

句情報,構文タグ,スペルチェック情報
抽象化のための句の選択フォームを表示
指定された句に以下のルールを適用
2.
3.



PP(前置詞句),ADVP(副詞句)は削除
NP(名詞句),QP(数値)はワイルドカード化
SBAR(接続詞句,関係詞句)の削除,再検索
ex. The lecture which the engineer gave us was difficult
SBAR
4.
5.
解析で無視された語を削除
抽象化された文の再検索
類似熟語の表示

英文中の熟語,類似熟語を表示

誤り熟語の修正
ユーザが知らない熟語の表示



熟語リストのSIL6000を利用


ユーザの修正候補を増やす
基本的フレーズ、構文、動詞句、語法、コロケーション、
名詞句 なども含む
類似度は,単語の一致数を利用して計算
●類似熟語の判定のポイント加算
ポイントの合計/(熟語の単語数 - A,Bのマッチ数) ≧ 0.5




①1,2文字の語もしくは“the”とマッチすれば,0.5
ポイント加算
②AまたはBとマッチすれば,判定での熟語の単語
数をマッチしたA,Bの数だけ減算(ここでのA,Bは単
語であればマッチする)
③上記三つの条件にあてはまらずマッチすれば,
1ポイント加算
④一切マッチしなければ,0ポイント加算
類似度計算の例
Warriors make up on charity stripe deficiencies
 make up for の場合




make で1ポイント加算
up で0.5ポイント加算
on はマッチしないので0ポイント
結果

1.5/3(= 0.5) ≧ 0.5 なので表示
評価2

英文の抽象化支援



同義語の表示



自動抽象化の評価が低い
インタフェースのユーザビリティに問題
高い評価
表示する候補が多い
類似熟語の表示


高い評価
対応する熟語が限られる
背景

Web上には有用な用例が多く存在
検索エンジンを利用した英文作成支援ツールを構築

表現・フレーズの検証機能



ヒット数を参考に妥当性を検証
at? on? for?のどれが正しい
your own risk

at: 889,000 hit
on: 312,000 hit
for: 302,000 hit
英文の検証に関して


文が長いとヒット数が少なく,検証が困難
N-gram検証機能
手動抽象化のフォーム
入力文: the codominium is which the architect designed
has not been constructed
スペルミス
誤りメッセージ
コマンド選択
抽象化された文
抽象化の過程
英文を構文解析,情報の取得
抽象化のための句選択フォームを表示
句ごとに抽象化処理
1.
2.
3.


4.
抽象化規則に基づいた抽象化(自動抽象化)
 対象となる句をユーザが選択
ユーザが句の処理内容を決定(手動抽象化)
 処理内容(無処理,削除,ワイルドカード化)
抽象化した文を再検索
抽象化の過程
英文を構文解析,情報の取得
抽象化のための句選択フォームを表示
句ごとに抽象化処理
1.
2.
3.


4.
抽象化規則に基づいた抽象化(自動抽象化)
 対象となる句をユーザが選択
ユーザが句の処理内容を決定(手動抽象化)
 処理内容(無処理,削除,ワイルドカード化)
抽象化した文を再検索
手動抽象化のフォーム
入力文: the codominium is which the architect designed
has not been constructed 誤りメッセージ
スペルミス,無視された語
構文解析結果より
抽象化された文
句に対する処理をコマンド選択
再検索へ
STAY(無処理),DEL(削除),WILD(ワイルドカード化)