非明示的なデータ収集 - 自然言語処理研究室 (徳永研・藤井研)
Download
Report
Transcript 非明示的なデータ収集 - 自然言語処理研究室 (徳永研・藤井研)
アノテーション作業者の内省を
顕在化するためのデータ収集
飯田龍,徳永健伸 (東工大)
テキストアノテーションWS @ NII
研究背景
2
NLPにおける典型的な問題への取り組み方
1.
2.
問題に関してどのような結果を出力すべきかの
情報(タグ)をアノテーションしたコーパスを作成
そのコーパスを学習・評価用データとして利用
この研究パラダイムが約20年続いている
利点
研究者間で共通の研究基盤となるデータを共有
コーパス全体の現象を対象とすることで,分析が困
難となる現象が顕在化
アノテーション結果とその利用に関す
る問題
3
アノテーション作業者が判断の基準とした言語的
な手がかり ≠ 解析モデル側で利用される手がかり
作業者が出力結果として出力したい情報
しかアノテーションしないため
作業者の意図は解析モデル構築に際に反映されると
は限らない
なぜか?
「一致率が高い(カッパ値が高い)」とは?
作業の際に採用したアノテーションの方法論が良い?
アノテーションスキーマが良い?
作業者の言語能力が高い?
カテゴリ「言語学者」「大学の学部生」etc.
これは何の説明にもなっていない
明文化されているので
善し悪しの判断は可能
問題点のまとめと解決策
4
作業者のアノテーションのプロセス
1.
2.
3.
提示されたデータから何かを読みとる
それに対して考える
その考えに基づき,アノテーションの作業を行う
(e.g. あるタグを付ける)かどうかを判断し行動する
問題点: 1と2が記録されていない
解決策: 3の収集と同時に,1と2のような作業者
の内省を反映したデータ収集を行う
5
アノテーション作業者の内省を顕在
化させるデータ収集: 2種類
非明示的なデータ収集
アノテーション作業時の作業者の視線や行動履歴を
収集 (作業者への負担: 小)
収集したデータは人手で分析する必要があるため,
「非明示的」なデータ収集となる
明示的なデータ収集
内観法に基づき作業者の作業意図(なぜその作業を
行ったのか)を口頭で説明
(作業者への負担: 大)
直接作業意図を収集できるので「明示的」な収集
いかに作業負担を減らすかが問題
非明示的なデータ収集
6
作業者の作業履歴や作業時の視線を収集
視線追跡装置
作業風景を録画
作業者
視線
作業履歴: 何に対してどういう作業を行ったか
クリック,ドラッグ / メタな情報(e.g.セグメント・リンク付与)
補足的な情報の獲
得:
作業者がマウスを
持って考え込んでい
るのか or 休憩してい
るのか
明示的なデータ収集
7
なぜそのアノテーションをしたのかを口頭で説明
なぜそこに
このタグを
付けた理由
は...
作業者
問題となる箇所に関して発言する
とは限らない
発言することで作業が不自然になる
タグを付け
たんですか?
監督者
(玄人)
作業者
監督者側から見て重要な箇所につ
いて作業者の内省が記録される
さらに作業が不自然になる
明示的なデータ収集: 提案する環境
8
対話的に作業を行うことで自然に内省を引き出す
素人
どうアノテーションするか
指示を出す
(自分では動かせない)
玄人
画面を共有(視線は記録しない)
指示を受けて作業する
(自分の考えでアノテー
ションしない)
気になった点は問い返
す
収集したデータの利用方法 (1/2)
9
データに基づく分析
非明示的なデータ収集の結果を利用
アノテーションをする際に作業者がどこを見て判断してい
るかを人手で分析
素人の作業者のアノテーション作業の学習支援
明示的なデータ収集:
対話的なデータ収集の行為そ
のものが,玄人から素人への適切な教示となる
作業効率・正解率の変化を時間単位で調査
収集したデータの利用方法 (2/2)
10
アノテーション作業者の能力の客観的評価
アノテーション作業結果の品質はスキーマ・方法論だけ
でなく,作業者の質にも依存するためそれを推定したい
非明示的なデータ収集法で収集した視線・作業履歴
から素人と玄人の振舞いの違いを分析
あるタスクに関する素人と玄人のアノテーション結果を収集
ある作業者がアノテーション作業を行った場合に
素人と玄人のどちらの振舞いに近いかで
近似的にその作業者の作業に関する能力を推定する
データ収集の計画
11
まずは非明示的なデータ収集に着目
どのような問題にアノテーションするのか?
簡単すぎると作業者間で違いが出ない
述語項構造と共参照関係のアノテーションを採用
述語と項の関係(ゼロ照応)と共参照のアノテーションが
混在するので,比較的複雑な作業となる
どのような作業者の種類?
素人と玄人の2種類を雇用
玄人: 職業的にアノテーション作業を行っている
言語学の知識が豊富な人材
素人: アノテーションを行ったことのない人材
アノーテションツールには慣れてもらう必要あり
対象データ・評価・ツール
12
データ
現代日本語書き言葉均衡コーパス(BCCWJ)
松本研でコアデータに対して述語項構造などのアノテー
ションが進められており,それを利用させてもらう
作業結果の評価
素人と玄人の作業の正解率
コアデータに専門家が付けた結果を正解だとみなし,それ
との一致率を正解率とする
アノテーションツール
(Kaplanら 2012): セグメントとリンクを直感的に
付与することが可能
Slate
作業履歴を出力できるように作成されていないので修正
が必要
関連研究 (1/2)
13
問題解決への視線情報の利用
物理の問題(電気回路の抵抗を求める問題)をペイン
トツール上で求める (Rosengrant 2010)
素人と玄人の振舞いの違いを人手で分析
注視の領域:
回路,導出した式,あらたに書き直した回路
プログラマがデバッグする際の視線の分析
(Bednarikら 2008, Pietinenら 2008)
デバッグ画面の領域: ソースコードの領域,コードの内容
を可視化した領域,出力結果の3つ
どちらも分析対象の領域が荒い
本当に分析したい傾向が抽出できるとは
限らない
関連研究 (2/2)
14
アノテーション作業のコスト分析に視線情報を
導入 (Tomanekら 2010)
動機:
能動学習で次に追加する事例にアノテーション
するコストが一様ではない
タスク: 文章中の固有名(人名・組織名・場所名)
のアノテーション
対象:
統語的に{難・易} × 意味的に{難・易}
視線情報: 対象表現 or 局所文脈
利用する視線情報の分類が荒い
cf.
提案するデータ収集: より細かい情報を収集予定
まとめ
15
2種類のデータ収集方法を提案
非明示的データ収集:
作業時の客観的な情報(視線・作業行為)の収集
明示的データ収集:
対話的に作業者の内省を顕在化させて記録する
収集したデータの3種類の利用法
データそのものの分析に利用
作業者の言語能力の推定に利用
素人の作業者のアノテーション作業の訓練に利用