非明示的なデータ収集 - 自然言語処理研究室 (徳永研・藤井研)

Download Report

Transcript 非明示的なデータ収集 - 自然言語処理研究室 (徳永研・藤井研)

アノテーション作業者の内省を
顕在化するためのデータ収集
飯田龍,徳永健伸 (東工大)
テキストアノテーションWS @ NII
研究背景
2

NLPにおける典型的な問題への取り組み方
1.
2.
問題に関してどのような結果を出力すべきかの
情報(タグ)をアノテーションしたコーパスを作成
そのコーパスを学習・評価用データとして利用

この研究パラダイムが約20年続いている

利点
 研究者間で共通の研究基盤となるデータを共有
 コーパス全体の現象を対象とすることで,分析が困
難となる現象が顕在化
アノテーション結果とその利用に関す
る問題
3

アノテーション作業者が判断の基準とした言語的
な手がかり ≠ 解析モデル側で利用される手がかり
 作業者が出力結果として出力したい情報
しかアノテーションしないため
 作業者の意図は解析モデル構築に際に反映されると
は限らない
 なぜか?

「一致率が高い(カッパ値が高い)」とは?
 作業の際に採用したアノテーションの方法論が良い?
 アノテーションスキーマが良い?
 作業者の言語能力が高い?
 カテゴリ「言語学者」「大学の学部生」etc.
これは何の説明にもなっていない
明文化されているので
善し悪しの判断は可能
問題点のまとめと解決策
4

作業者のアノテーションのプロセス
1.
2.
3.

提示されたデータから何かを読みとる
それに対して考える
その考えに基づき,アノテーションの作業を行う
(e.g. あるタグを付ける)かどうかを判断し行動する
問題点: 1と2が記録されていない
解決策: 3の収集と同時に,1と2のような作業者
の内省を反映したデータ収集を行う
5
アノテーション作業者の内省を顕在
化させるデータ収集: 2種類

非明示的なデータ収集
 アノテーション作業時の作業者の視線や行動履歴を
収集 (作業者への負担: 小)
 収集したデータは人手で分析する必要があるため,
「非明示的」なデータ収集となる

明示的なデータ収集
 内観法に基づき作業者の作業意図(なぜその作業を
行ったのか)を口頭で説明
(作業者への負担: 大)
 直接作業意図を収集できるので「明示的」な収集
 いかに作業負担を減らすかが問題
非明示的なデータ収集
6

作業者の作業履歴や作業時の視線を収集
視線追跡装置
作業風景を録画
作業者
視線
作業履歴: 何に対してどういう作業を行ったか
クリック,ドラッグ / メタな情報(e.g.セグメント・リンク付与)
補足的な情報の獲
得:
作業者がマウスを
持って考え込んでい
るのか or 休憩してい
るのか
明示的なデータ収集
7

なぜそのアノテーションをしたのかを口頭で説明
なぜそこに
このタグを
付けた理由
は...
作業者
問題となる箇所に関して発言する
とは限らない
発言することで作業が不自然になる
タグを付け
たんですか?
監督者
(玄人)
作業者
監督者側から見て重要な箇所につ
いて作業者の内省が記録される
さらに作業が不自然になる
明示的なデータ収集: 提案する環境
8

対話的に作業を行うことで自然に内省を引き出す
素人
どうアノテーションするか
指示を出す
(自分では動かせない)
玄人
画面を共有(視線は記録しない)
指示を受けて作業する
(自分の考えでアノテー
ションしない)
気になった点は問い返
す
収集したデータの利用方法 (1/2)
9

データに基づく分析
 非明示的なデータ収集の結果を利用
 アノテーションをする際に作業者がどこを見て判断してい
るかを人手で分析

素人の作業者のアノテーション作業の学習支援
 明示的なデータ収集:
対話的なデータ収集の行為そ
のものが,玄人から素人への適切な教示となる
 作業効率・正解率の変化を時間単位で調査
収集したデータの利用方法 (2/2)
10

アノテーション作業者の能力の客観的評価
 アノテーション作業結果の品質はスキーマ・方法論だけ
でなく,作業者の質にも依存するためそれを推定したい
 非明示的なデータ収集法で収集した視線・作業履歴
から素人と玄人の振舞いの違いを分析
 あるタスクに関する素人と玄人のアノテーション結果を収集
 ある作業者がアノテーション作業を行った場合に
素人と玄人のどちらの振舞いに近いかで
近似的にその作業者の作業に関する能力を推定する
データ収集の計画
11

まずは非明示的なデータ収集に着目
 どのような問題にアノテーションするのか?
 簡単すぎると作業者間で違いが出ない
 述語項構造と共参照関係のアノテーションを採用
 述語と項の関係(ゼロ照応)と共参照のアノテーションが
混在するので,比較的複雑な作業となる
 どのような作業者の種類?
 素人と玄人の2種類を雇用


玄人: 職業的にアノテーション作業を行っている
言語学の知識が豊富な人材
素人: アノテーションを行ったことのない人材

アノーテションツールには慣れてもらう必要あり
対象データ・評価・ツール
12

データ
 現代日本語書き言葉均衡コーパス(BCCWJ)
 松本研でコアデータに対して述語項構造などのアノテー
ションが進められており,それを利用させてもらう

作業結果の評価
 素人と玄人の作業の正解率
 コアデータに専門家が付けた結果を正解だとみなし,それ
との一致率を正解率とする

アノテーションツール
(Kaplanら 2012): セグメントとリンクを直感的に
付与することが可能
 Slate
 作業履歴を出力できるように作成されていないので修正
が必要
関連研究 (1/2)
13

問題解決への視線情報の利用
 物理の問題(電気回路の抵抗を求める問題)をペイン
トツール上で求める (Rosengrant 2010)
 素人と玄人の振舞いの違いを人手で分析
 注視の領域:
回路,導出した式,あらたに書き直した回路
 プログラマがデバッグする際の視線の分析
(Bednarikら 2008, Pietinenら 2008)
 デバッグ画面の領域: ソースコードの領域,コードの内容
を可視化した領域,出力結果の3つ

どちらも分析対象の領域が荒い
 本当に分析したい傾向が抽出できるとは
限らない
関連研究 (2/2)
14

アノテーション作業のコスト分析に視線情報を
導入 (Tomanekら 2010)
 動機:
能動学習で次に追加する事例にアノテーション
するコストが一様ではない

タスク: 文章中の固有名(人名・組織名・場所名)
のアノテーション
 対象:
統語的に{難・易} × 意味的に{難・易}
 視線情報: 対象表現 or 局所文脈
 利用する視線情報の分類が荒い
 cf.
提案するデータ収集: より細かい情報を収集予定
まとめ
15

2種類のデータ収集方法を提案
 非明示的データ収集:
作業時の客観的な情報(視線・作業行為)の収集
 明示的データ収集:
対話的に作業者の内省を顕在化させて記録する

収集したデータの3種類の利用法
 データそのものの分析に利用
 作業者の言語能力の推定に利用
 素人の作業者のアノテーション作業の訓練に利用