ブースターセッション資料
Download
Report
Transcript ブースターセッション資料
東京大学 辻井研究室 D3 大内田賢太
人手によるアノテーション
人手によるテキストアノテーション
定義
テキストデータに対して、人間の言語知識を用いたラベルをつけてい
く作業
目的
アノテーションされたコーパスから機械学習で言語知識を得ることが
できる
得られた言語知識がアノテーションの影響を受けやすいため、できる
だけ人の言語知識がうまく取り込められたアノテーションを行いたい
テキストアノテーションにおける問題点
人手によるアノテーションにおける問題点
時間がかかる・多くの人数が必要
巨大なテキストデータを、同じ基準でアノテーションするのは困難
一貫性の無いアノテーションになってしまう問題点
複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy)
同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).
アノテーションの具体例(1/2)
例として、4つの単語列 “IκBα,” “IL2R,” “IκB,” “serum”のう
ちProteinの固有表現を選ぶアノテーションを考えよう
いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーション
できる
しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義が
あいまいなために、容易にアノテーションすることができない。
protein
protein
?
?
“IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列
アノテーションの具体例(2/2)
アノテーションが困難な単語列に対しては、アノテー
ターがどのようにアノテーションするか決定しなければ
ならない
例えば、“IL2R”はプロテインの固有表現ではないと決定したとする
決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に
対してどのような決定を行うべきか、ガイドラインを作ることができる。
ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを
行わないという判断ができる。
protein
protein
?
?
protein
?
アノテーションガイドライン
定義
判断が難しい場合に手助けとなるガイドライン
一般的には、いくつかの例を列挙したリストになっている
目的
アノテーターに偏ったアノテーションを防ぎ、一貫性の高
いアノテーションを行えるようになる
問題点
アノテーションを行う前から、アノテーション上の
すべての問題を想定することは困難
アノテーション作業を行いながら、同時に
アノテーション・ガイドラインの管理する手法を提
案する