Webコーパスを活用した レベル別例文検索システムの開

Download Report

Transcript Webコーパスを活用した レベル別例文検索システムの開

インターネット時代の
日本語教育を考える
東京国際大学
川村 よし子
インターネット時代の日本語教育を考える
―近未来のチュウ太―
► はじめに
► 1.辞書ツール多言語化プロジェクト
『チュウ太のWeb辞書』
► 2.Webコーパスを活用した
レベル別例文検索システム
► 3.文章の難易度判定システムの開発
進化するチュウ太
►
辞書ツールの多言語化・多機能化
・辞書ツール多言語化プロジェクト
・介護辞書作成プロジェクト
・グループジャマシイ『日本語文型辞典』との連携
►
例文検索システムの開発
スロヴェニアチーム「Jaslo」との連携
►
文章の難易度判定システムの開発
多様な単語レベル判定システムの開発
1.辞書ツール多言語化プロジェクト
1999年
日本語読解学習支援システム『リーディング・チュウ太』
(http://language.tiu.ac.jp)
► 2003年
チュウ太の辞書ツール多言語化プロジェクト開始
► 2006年
各言語版日本語辞書編集開始
► 2007年
「チュウ太のweb辞書」公開 (http://chuta.jp)
► 2008年
「チュウ太のweb辞書」に辞書ツール機能搭載
► 2009年
介護辞書作成プロジェクト開始
►
► 日日辞書作成
基本語8000語の編集完了
► 多言語版日本語辞書編集システム
25言語の対訳辞書編集チームが活動開始
ベトナム語では基本語の編集完了
► 「辞書ツール機能」
チュウ太の辞書ツールの自動辞書引き機能
► 「単語検索機能」
単語・語句の辞書検索 例文検索も可能
► 対訳辞書編集チーム
(編集完了語数順)
ベトナム語 英語 トルコ語 ブルガリア語 韓国語
ロシア語 中国語 スペイン語 ポルトガル語
ドイツ語 チェコ語 マレー語 キルギス語
マラティ語 スロヴァキア語 タイ語 フランス語
イタリア語 フィンランド語 スロヴェニア語
インドネシア語 ハンガリー語 タガログ語
アラビア語 ルーマニア語
(2009年10月24日現在)
「チュウ太のweb辞書」の
単語検索機能
► 使い方
① 「Word Search」に探したい語句を入れる
② 言語を選択する
③ 「Search」を押す
► 検索語は単語、複合語でも連語でも可
► 漢字かな混じり表記、ひらがな、カタカナ、
ローマ字のいずれでも検索可能
► 通常の辞書では見出し語とならない語であっ
ても辞書に登録されていれば検索可能
家
部分一致検索
► 探したい文字を半角のアステリスク(*)で挟ん
で入力
例: *読*
「読める」「読書」「句読点」「読み」「購読」
「朗読」「読者」「読み上げる」 が表示される
*家*
► 例文検索では、辞書の見出し語にない語句を
含む例文を探し出すことも可能
「てくれる」という表現
⇒ 「*てくれる*」と入力
「~ば~ほど」という表現
⇒ 「*ば*ほど*」と入力
Web辞書を活用した日本語教育
► 意味を調べる
全員で同じ辞書が使えるというメリット
► 意味の広がりを知る
► 文脈の中での意味を特定する
数多くの例文が提示できるというメリット
► 言葉の使い方を知る
► 言葉の使い方のルールを考える
介護辞書開発プロジェクト
► 介護福祉士候補生(インドネシア・フィリピン)
3年後に介護福祉士試験
↓
短期間に日本語を習得する必要あり
チュウ太の介護辞書開発プロジェクト
・一語一訳を原則にしたミニ辞書
・チュウ太のWeb辞書に搭載
・基本語に介護用語を追加
・2009年度内の完成
介護辞書開発プロジェクトの現状
► 基本語ミニ編集の編集は完了
インドネシア語・タガログ語・英語・中国語
► 介護用語の調査もほぼ完了
介護記録
介護福祉士国家試験の過去問
⇒ ミニ辞書に介護用語を追加
⇒ 2009年度内の完成
2.例文検索システムの開発
► 言語教育において、学習者のレベルにあった例文の
提示は不可欠である。
► その例文はできるだけ自然な日本語で書かれている
ことが望ましい 。
⇒学習者のレベルにあった「自然な日本語の例文」を意
味概念ごとに作成するのは容易ではない
⇒web上の電子情報を活用したレベル別例文検索シス
テムを開発 する
► 5万の日本語のウェブページから構築した4億語の
コーパス「JpWaC」
► 形態素解析システムChaSenでコーパスの解析
► 各例文への情報付与
・コーパス中の各単語に、「出題基準」)をもとにした
4級(Level 4)~1級(Level 1)のレベル付け
・級外のものはLevel 0
・各文に単語数、レベル別単語数、比率の情報付与
► 日本語学習者用例文
の抽出
1)一文の長さが5語以上25語以下のこと
2)20%以上の記号や数字を含まないこと
3)日本語以外の表記を含まないこと
4)句点(。)で終わっていること
5)少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと
⇒ 学習者用例文コーパス(「JpWac-L2」)
859,416文(単語総数13,395,667語)
► レベル別コーパス作成
1)各レベルの例文には当該レベルより上の語句を含
まないこと
2)各レベルの例文には当該レベルの語を10%以上含
むこと
⇒ Level 0 から Level 4 までの5段階の
レベル別例文コーパス
レベル別コーパスに含まれる
例文数
レベル別コーパス
Level 0
Level 1
Level 2
Level 3
Level 4
計
例文数
351,935
34,777
96,161
26,894
9,830
519,597
JpWac-L2に占め
る割合(%)
40.95
4.05
11.19
3.13
1.14
60.45
► 入力された語句を含む例文を自動で検索する
キーワード検索システム
► インターネット上で利用可能
(http://nl.ijs.si/jaslo/cqp/index.html)
► 検索方法や表示形式に関して細かく設定可能
► 例文コーパス全体からの例文検索
選択可能
レベル別コーパスからの例文検索
Basic Proficiency Subcorpus (Level 3)
力
慣れる
レベル別例文検索システムの評価
► 1)十分な量の例文が提供できているか
► 2)文として整っているか
► 3)意味が通じるか
► 4)例文として適切か
► 5)レベルにあっているか
1)十分な量の例文が提供できているか
各調査語に対するレベルごとの例文数
)十分な量の例文が提供できているか
2)文として整っているか
► 例文抽出条件
5)
◎ 「少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと」
⇒ 体言止めの文を含む
○ 「動詞、形容詞、形容動詞、或いは助動詞
で終わっていること」
⇒ 文のみを抽出
2)文として整っているか
► 単語の「切り出し」の誤り
例: 割りに / 割に / わりに
自分を必要以上に良く見せようとしないかわり
に、お世辞やおべっかを使うのが苦手です。
► 単漢字の場合
対応:2)文として整っているか
► きちんとした文になっているか
例文抽出条件 5)
◎ 「少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞を含むこと」
⇒ 体言止めの文を含む
○ 「動詞、形容詞、形容動詞、或いは助動詞
で終わっていること」
⇒ 文のみを抽出
対応:2)文として整っているか
► 例文として適格か
問題点 1 単語の切り出しの誤り
例:自分を必要以上に良く見せようとしないかわりに、
お世辞やおべっかを使うのが苦手です。
☆ ChaSen辞書情報の変更によって修正は可能
問題点 2 同じ表記で読みが複数ある単語
例:表 [おもて・ひょう] 入れる [はいれる・いれる]
☆ 形態素解析のみでの区別は不可能
3)意味が通じるか
► そう政治力である。
► 寂しいやつだの。
4)例文として適切か
► 誤字脱字のある文
・しかし扉の前の男はその唾またって、ドアをふさいで
いる。
(ミスタイプの可能性)
・人の話聞く注意力がない。
(助詞の脱落)
・このように、この国の高層階は解釈している。
(母語干渉?による誤り)
対応:4)例文として適切か
► 誤字脱字のある文
► 言語教育には適さない文章
► 反社会的な文章
⇒ 例文の修正・削除の方法を要検討
ただし。。。
5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった
例文をほぼ全てのレベルで提示可能
例外:再来年 (全体で18文のみ)
Level 0 3文 Level 2 1文 Level 3 1文
► Level
4 でも有用な例文を提示可能
・人の話は右耳で聞け。
・一日3回、歯を磨く人にも悪い人はいない。
人の話は右耳で聞け。
5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった
例文をほぼ全てのレベルで提示可能
例外:再来年 (全体で18文のみ)
Level 0 3文 Level 2 1文 Level 3 1文
► Level
4 でも有用な例文を提示可能
・人の話は右耳で聞け。
・一日3回、歯を磨く人にも悪い人はいない。
一日3回、歯を磨く人にも悪い人はいない。
例文検索システムの課題
► レベル別コーパスの例文すべてが、当該レベ
ルの学習者に適した例文かどうかに関してはよ
り詳しい調査、特に学習者を対象にした調査を
行う必要がある。
► 評価実験の結果、明らかになった問題点に関
しては、適宜、改良していく。
► 例文検索システムを『リーディング・チュウ太』
に組み入れることを検討中である。
例文検索システムの活用方法
► 例文を探す
► 単語の使い方を知る
► 単語の使い方のルールを考える
► 前後の文脈を想像する
→文の意味を深く把握する
3.文章のレベル判定システムの開発
► リーディングチュウ太のレベル判定システム
・語彙チェッカー
・漢字チェッカー
いずれも日本語能力試験の出題基準準拠
<利用者>
・日本語教師(教材のレベルチェック)
・教科書作成者(教材の修正)
・日本語学習者(自らの語彙力の判定)
・小・中・高等学校(外国人生徒の日本語力チェック)
・医療関係・公共機関(やさしい日本語への書き換え)
→文章の難易度判定は語彙・漢字だけでいいのか?
→日本語能力試験の基準だけでいいのか?
3.文章のレベル判定システムの開発
► 文章のレベル判定システムの開発
► 日本語学習のための基本語彙の選定
・単語親密度を利用した難易度判定システム
親密度チェッカー
・新聞出現頻度を利用した難易度判定システム
頻度チェッカー
・文書出現逆頻度を利用した難易度判定システム
IDFチェッカー
いろいろなレベル判定ツール
► 親密度チェッカー
やさしい語彙の選定には有効だが「よう」「こと」など
単独で使われない語の親密度は低くなっている
► 頻度チェッカー
上位1万2千語で新聞記事のカバー率は95%以上
► IDFチェッカー
・新聞IDFは初級教材以外でカバー率95%以上
・利用するコーパスによって結果は異なる
・話し言葉コーパスを利用した調査が必要
文章の難易度判定のために
► レベル判定ツールの統合
⇒基本語リストの完成
► 単語の難易度レベルの決定
⇒新しい語彙チェッカーの完成
► 学習者の視点から見た文の難易度判定実験
⇒文の難易度レベルの決定
⇒文章の難易度判定システムの完成
インターネット時代の日本語教育
► インターネットと日本語教育
指導から自律学習支援への発想の転換
► インターネット上の情報資源の活用
情報収集・提供と学習支援ツールの開発
► 日本語教育者と情報科学者との連携
情報の共有とコラボレーション