日本語コーパス

Download Report

Transcript 日本語コーパス

リ日本語コーパス
日本語コーパス



狭義のコーパス
新聞記事データベース
ウエッブ上のテキスト
分野



日本語学
日本語教育
自然言語処理


1990年以降
2000年以降非常に盛ん
歴史

1970年




国立国語研究所
電子計算機による新聞の語彙調査
新聞紙面の文章を入力して集計
結果のみ公表され、コーパスは未公開

1990年代

CD-Romの電子テキストと新聞コーパス




新潮文庫の100冊
朝日新聞
毎日新聞
コーパスの構築は行われなかった

自然言語処理




1980年代終わりから
音声認識
形態素解析
機械翻訳

大量のテキストや音声を集積したコーパスが必要

ATR音声・対訳テキストデータ


音声認識、機械翻訳、音声合成を含む
音声対話翻訳の技術開発
EDR日本語コーパス





日本電子化辞書研究所
共起辞書の付録
1995年に公開
雑誌や新聞の約500万語
語義、形態素情報、係り受け構造情報

RWCテキストデータベース
 技術研究組合新情報処理開発機構
 1996年公開
 新聞、白書、報告書、岩波国語辞典
 形態素情報が付与

1990年代後半


PCとインターネットの普及
青空文庫 http://www.aozora.gr.jp/



1997年開設
電子図書館
ボランティアによる著作権の切れた文学作品

情報処理語学文学研究会



古典作品の電子テキストのリンク集
http://homepage1.nifty.com/mshibata/etxt
401.htm
柴田雅生 日本語テキスト

http://jcmac5.jc.meisei-u.ac.jp/etext-i.htm

日本文学電子図書館



菊池真一
http://www.j-texts.com/
DVDで購入も可能 3000円
膨大な資料

日本文学等テキストファイル



http://www.ne.jp/asahi/nihongo/okajima/bungaku.h
tm
岡島昭浩(福井大学)
小杉秋夫さんのページ、後藤斉さん(東北大学)
のページなどを参考

古典文学関係 リンク集


http://www.j-texts.com/linkshu/koten.html
プロジェクト研究会

http://www.sal.tohoku.ac.jp/~gothit/kanrenjpn.html#project
日本語教育をベースにしたコーパス

インタビュー形式による日本語会話データ
ベース





http://www.env.kitakyu-u.ac.jp/corpus/
コーパスも公開
上村隆一
日本語母語話者54人,非母語話者56人
OPIを収録した音声コーパス

日本語学習者の作文コーパス




http://www.nier.go.jp/saka/castelj/yoroku/
d11j.htm
大曽 美恵子,杉浦 正利(名古屋大学)
平成8年度から平成10年度にかけて科学研
究費補助金(基盤研究(A)(1)) を得て行われ
た研究「日本語学習者の作文コーパス:電子
化による共有資源化」の成果の一部
誤用分析に焦点
自然言語処理の分野

京都大学テキストコーパス Version 4.0



http://www-lab25.kuee.kyoto-u.ac.jp/nlresource/corpus.html
1995年の毎日新聞に形態素情報、構文情報
を付与したコーパス
情報のみ1997年に公開



5000文に対して
格関係に関する情報、照応・省略関係の情報、共
参照情報が付与
研究者間で共有

KYコーパス





http://opi.jp/shiryo/ky_corp.html
鎌田修・山内博之
KYコーパスとは、90人分のOPIテープを文字
化した言語資料
中国語、英語、韓国語がそれぞれ30人ずつ
それぞれ、初級5人、中級10人、上級10人、
超級5人
2000年以降の日本語コーパス

多くの公開されたコーパス


組織的に構築された大規模コーパス
個人などによる小規模コーパス

日本語話し言葉コーパス





http://www.kokken.go.jp/katsudo/seika/co
rpus/
国立国語研究所、情報通信研究機構、東京
工業大学
大規模は自発音声コーパス
1999-2004年
2004年に公開
独り言 661時間 752万語
多くの研究用の情報が付与
発話の転記テキスト
形態論情報
節単位情報
イントネーションラベル
係り受け構造情報
談話構造情報
印象評定データ

言語研究用の大規模コーパスとして日本
で初めて


世界的な水準
話ことばや音声認識に現在でも利用されてい
る

談話コーパス



http://www.tufs.ac.jp/ts/personal/usamike
n/corpora.htm
『BTSによる多言語話し言葉コーパス-日本
語会話1(日本語母語話者同士の会話)』
『BTSによる多言語話し言葉コーパス-日本
語会話2(日本人と学習者の会話)』

東京外国語大学





COE
日本語母語話者と日本語学習者との会話
同時発話、挿入、あいづち、笑いなどの記号
談話分析のため
音声コーパスは公開されていない

太陽コーパス


http://www2.ninjal.ac.jp/lrc/index.php?%C
2%C0%CD%DB%A5%B3%A1%BC%A5%
D1%A5%B9
現代日本語の書き言葉は,19世紀末から20
世紀初め,文語文から口語文に移行すること
を機に,ほぼ確立したと見ることができます。
その確立期の現代日本語について,様々な観
点から調査研究を行うことができるデータベー
ス






国立国語研究所
1895-1925年
月刊誌「太陽」の記事
1000人の著者
3400本の記事
1450万字

現代日本語書き言葉均衡コーパス






http://www.ninjal.ac.jp/kotonoha/
http://www.tokuteicorpus.jp/
http://www.kotonoha.gr.jp/demo/ デモサ
イト
国立国語研究所
2006年ー
1976-2005年の30年間

書き言葉 書籍、雑誌、新聞を中心


均衡コーパス



白書、ベストセラー、教科書、ウエッブのテキスト、
国会会議録など
文字数を調整
2011年公開予定
現在はモニター版
日本語教育に基づくコーパス

日本語学習者による日本語作文と,その
母語訳との対訳データベース(作文対訳
DB)


http://jpforlife.jp/taiyakudb.html
宇佐美洋



誤用分析
第二言語習得
対照言語学
WEBの資料をコーパス

国会会議録検索システム



http://kokkai.ndl.go.jp/
1947年以降のすべての国会のすべての本会
議と委員会の発言記録
35億文字

Yahoo知恵袋


http://chiebukuro.yahoo.co.jp/
知識検索サービス





参加者が質問し、他の参加者が答える
2004年ー
300万件の質問と1300万件の回答
16億字
2007年公開 研究用

Webから自動構築した大規模格フレーム




http://www30.atwiki.jp/corpusling/pages/17.html#id_5ffcc795
河原・黒橋
ウエッブから収集した約5億文のテキストを構
文解析
用言と名詞との間で結ばれる格関係を整理し
たもの

Web日本語Nグラム第1版





http://www.gsk.or.jp/catalog.html
42,000円
Googleがウエッブから収集した約200億文
2550億語
N-gram 1-7語の連語

かな漢字変換、音声認識などの研究に有益



ブログの評価分析
Wikipedia
自動的に抽出
今後

現代日本語書き言葉均衡コーパス



言語研究用に設計された大規模コーパスの
開発と分析
ウエッブ上のテキストを対象とする大規模
なテキスト処理技術の開発
視線やジェスチャーなどを含む映像データ
を対象としたマルチモーダルコーパスの開
発

言語処理ポータル





http://www-lab25.kuee.kyotou.ac.jp/NLP_Portal/index.html
情報のリンク集
多くの関連情報を集める
自然言語処理を中心とした学術研究情報
日本の言語資源・ツールのカタログ

http://www-lab25.kuee.kyotou.ac.jp/NLP_Portal/lr-cat-j.html

音声資源コンソーシアム(SRC)


http://research.nii.ac.jp/src/
音声コーパスの調査とカタログ化、配布と普及

言語資源協会(GSK)



http://www.gsk.or.jp/
コーパス、電子化辞書、言語処理ツール等の
カタログ化と配布
言語資源の流通を促進する

北尾研究室


日本語
http://kkitao.e-learningserver.com/kitao/Japanese/index.html
The End

コーパス日本語学のための情報館 - コー
パス紹介

http://www30.atwiki.jp/corpusling/pages/17.html