Transcript 日本語コーパス
リ日本語コーパス 日本語コーパス 狭義のコーパス 新聞記事データベース ウエッブ上のテキスト 分野 日本語学 日本語教育 自然言語処理 1990年以降 2000年以降非常に盛ん 歴史 1970年 国立国語研究所 電子計算機による新聞の語彙調査 新聞紙面の文章を入力して集計 結果のみ公表され、コーパスは未公開 1990年代 CD-Romの電子テキストと新聞コーパス 新潮文庫の100冊 朝日新聞 毎日新聞 コーパスの構築は行われなかった 自然言語処理 1980年代終わりから 音声認識 形態素解析 機械翻訳 大量のテキストや音声を集積したコーパスが必要 ATR音声・対訳テキストデータ 音声認識、機械翻訳、音声合成を含む 音声対話翻訳の技術開発 EDR日本語コーパス 日本電子化辞書研究所 共起辞書の付録 1995年に公開 雑誌や新聞の約500万語 語義、形態素情報、係り受け構造情報 RWCテキストデータベース 技術研究組合新情報処理開発機構 1996年公開 新聞、白書、報告書、岩波国語辞典 形態素情報が付与 1990年代後半 PCとインターネットの普及 青空文庫 http://www.aozora.gr.jp/ 1997年開設 電子図書館 ボランティアによる著作権の切れた文学作品 情報処理語学文学研究会 古典作品の電子テキストのリンク集 http://homepage1.nifty.com/mshibata/etxt 401.htm 柴田雅生 日本語テキスト http://jcmac5.jc.meisei-u.ac.jp/etext-i.htm 日本文学電子図書館 菊池真一 http://www.j-texts.com/ DVDで購入も可能 3000円 膨大な資料 日本文学等テキストファイル http://www.ne.jp/asahi/nihongo/okajima/bungaku.h tm 岡島昭浩(福井大学) 小杉秋夫さんのページ、後藤斉さん(東北大学) のページなどを参考 古典文学関係 リンク集 http://www.j-texts.com/linkshu/koten.html プロジェクト研究会 http://www.sal.tohoku.ac.jp/~gothit/kanrenjpn.html#project 日本語教育をベースにしたコーパス インタビュー形式による日本語会話データ ベース http://www.env.kitakyu-u.ac.jp/corpus/ コーパスも公開 上村隆一 日本語母語話者54人,非母語話者56人 OPIを収録した音声コーパス 日本語学習者の作文コーパス http://www.nier.go.jp/saka/castelj/yoroku/ d11j.htm 大曽 美恵子,杉浦 正利(名古屋大学) 平成8年度から平成10年度にかけて科学研 究費補助金(基盤研究(A)(1)) を得て行われ た研究「日本語学習者の作文コーパス:電子 化による共有資源化」の成果の一部 誤用分析に焦点 自然言語処理の分野 京都大学テキストコーパス Version 4.0 http://www-lab25.kuee.kyoto-u.ac.jp/nlresource/corpus.html 1995年の毎日新聞に形態素情報、構文情報 を付与したコーパス 情報のみ1997年に公開 5000文に対して 格関係に関する情報、照応・省略関係の情報、共 参照情報が付与 研究者間で共有 KYコーパス http://opi.jp/shiryo/ky_corp.html 鎌田修・山内博之 KYコーパスとは、90人分のOPIテープを文字 化した言語資料 中国語、英語、韓国語がそれぞれ30人ずつ それぞれ、初級5人、中級10人、上級10人、 超級5人 2000年以降の日本語コーパス 多くの公開されたコーパス 組織的に構築された大規模コーパス 個人などによる小規模コーパス 日本語話し言葉コーパス http://www.kokken.go.jp/katsudo/seika/co rpus/ 国立国語研究所、情報通信研究機構、東京 工業大学 大規模は自発音声コーパス 1999-2004年 2004年に公開 独り言 661時間 752万語 多くの研究用の情報が付与 発話の転記テキスト 形態論情報 節単位情報 イントネーションラベル 係り受け構造情報 談話構造情報 印象評定データ 言語研究用の大規模コーパスとして日本 で初めて 世界的な水準 話ことばや音声認識に現在でも利用されてい る 談話コーパス http://www.tufs.ac.jp/ts/personal/usamike n/corpora.htm 『BTSによる多言語話し言葉コーパス-日本 語会話1(日本語母語話者同士の会話)』 『BTSによる多言語話し言葉コーパス-日本 語会話2(日本人と学習者の会話)』 東京外国語大学 COE 日本語母語話者と日本語学習者との会話 同時発話、挿入、あいづち、笑いなどの記号 談話分析のため 音声コーパスは公開されていない 太陽コーパス http://www2.ninjal.ac.jp/lrc/index.php?%C 2%C0%CD%DB%A5%B3%A1%BC%A5% D1%A5%B9 現代日本語の書き言葉は,19世紀末から20 世紀初め,文語文から口語文に移行すること を機に,ほぼ確立したと見ることができます。 その確立期の現代日本語について,様々な観 点から調査研究を行うことができるデータベー ス 国立国語研究所 1895-1925年 月刊誌「太陽」の記事 1000人の著者 3400本の記事 1450万字 現代日本語書き言葉均衡コーパス http://www.ninjal.ac.jp/kotonoha/ http://www.tokuteicorpus.jp/ http://www.kotonoha.gr.jp/demo/ デモサ イト 国立国語研究所 2006年ー 1976-2005年の30年間 書き言葉 書籍、雑誌、新聞を中心 均衡コーパス 白書、ベストセラー、教科書、ウエッブのテキスト、 国会会議録など 文字数を調整 2011年公開予定 現在はモニター版 日本語教育に基づくコーパス 日本語学習者による日本語作文と,その 母語訳との対訳データベース(作文対訳 DB) http://jpforlife.jp/taiyakudb.html 宇佐美洋 誤用分析 第二言語習得 対照言語学 WEBの資料をコーパス 国会会議録検索システム http://kokkai.ndl.go.jp/ 1947年以降のすべての国会のすべての本会 議と委員会の発言記録 35億文字 Yahoo知恵袋 http://chiebukuro.yahoo.co.jp/ 知識検索サービス 参加者が質問し、他の参加者が答える 2004年ー 300万件の質問と1300万件の回答 16億字 2007年公開 研究用 Webから自動構築した大規模格フレーム http://www30.atwiki.jp/corpusling/pages/17.html#id_5ffcc795 河原・黒橋 ウエッブから収集した約5億文のテキストを構 文解析 用言と名詞との間で結ばれる格関係を整理し たもの Web日本語Nグラム第1版 http://www.gsk.or.jp/catalog.html 42,000円 Googleがウエッブから収集した約200億文 2550億語 N-gram 1-7語の連語 かな漢字変換、音声認識などの研究に有益 ブログの評価分析 Wikipedia 自動的に抽出 今後 現代日本語書き言葉均衡コーパス 言語研究用に設計された大規模コーパスの 開発と分析 ウエッブ上のテキストを対象とする大規模 なテキスト処理技術の開発 視線やジェスチャーなどを含む映像データ を対象としたマルチモーダルコーパスの開 発 言語処理ポータル http://www-lab25.kuee.kyotou.ac.jp/NLP_Portal/index.html 情報のリンク集 多くの関連情報を集める 自然言語処理を中心とした学術研究情報 日本の言語資源・ツールのカタログ http://www-lab25.kuee.kyotou.ac.jp/NLP_Portal/lr-cat-j.html 音声資源コンソーシアム(SRC) http://research.nii.ac.jp/src/ 音声コーパスの調査とカタログ化、配布と普及 言語資源協会(GSK) http://www.gsk.or.jp/ コーパス、電子化辞書、言語処理ツール等の カタログ化と配布 言語資源の流通を促進する 北尾研究室 日本語 http://kkitao.e-learningserver.com/kitao/Japanese/index.html The End コーパス日本語学のための情報館 - コー パス紹介 http://www30.atwiki.jp/corpusling/pages/17.html