自分のコーパスを作成する

Download Report

Transcript 自分のコーパスを作成する

自分のコーパスを作成する
北尾 謙治
補足



BNCweb (CQP-Edition)
 http://www.bncweb.info./
Access to the BNC via BNCweb at Lancaster
University
年齢、性別、ジャンラ、出版年など細かい設定をしたサブ
コーパスを独自に作成できる



子どもと大人
女性と男性
など
コーパス

広義の定義
言語分析に利用できる話し言葉と書き言葉の集
積

狭義の定義
言語分析のために、分析対象となる言語、また
は、様々な言語変種を代表するように収集さ
れ、コンピュータ処理可能な状態にされた実
際に話されたり書かれたりしたテキストの集合
体
あるデザインに基づいて作成
情報タグが付与
適正なサイズ

コーパスの大きさより、検索対象のサンプ
ルの数




ヒット数が3ケタ
可能であれば、それ以上
2ケタ?
1ケタでは小さすぎる
種類

サンプルコーパス


Brown, LOB, BNCなど
モニターコーパス

時代とともにサンプルを追加


Bnak of English
COCA

汎用コーパス


BNC, Brownなど
特殊目的コーパス



話し言葉 MICASE (Michigan Corpus of
Academic Spoken English)
映画 映画検索
ビジネスレターコーパス Business Letter
Corpus Online KWIC Concordancer
創ろう! マイ・データベース
http://www.babeledu.jp/mtsg/corpus/index.htm
情報が多少古いので注意


信頼できるデータ







大きな規模の方が信頼性は増す
誰が作成した者か
確認をするべき
論文にはソースを明記
WEBやCD-ROMのように電子化されたも
のが便利
目的に最も適したもの
著作権などに注意
作り方
目的に合わせてコーパスを作成
コンピュータに文字を打ち込み、保存する
印刷物はスキャナーで読み込む
WEB・ CD-ROMにある文字はコピーする
音声を書き起こして、入力する
電子図書館を利用
http://www.cis.doshisha.ac.jp/kkitao/library/reso
urce/corpus/corpus.htm#texts
整形

エラーの修正


ゴミや特殊なものなどを取り除く




文字化けも直す
ルピ
余分なタグ
必要なら1行1文になおす
分かち書きをする (日本語)
プロジェクト

新島コーパスの構築





(328通の手紙)
新島譲はどのような英語を書いていたか
その内容は?
受け取り人による差異
年代による差異
新島の英語は母語者のと異なるか

映画のDVD






(約1000本)
会話・談話分析
話し言葉の特徴
卑語や特殊な用例
感情をどのように表現
話者による異なり 年齢、性別、職業など
話し言葉と書き言葉の差異
大学入試英語テストの分析





10数年分数百大学の入試問題
入試によく出る語彙
英語の文章の難易度
上記の年代の変化
話し言葉と書き言葉の差異
関関同立の英語テストの比較

中学校・高等学校の英語教科書


2002-2005
2006-
中学校の3冊のみ

アメリカ英語とイギリス英語の比較


英米の新聞の比較
日本人のよくする英語の間違い

日本人学習者の英作文のエラーアナリシス
学習者コーパス








JEFLL Corpus 日本の中学・高校生英語学習者による自
由英作文コーパス
大学生の英作文
NICE
NICEの使用方法
NICEの検索ページ
NICE学習者の英文とネイティブの添削した英文のパラレ
ルコーパス
試作のソフトなど
CEEAUS アジア圏英語学習者コーパス
和泉 絵美, 井佐原 均 , 内元 清貴 (2005) 日本人1200
人の英語スピーキングコーパス 東京:アルク

パラレルコーパスの構築
カタカナ英語
ESPコーパスの構築






文化情報学部に役立つコーパス
論文の表現
天気予報の語彙と用例
株価の語彙と用例
広告の語彙と用例
カタカナ英語のパラレルコーパス
日本語のコーパス
太陽
近代女性雑誌コーパス
現代日本語書き言葉コーパス
男性のことば
女性のことば
戦時中の話ことば
新潮の100冊
38人の作家 775作品
大学の国語の入試問題
毎日新聞 約20年分
読売新聞 2005-2008
The End