自分のコーパスを解析する

Download Report

Transcript 自分のコーパスを解析する

自分のコーパスを解析する
北尾 謙治
補足

北尾研究室で提供できるコーパス
新聞コーパス

英文読売

2005-2009
中学校・高等学校の英語教科書


2002-2005 全部
2006-
中学校の3冊のみ
学習者コーパス








JEFLL Corpus 日本の中学・高校生英語学習者による自
由英作文コーパス
大学生の英作文
NICE
NICEの使用方法
NICEの検索ページ
NICE学習者の英文とネイティブの添削した英文のパラレ
ルコーパス
試作のソフトなど
CEEAUS アジア圏英語学習者コーパス
和泉 絵美, 井佐原 均 , 内元 清貴 (2005) 日本人1200
人の英語スピーキングコーパス 東京:アルク

パラレルコーパスの構築
カタカナ英語
日本語のコーパス
太陽
近代女性雑誌コーパス
現代日本語書き言葉コーパス
男性のことば
女性のことば
戦時中の話ことば
新潮の100冊
38人の作家 775作品
大学の国語の入試問題
毎日新聞 約20年分
読売新聞 2005-2009
参考資料・文献
北尾研究室
http://kkitao.e-learning-server.com/kitao/
今まで学習したこと

英語





英語の基本情報を得る
英語の語彙頻度表を得る
英語の語彙の難易度を得る
品詞タグの付与
日本語


形態素解析 茶筅
分かち書き


既存のコーパス関係の資料
今までの研究の例

学生の研究成果
大規模コーパスを使用する

英語における特徴


BNC 1億語のイギリス英語のサンプル
COCA 4億語のアメリカ英語のサンプル

1990年からの通時的な研究も可能
自分のコーパスを作成する






自分の目的に合わせてコーパスを作成
大規模コーパスや他のコーパスと比較
特徴
基本情報による難易度などで比較
語彙頻度や難易度
用例 コロケーションなど
コンコーダンス


コーパスを解析するツールの1つ
AntConc



http://kkitao.e-learningserver.com/kitao/workshop/1.htm
第1回ワークショップ
ダウンロード

http://kkitao.e-learningserver.com/kitao/workshop/1.htm
復習

調べたいテキストやコーパスの設定方法



テキストファイルのみ
フォルダごとの検索も可能
語彙頻度


レマ化
すべて小文字
語の位置関係

その語がデータのどの部分に出現するか



Concordance Plot
左から始まり右で終わる
黒の縦棒の位置に出現
KWIC検索




Concordance
本来のコンコーダンサ
検索対象語を含むコンコーダンスラインを
一括表示する機能
検索語を箱に入れて検索


第1、第2、第3レベルを設定
多くの場合、左1、右1、右2

元のテキストを見る

青の語をクリックする
共起語頻度リスト


Collocates
検索語の左と右に来る語の頻度表

あくまでも頻度のみ
特定語を含むクラスター


Clusters
検索語を含むn-gram

nを指定
特徴語の抽出

Keyword List

石川先生の説明を参照
品詞タグを利用した検索

Global Settings


Tag Settings
Hide Tags
日本語の検索
Global Settings
Language Encoding
課題

US.txtを解析せよ




テキストダウンロード テキストやAntConcなど
必要なものがダウンロードできます。
目的は明確にされていないので、今まで習っ
た解析をすべてして、その結果野重要なことを
簡単明瞭に文章で描写する。
31日23時59分
E-class
The End