自分のコーパスを解析する
Download
Report
Transcript 自分のコーパスを解析する
自分のコーパスを解析する
北尾 謙治
補足
北尾研究室で提供できるコーパス
新聞コーパス
英文読売
2005-2009
中学校・高等学校の英語教科書
2002-2005 全部
2006-
中学校の3冊のみ
学習者コーパス
JEFLL Corpus 日本の中学・高校生英語学習者による自
由英作文コーパス
大学生の英作文
NICE
NICEの使用方法
NICEの検索ページ
NICE学習者の英文とネイティブの添削した英文のパラレ
ルコーパス
試作のソフトなど
CEEAUS アジア圏英語学習者コーパス
和泉 絵美, 井佐原 均 , 内元 清貴 (2005) 日本人1200
人の英語スピーキングコーパス 東京:アルク
パラレルコーパスの構築
カタカナ英語
日本語のコーパス
太陽
近代女性雑誌コーパス
現代日本語書き言葉コーパス
男性のことば
女性のことば
戦時中の話ことば
新潮の100冊
38人の作家 775作品
大学の国語の入試問題
毎日新聞 約20年分
読売新聞 2005-2009
参考資料・文献
北尾研究室
http://kkitao.e-learning-server.com/kitao/
今まで学習したこと
英語
英語の基本情報を得る
英語の語彙頻度表を得る
英語の語彙の難易度を得る
品詞タグの付与
日本語
形態素解析 茶筅
分かち書き
既存のコーパス関係の資料
今までの研究の例
学生の研究成果
大規模コーパスを使用する
英語における特徴
BNC 1億語のイギリス英語のサンプル
COCA 4億語のアメリカ英語のサンプル
1990年からの通時的な研究も可能
自分のコーパスを作成する
自分の目的に合わせてコーパスを作成
大規模コーパスや他のコーパスと比較
特徴
基本情報による難易度などで比較
語彙頻度や難易度
用例 コロケーションなど
コンコーダンス
コーパスを解析するツールの1つ
AntConc
http://kkitao.e-learningserver.com/kitao/workshop/1.htm
第1回ワークショップ
ダウンロード
http://kkitao.e-learningserver.com/kitao/workshop/1.htm
復習
調べたいテキストやコーパスの設定方法
テキストファイルのみ
フォルダごとの検索も可能
語彙頻度
レマ化
すべて小文字
語の位置関係
その語がデータのどの部分に出現するか
Concordance Plot
左から始まり右で終わる
黒の縦棒の位置に出現
KWIC検索
Concordance
本来のコンコーダンサ
検索対象語を含むコンコーダンスラインを
一括表示する機能
検索語を箱に入れて検索
第1、第2、第3レベルを設定
多くの場合、左1、右1、右2
元のテキストを見る
青の語をクリックする
共起語頻度リスト
Collocates
検索語の左と右に来る語の頻度表
あくまでも頻度のみ
特定語を含むクラスター
Clusters
検索語を含むn-gram
nを指定
特徴語の抽出
Keyword List
石川先生の説明を参照
品詞タグを利用した検索
Global Settings
Tag Settings
Hide Tags
日本語の検索
Global Settings
Language Encoding
課題
US.txtを解析せよ
テキストダウンロード テキストやAntConcなど
必要なものがダウンロードできます。
目的は明確にされていないので、今まで習っ
た解析をすべてして、その結果野重要なことを
簡単明瞭に文章で描写する。
31日23時59分
E-class
The End