スライド - Japanese Lexical Analyzer

Transcript スライド - Japanese Lexical Analyzer

松下達彦（東京大学）
学習者コーパスから見た日本語習得の難易度に基づく
語彙・文法シラバスの構築
第12回共同研究会
2014年4月19日（国立国語研究所）
1.
2.
3.
4.
5.
6.
7.
8.
9.
「効率的」とは
理論的背景(1)読解力に占める語彙力
理論的背景(2)既知語率と読解レベルの関係
共通ニーズ抽出の必要
領域特徴語の抽出：(1)学術共通語彙、
(2)限定学術領域語彙、(3)文芸語彙
テキストカバー効率（TCE)の提案
ジャンルによる効率的語彙学習順序の違い
ニーズと「学習難易度」の視点
まとめ
「学習の難易度」は・・・ここでは無視
 どうすればより少ない語彙学習量で「読める（聞
ける）」ようになるか
 受容的活動（「聞く」「読む」）では難しいから
無視するというわけにはいかない
 読解（聴解）における既知語のテキストカバー率
をできるだけ早く上げる
 仮定：語彙習得はおおよそ頻度順に進む

一般的に・・・
 形式においては高頻度の語／字は易しいものが多
い。が・・・
 意味・用法においては高頻度であるほど多義的・
多用法の語・字が多い
語彙力が読解力に占める割合
 英語では･･･約３割程度か（Bernhardt, 2005）
 日本語ではもう少し高そう 漢字があるから？
55%
Koda(1989)より計算
47%
小森ほか(2004)
40%以上
野口(2008)より計算
理論的には、読解も聴解も同じ
ただし、
 読解はリライトがしやすいが、聴解は難しい



既知語の割合 Text coverage (テキストカバー
率) by known words
英語では・・・既知語率95％と98％が一つの目安
95％：テキストがある程度理解できるレベル
 98％：自力で読解を楽しめるレベル
（Hu & Nation, 2000; Laufer & RavenhorstKalovski, 2010など）




日本語では・・・もう少し低い既知語率でよいの
では？
９６％程度に閾値？（小森ほか2004)
意味的透明度の高い多数の漢字語の存在
（Matsushita, 2011a＝後述）



日本語能力検定試験でいう初級・中級・上級とは？
英語教育では？（Nation, 2006)
BCCWJ（2009年モニター版、書籍とYahoo知恵袋）で
は？


Yahoo知恵袋を読むのに、約5300語で95％のカバー率
書籍等を含めて平均的に9500語で95％
・・・95％では、自力で読みこなすには少し足りないか（？）
Required Number of Words to Attain Different Levels of Text Coverage in Different Media (Assumed Known Words Included)
Number of Assumed Known Words/
Text Coverage
Assumed Known
Words
60%
70%
80%
90%
91%
92%
93%
94%
95%
96%
97%
98%
99%
Magazines (NLRI, 2006)
14,728 (4.1%)
163
551
1,673
5,466
6,295
7,310
8,568
10,153
12,164
14,894
18,661
23,989
34,013
Newspapers (Amano & Kondo, 2000)
150,859 (5.5%)
195
648
1,752
5,332
6,103
7,038
8,194
9,666
11,607
14,257
18,112
24,360
37,112
Books (NINJAL, 2009)
28,307 (2.2%)
93
335
1,168
4,159
4,829
5,650
6,665
7,946
9,625
11,914
15,210
20,399
30,415
Internet-forum sites (IF) (NINJAL, 2009)
9,117 (1.0%)
59
177
599
2,279
2,646
3,091
3,642
4,351
5,291
6,578
8,483
11,593
17,777
VDRJ (Books and IF) (NINJAL, 2009)
30,683 (2.0%)
88
314
1,125
4,043
4,700
5,505
6,507
7,776
9,446
11,731
15,031
20,256
30,447
* Function words and Assumed Known Words (most proper names and hesitations etc.) are all included in the coverage.
* Assumed Known Words include hesitations, proper names (excluding place names etc. with the ratio of 0.007% or more) and so on.
* The coverage includes the Assumed Known Words, but the number of words does NOT include it. That is, the numbers shows the number of words which need to learn to attain the text
coverage.
(リンクあり）
Grou p
ID
701
G3
702
G3
703
G3
704
G3
705
G3
706
G3
707
G2
708
G2
709
G1
710
G1
711
G2
712
G2
713
G2
714
G2
715
G2
716
G2
717
G1
718
G2
719
G2
720
G2
721
G2
722
G1
S core
146
140
138
130
127
125
123
118
118
118
109
100
94
93
83
70
60
59
53
52
36
23
266
1K
10
10
10
10
9
10
10
10
9
10
10
10
10
10
10
10
10
10
9
10
9
9
237
2K
10
10
10
10
10
10
10
10
9
9
9
9
8
10
8
8
8
7
7
9
4
2
204
3K
10
10
10
10
10
8
9
10
8
7
8
7
9
8
8
5
5
6
7
3
3
2
187
4K
10
9
10
9
10
8
9
9
8
8
9
7
8
5
7
5
3
2
5
2
1
1
195
5K
10
10
10
8
9
9
9
10
9
9
6
8
4
6
5
7
5
5
7
3
3
2
222
6K
10
10
10
10
10
10
9
10
10
9
9
9
9
8
6
7
6
5
8
4
5
2
187
7K
10
10
10
10
9
9
9
7
8
9
8
8
6
4
5
6
6
5
4
2
2
2
158 142 156 145
8K 9K 10K 11K
10 10 10 10
9
9
9
9
10 9
8
6
7
7
8
8
8
7
8
9
8
8 10 7
8
5
8
7
7
6
8
6
9
8
7
7
8
7
7
6
6
5
6
6
6
6
6
3
7
4
8
4
6
3
5
6
6
4
6
5
2
3
3
3
3
3
3
3
2
5
1
2
1
1
0
0
1
1
1
2
1
2
1
1
0
0
0
0
161
12K
10
10
10
9
8
8
6
7
8
7
8
6
4
7
3
4
2
4
2
3
2
0
131
13K
8
7
8
7
6
5
6
6
6
8
5
5
3
6
3
4
1
1
1
3
1
0
152
14K
9
8
8
9
8
8
9
5
7
7
7
6
6
5
4
2
1
3
1
4
1
2
129
15K
9
10
9
8
6
7
9
7
5
7
7
4
4
4
3
1
1
1
0
4
0
1
（対象は日本の大学で学ぶ大学生で、文法、会話等の能力はこ
こでは無視する。語数は書きことばの理解語数と考える。）
 初級：「上位約1500語＋α」で計3000語程度まで
 中級：「上位約1500語＋α」で計12000語程度まで・・・非
常に広い
 上級：「上位約7000語＋α」で計12000語以上
・・・生教材（に近いテキスト）が使えるレベル
 母語話者・・・研究予定
（従来言われている語数よりも少ないことを予想）
計数単位の問題：「富士山」の「山」や「大教室」の「大」を
どう数えるか？
⇒「語」に準じるものとして数えるのが
現実的
“学習負担の原則”
 個別のニーズに応じて、ニーズ領域の頻度
順に語彙学習をするのが一番効率的
しかし、クラス授業では・・・
 普通の機関では個別対応は難しい
 ニーズが明確でない学習者も多い

ニーズが幅広い学習者も多い（例：ジャーナリスト志望）
 大学では一般に、学術ニーズは少しずつ狭
まっていく
教養 文系  社会科学 経済学
『現代日本語書き言葉均衡コーパス』(BCCWJ) モ
ニター公開データ（2009年版）（国立国語研究所
2009）
 書籍部分（約2800万語）＋Yahoo知恵袋（約500
万語）合計約3300万語
 計数単位（語の区切り）：UniDicの短単位

（ほぼ形態素レベル）
形態素解析器：MeCab（工藤2006）
 解析用辞書：UniDic（伝ほか2009）
（UniDicの出力をAntWordProfiler で使用するため，
テキストエディタ上でマクロを作成して加工）


AntConc (Anthony, 2007) のkeyness 機能を利用
特徴語の抽出には
 対象コーパス
 参照コーパス
の二つが必要（対象語彙が含まれる割合を比較）
 対数尤度比(log-likelihood ratio) (Dunning, 1993)


（正規分布などの）特定の分布を要求しない
テキストの大きさが異なる場合にも比較可能な値を返す
(Leech, Rayson, & Wilson, 2001)
 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006)
方法の詳細は松下（2011a; 2012b)を参照


下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版（書籍＋「Yahoo知恵袋」）
学術領域
学術分野
一般テキスト
専門テキスト
合計
異なり語数延べ語数
異なり語数延べ語数
備考
異なり語数
延べ語数
人文
言語・言語学
歴史
民族学・文化人類学
哲学、宗教
芸術
文学
人文・芸術（その他）
小計
21252
49700
39759
36253
35501
68439
46304
403305
2096004
1083009
1503013
967809
8251999
1973098
16278237
7831
11835
3040
9269
5042
5592
683
102504
138139
19666
125917
39744
36852
3414
466236
23708
51514
40150
38229
36177
68915
46337
社会
政治学
法学
経済学
経営学、商学
社会学
教育学
社会科学（その他）
小計
26299
16502
20015
22087
30362
20157
18993
920841
511059
684404
846432
1318930
621050
424164
5326880
8814
10074
12534
10788
12960
10417
4114
115166
333946
367555
310716
333772
262063
36168
1759386
27900
19542
23525
24489
33008
22675
19652
1036007
845005
1051959
1157148
1652702 福祉、労働、ジェンダーも含める。
883113 教科教育法もすべてここに含める。
460332 運輸、通信、心理学、時事問題も含める。
7086266
数学
物理学
天文学・地球惑星科学
3497
2368
8181
4682
16242
12993
18530
40397
25239
101565
37469
307617
195762
399470
1107519
1959
1280
2583
2553
7662
5495
8426
19472
9430
21765
23275
114099
72049
145175
405265
4352
2920
9035
6017
18443
14820
21018
59869
34669
123330
60744
421716
267811
544645
1512784
14680
14932
3610
16657
1740
2348
28254
262283
238989
24703
485896
11551
19255
943822
1986499
5224852
4064
3376
1103
5955
874
2491
6749
41071
28584
10197
82800
3814
23505
74567
264538
15672
15860
4017
17961
2174
3744
29490
303354
267573 林学、水産学、畜産学・獣医学を含む。
34900
568696
15365
42760
1018389 スポーツ、衛生学、生活科学（一部）、環境など
2251037
5224852
29923987
46996
文系
理工
理系
生物・医学
化学、金属・鉱山
工学（建築・土木）
工学（機械、電気、海洋・船舶）
理工系自然科学（その他）
小計
生物学
農学
薬学
医学
歯学
看護学
生物系自然科学（その他）
小計
インターネットＱ＆Ａフォーラム（「Yahoo知恵袋」）
インターネットＱ＆Ａフォーラム（「Yahoo知恵袋」）
合計
54215
54215
2895425
505809
2234143
1102675
1628930
1007553
8288851
1976512
16744473
144231 32819412
情報工学、製造工業、生活科学（一部）、情報科学、図書館学など
テストコーパス（特徴語抽出の際に使用していないコーパス）
• (MC) 会話：名大会話コーパス（日本語母語話者同士の雑談），約113万語
• (BS) 一般書：『現代日本語書き言葉均衡コーパス』2009年モニター版（国立国語研究
•
•
•
•
•
•
•
所2009）「ベストセラー」部分（文芸テキスト数が53％，専門テキストなし），約230万語
(PC) 一般書：「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分（文芸書，
エッセイなど），210万語
(JN) 新聞：日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日
本語部分（1989-2001の「読売新聞」記事）約568万語
(IS) 人文・社会系専門テキスト：新屋・松下編（未公刊）『日本語上級読解演習国際学ア
ラカルト』本文部分，約4万語
(TB) 社会系専門テキスト：「中・上級社会科学系読解教材テキストバンク」（東京外国語
大学留学生日本語教育センター1998）本文部分，約19万語
(SS) 社会系専門テキスト：『留学生のための専門講義の日本語』（名古屋大学国際化
拠点整備事業2010 ）全9冊中，社会系の3冊分の講義テキスト部分，約5万語
(TN) 理工系専門テキスト：『留学生のための専門講義の日本語』（同上）全9冊中，理工
系の5冊分の講義テキスト部分，約7万語
(BM) 生物・医学系専門テキスト：『留学生のための専門講義の日本語』（同上）全9冊
中，生物・医学系の1冊分の講義テキスト部分，約1万語

学術共通語彙リスト
(JAWL = Japanese Academic Word List)
0～Ⅷ 9レベル，計2591語（表１）


中級の JAWLⅠ：学習・教育上，最も重要なリスト
 初級には学術共通語彙の数も少ない
JAWLⅠ 559語
Academic Word List (Coxhead,
2000)570語に近い語数

カバー率もAWLに非常に近い
抽出時使用の学術コーパスのカバー率
AWL: 10.0％ JAWLⅠ: 11.1％
下位コーパス分野別の異なり語数と延べ語数 BCCWJ 2009 版（書籍＋「Yahoo知恵袋」）
学術領域
学術分野
一般テキスト
専門テキスト
合計
異なり語数延べ語数
異なり語数延べ語数
備考
異なり語数
延べ語数
人文
言語・言語学
歴史
民族学・文化人類学
哲学、宗教
芸術
文学
人文・芸術（その他）
小計
21252
49700
39759
36253
35501
68439
46304
403305
2096004
1083009
1503013
967809
8251999
1973098
16278237
7831
11835
3040
9269
5042
5592
683
102504
138139
19666
125917
39744
36852
3414
466236
23708
51514
40150
38229
36177
68915
46337
社会
政治学
法学
経済学
経営学、商学
社会学
教育学
社会科学（その他）
小計
26299
16502
20015
22087
30362
20157
18993
920841
511059
684404
846432
1318930
621050
424164
5326880
8814
10074
12534
10788
12960
10417
4114
115166
333946
367555
310716
333772
262063
36168
1759386
27900
19542
23525
24489
33008
22675
19652
1036007
845005
1051959
1157148
1652702 福祉、労働、ジェンダーも含める。
883113 教科教育法もすべてここに含める。
460332 運輸、通信、心理学、時事問題も含める。
7086266
数学
物理学
天文学・地球惑星科学
3497
2368
8181
4682
16242
12993
18530
40397
25239
101565
37469
307617
195762
399470
1107519
1959
1280
2583
2553
7662
5495
8426
19472
9430
21765
23275
114099
72049
145175
405265
4352
2920
9035
6017
18443
14820
21018
59869
34669
123330
60744
421716
267811
544645
1512784
14680
14932
3610
16657
1740
2348
28254
262283
238989
24703
485896
11551
19255
943822
1986499
5224852
4064
3376
1103
5955
874
2491
6749
41071
28584
10197
82800
3814
23505
74567
264538
15672
15860
4017
17961
2174
3744
29490
303354
267573 林学、水産学、畜産学・獣医学を含む。
34900
568696
15365
42760
1018389 スポーツ、衛生学、生活科学（一部）、環境など
2251037
5224852
29923987
46996
文系
理工
理系
生物・医学
化学、金属・鉱山
工学（建築・土木）
工学（機械、電気、海洋・船舶）
理工系自然科学（その他）
小計
生物学
農学
薬学
医学
歯学
看護学
生物系自然科学（その他）
小計
インターネットＱ＆Ａフォーラム（「Yahoo知恵袋」）
インターネットＱ＆Ａフォーラム（「Yahoo知恵袋」）
合計
54215
54215
2895425
505809
2234143
1102675
1628930
1007553
8288851
1976512
16744473
144231 32819412
情報工学、製造工業、生活科学（一部）、情報科学、図書館学など
表１日本語学術共通語彙 (JAWL) のレベル別異なり語数・語例・語種比率
旧日
学術共本語
能力
通語彙試験
ラベル出題
範囲
４大
語種比率（％）
領域
留学生のた
語例
（異なり語数）
中の異な
めの一般的
レベル共通り語
な語彙重要
（各カテゴリー中、一般的語彙重要度
領域
数ランク最下位６語）
外来混種固有
度ランク (*1)
和語漢語
数
語
語名詞
(*2)
記号
不明
その
他
4
31
科学　規則　割合
生産　産業　講義
25.8 67.7
0.0
3.2
0.0
3.2
3
39
人口　スクリーン数学
競争　工業　地理
20.5 71.8
7.7
0.0
0.0
0.0
4
559
発足　半数　配分
縮小　適正　見直し
20.6 74.6
2.1
2.5
0.0
0.2
JAWL II
3
542
演説　大小　実情
ステージライフ担保
14.2 76.8
6.5
1.3
1.1
0.2
JAWL III
4
212
難問　能動　付随
定型　除　本稿
12.7 76.9
7.5
2.8
0.0
0.0
3
452
交錯　カウント精度
一因　箇年　エンド
12.4 75.9
9.1
1.5
0.9
0.2
4
103
併存　親和　盛況
散在　補填　関わり合う
8.7 82.5
7.8
1.0
0.0
0.0
3
328
帰着　編著　沿海
拮抗　常套　内情
13.1 75.0
9.5
1.5
0.3
0.6
4
56
閉　増刊　含意
複　活路　所与
16.1 66.1 10.7
3.6
0.0
3.6
3
269
付則　深度　孤
概算　頒布　円錐
14.1 71.4 11.2
1.9
0.0
1.5
JAWL 0 ３級
679-1288
初級
JAWL I
1289-5000
JAWL IV
２級
5001-10000
中級
上級
前半
１級
JAWL V 級外
JAWL VI
JAWL VII
JAWL VIII
上級
10001-15000
後半
超
15000-20000
上級
初級語彙（JAWL０含む）＋JAWLⅠ 20.4%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学（英語圏でのEthnology、ドイツ語
圏でのEthnologie）の名称も用いられている（民族学を一分野
とする場合も多い）。民俗学（Folklore）もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙（JAWL０含む）＋JAWLⅠ 計78.1%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学（英語圏でのEthnology、ドイツ語
圏でのEthnologie）の名称も用いられている（民族学を一分野
とする場合も多い）。民俗学(Folklore)もまた隣接分野として共
通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙（JAWL０含む）＋JAWLⅠ＋JAWLⅡ 6.4%
人類学は一般に、人類の進化や生物学的側面を研究する
自然人類学と、人類の社会的・文化的側面を研究する文化人
類学(CulturalAnthropology)あるいは社会人類学
(SocialAnthropology)に大別される。文化人類学の名称はアメ
リカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国で
は「社会人類学」の名称が用いられてきた。他のヨーロッパ諸
国や日本においては民族学（英語圏でのEthnology、ドイツ語
圏でのEthnologie）の名称も用いられている（民族学を一分野
とする場合も多い）。民俗学（Folklore）もまた隣接分野として
共通の研究テーマを共有することが多い。
自然人類学は、人類を進化の過程によって形作られてきた
生物学的側面から捉える。それに対して、文化人類学は自然
の対義としての文化から人類を研究しようとする学問分野であ
る。文化とは、進化の過程を経て形成された遺伝的な形質の
ことではなく、人類が後天的に学習した行動パターンや言語、
人工物の総体を指している。したがって文化人類学の隣接科
学には言語学と考古学があり、アメリカの学部ではこれらの学
問に加えて自然人類学をあわせて総合的に教育されている。

新聞には初級語彙が少なく，
中級の学術共通語彙が多い

理系（理工系，生物・医学系）には
文系（人文系，社会系）より上級の学術共通語彙が多い

３領域語(JAWLⅡなど)に欠けている１領域（一般テキ
ストと比較して学術テキストで高い割合を示さなかっ
た領域）
生物・医学系が1630語中613語（37.6％）と最多
 以下，人文系440語（27.0%），理工系343語
（21.0％），社会系234語（14.4%）
社会系は理工系や人文系との共通性が高い
生物・医学系は他の領域との共通性が相対的に低い


文芸語彙リスト
(JLW = Japanese Literary
Words)
５レベル，計1616語（表１）
中～上級に多く分布
 名詞（39.9％）、動詞（34.0％）
 学術共通語彙と比べ動詞、副詞、間投詞が多い
 ７割以上は和語
 漢語が４分の３を占める学術共通語彙と対照的

日本語文芸語彙のレベル別語数および語例
レベル
日能試
留学生のための語彙
ランク（松下2011b)
初級
旧3級
682-1,291
142
ちっとも
引き出し
中級
1,292-5,000
446
戸惑う
吐き出す
上級１
5,001-10,000
483
不吉
銀色
345
敵機
口笛
200
香菜
樹海
上級２
超級
旧２級
旧１級
旧級外
10,001-15,000
15,000-20,000
Total
語数
1,616
各レベル
最下位の2語









1) 身体部位を表す語（「首」「指先」「まぶた」）
2) 身体動作を表す語（「立ち上がる」「飛び出す」「引っ張
る」）
3) 陳述や様態の副詞（「ちっとも」「たちまち」「きらき
ら」）
4) 間投詞（「おや」「へー」「ほら」）
5) 縮約や地域語などの口語的表現（「こりゃ」「-ちまう」「はる」「-さかい」）
6)比喩に用いられる語（「振り向く」「流れる」「かみしめ
る」）
7) 作品の背景（舞台装置・小道具）に用いられやすい物体を表
す語（「ビール」「岩」「ソファー」）
総じて言えば「人間の感情や動作を生き生きと描写する語彙」
性的描写や殺人、戦争を連想させる語も目立つ。コーパスは厳密
なサンプリングによるものなので、冒険、推理、サスペンス、歴
史などが多く題材になっているためだと考えられる。
E =




𝐹𝑡
𝐿𝑡𝑤
×
1,000,000
𝑁𝑡
=
𝐹𝑡 ×1,000,000
𝐿𝑡𝑤 ×𝑁𝑡
E: テキストカバー効率 = 対象となる語群の中のあ
る１語の、対象領域テキスト100万語あたりに期待さ
れる延べ語数
𝐹𝑡 :対象領域テキストにおける対象となる語群の延べ
語数
𝐿𝑡𝑤 :対象領域テキストにおける対象となる語群の異な
り語数（異なり語彙素数）
𝑁𝑡 : 対象テキストの延べ語数（テキストの長さ）

The idea behind TCE is simply that it is better to gain
more text coverage by a smaller number of learned
lexemes. In other words, even if a group of words
provide high text coverage, it will not always be
efficient to learn the group of words if the group has
many lexemes to learn. Therefore, the average
number of tokens to be covered by a word in the
group needs to be calculated. High efficiency in
vocabulary learning is that more words in a text are
covered by fewer learned words. TCE is assumed to
predict the average efficiency in gaining text coverage
by learning a word of the group.
Corpus Code
Genre
MC
UPC
BCCWJ
UYN
TB
MTT-Ss
MTT-Bn MTT-Tn BCCWJ-T
JS-Bn
JS-Tn
Conver- Novels, Essays,
Novels
sation Essays etc. etc.
Whole
Newspaper
Ss
Ss
Bn
Tn
Academic
Ss & Ha
(Intro.)
(Intro.) (Intro.) (Various)
Bn
(Journal
Articles)
Tn
(Journal
Articles)
Total Tokens (Million)
WIS
F-JLPT
Level
1-20,000
L4-L1, Others
68220,000
L3-L1,
Others
AW
Label
BSB
1.13
Number
of
Lexemes
in VDRJ
General 13,302
2.30
2.10
32.82
5.68
0.19
0.05
TIS
0.04
0.01
0.07
2.90
0.72
2.71
TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a onemillion-token text in the target domain.
61
59
58
56
48
50
51
50
46
46
46
41
40
2,591
10
28
29
42
80
82
81
80
88
89
90
103
108
LAD
2,542
6
15
12
21
44
35
30
35
27
23
36
26
24
LW
1,616
67
41
46
28
11
10
10
12
9
14
11
7
7
20,001+ L2, L1,
21K+
91,104
0.1
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.4
0.4
0.3
0.3
0.5
--
Others
AKW
30,821
0.6
0.8
0.4
0.6
0.4
0.1
0.1
0.3
0.1
0.2
0.4
0.2
0.1
1-5,000
L4-L1, Others
1K-05K
5,024
184
178
177
177
177
183
187
183
171
168
177
163
159
1-10,000
L4-L1, Others
1K-10K 10,024
95
93
93
92
94
96
96
96
90
89
93
86
85
*WIS: Word Rankings for International Students
*AKW: Assumed Known Words (mostly proper nouns)
*F-JLPT: The former Japanese Language Proficiency Test
*Ha: Humanities & Arts
*VDRJ: Vocabulary Database for Reading Japanese
*Ss: Social Sciences
*AW: Common Academic Words
*Tn: Technological Natural Sciences
*LAD: Limited-academic-domain words
*Bn: Biological Natural Sciences
*LW: Literary Words
Corpus Code
Genre
MC
UPC
BCCWJ
UYN
TB
Conver- Novels, Essays,
Novels
sation Essays etc. etc.
Whole
Newspaper
Ss
Total Tokens (Million)
WIS
F-JLPT
Level
1-20,000
L4-L1, Others
68220,000
L3-L1,
Others
AW
Label
BSB
1.13
2.30
2.10
32.82
Number
of
Lexemes
in VDRJ
TIS
MTT-Bn MTT-Tn BCCWJ-T
JS-Bn
JS-Tn
Bn
Tn
Ss
Bn
Tn
Academic
(Journal (Journal
Ss & Ha
(Intro.)
(Intro.) (Intro.) (Various) Articles) Articles)
0.19
0.05
0.04
0.01
0.07
2.90
0.72
2.71
Ranking for TCE of the Grouped Words in Each Genre
2
1
1
1
2
2
2
2
2
2
2
2
2
2,591
3
3
3
2
1
1
1
1
1
1
1
1
1
LAD
2,542
4
4
4
4
3
3
3
3
3
3
3
3
3
LW
1,616
1
2
2
3
4
4
4
4
4
4
4
4
4
20,001+ L2, L1,
21K+
91,104
6
6
6
6
6
6
6
6
5
5
6
5
5
Others
AKW
30,821
5
5
5
5
5
5
5
5
6
6
5
6
6
--
General 13,302
5.68
MTT-Ss
*WIS: Word Rankings for International Students
*AKW: Assumed Known Words (mostly proper nouns)
*F-JLPT: The former Japanese Language Proficiency Test
*Ha: Humanities & Arts
*VDRJ: Vocabulary Database for Reading Japanese
*Ss: Social Sciences
*AW: Common Academic Words
*Tn: Technological Natural Sciences
*LAD: Limited-academic-domain words
*Bn: Biological Natural Sciences
*LW: Literary Words
TCE: Text Covering Efficiency
= Expected number of tokens of a lexeme in the tested
group
in a one-million-token text in the target domain
Basic
General
CAW (4D)
CAW (3D)
LAD (1D-Bn)
495.6
1098.7
425.1
77.8
Inter.
13.9
241.1
95.4
89.1
Adv. 1
3.2
41.4
27.3
20.3
Adv. 2
2.0
22.6
13.4
22.0
S-Adv.
1.2
10.3
7.6
17.6
TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a onemillion-token text in the target domain
300.0
250.0
200.0
General
CAW (4D)
150.0
CAW (3D)
LAD (1D-Bn)
100.0
50.0
0.0
Inter.
Adv. 1
Adv. 2
S-Adv.
 母語話者中心のコーパスの分析はニーズ
中心の考え方
 学習者コーパスは語彙ニーズを反映する
とは言い切れない
 学習者の場面と話題のニーズを調査し、
そこでの母語話者／学習者の両方のコー
パスデータが望ましいのでは
単語の学習難易度は（接触頻度の問題を除け
ば）一般に初級ほど高い。多義語が多いため。
 多義語の各用法を同時に初出で学ぶ必要はな
い。負担にならないのがよい。
 （類義語を同時提出しがちだが）類義語を同時
に初出で学ぶのは良くない。混乱する。（先行
研究多数）
 結局、ニーズ領域に沿って頻度の高いものから
学ぶのがよい
 ある程度定着して、類義語の違いに意識が向い
たところで学ぶのは効果があるはず

（A）類義・類形の語の学習

意味や用法の似ている語はいっしょに教える？
初出で、同時に二つ以上の類義語／類義字を教えるのは×
＊混乱を招きそうな既存教材が少なくない
 一方が定着した後でもう一つを学ぶのは○
 疑問を感じたところで整理するのは○だが、まずは一方に力を入
れる


形の似ている語はいっしょに教える？




初出で、同時に二つ以上の類形語、類形字を教えるのは×
一方が定着した後でもう一つを学ぶのは○
疑問を感じたところで整理するのは○だが、まずは一方に力を入
れる
同じ文脈で用いる語はいっしょに教える？


Syntagmatic な関係（共起語）は○
Paradigmatic な関係（類義語／上位語・下位語）は基本的に×
（B）その他
Q．文脈と結びつけるか、切り離すか
Ａ．どちらも有効で、必要
Communicative な方法だけでは非常に効率が悪い
（付随的語彙学習では、平均して１０回以上の encounter
が必要だと考えられる (Waring & Takaki, 2003 ほか)）
 フラッシュカードなどの対連合学習も暗示的知識になりえる
（Elgort, 2007）が、 Sequential Ledarning はダメ
⇒ノートよりカードの方がいいかもしれない・・・（？）
 Spaced Retrieval
= 同じ語の学習間隔を少しずつ伸ばしていく
 さまざまな webツールやスマホのアプリの利用
 ストラテジー教育は有効な場合が多い

（C）結局・・・
初めは、「ニーズ領域に合った」会話や読解などの素
材で、文脈で学ぶのがよい
 並行してフラッシュカードなどの Languagefocused learning も入れる
 一定期間（日／週／月／学期／年・・・）にどのぐら
いの語数や漢字数を学習できるのか、おおよそ把握す
る（個人差が大きいが・・・）
教師にできることは・・・
 読解の素材の語彙レベルをコントロールし、段階的に
語彙レベルを上げるように仕組むこと
 聴解は、それがむずかしい。リライトできないので。
中級レベルで使える、生に近い聴解素材を探す
例）NHK: NEWS WEB EASY


短いスパンで同一語を数回リサイクルするようなタスクを用
意すること

漢字は書字形態の学習の難易に手がかりがあ
る（画数、頻度、パーツの頻度など）

しかし意味の学習単位はやはり語が中心であ
るべき
まずは語でレベル付けをして、それから漢字
のコントロール（書き換え／振り仮名など）
を考える
 Ｊ－ＬＥＸは役に立つはず

http://www17408ui.sakura.ne.jp/index.html
中国語系学習者（CBL)は“意味理解に限定すれば”日本
語の初級、中級語彙の３分の１は基本義が理解できる
（松下2011b, 2012a）
 CBLとnon-CBLの間で難易度の大きな差があったのは
ほとんどが中国語と同形同義の漢語
潜伏(する) 前途反(政府) 共犯貧困(な)
対決(する) 気温元凶故郷未満慈善符合(する)
費用肩腸学者周期炊飯要領粒子
 外来語の理解における英語知識の影響は、英語が母語
に近いレベルであればかなり大きい（カタカナから音
韻のdecodingが正しくできれば低頻度語彙でも数
パーセントの語彙が理解できる）

参考文献（１）
Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool)
http://www.antlab.sci.waseda.ac.jp/software.html
(Version 1.0 first published in 2002)
Anthony, L. (2009). AntWordProfiler 1.200w program.
Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html
Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of Applied
Linguistics, 25, 133–150. doi:10.1017/S0267190505000073
Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures.
System, 34, 255-269.
Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238.
Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational
Linguistics, 19, 61–74.
Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign
Language, 13(1), 403-430.
Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London: Mouton & Co.
Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor (リーディング・チュー太). Cited from
http://language.tiu.ac.jp/index_e.html
Koda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2 Reading Proficiency.
Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.1944-9720.1989.tb02780.x
Laufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC Journal,
25(2), 21-33.
Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage,
learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1), 15–30.
Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow: Longman.
参考文献（２）
Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really
heavier than that of English? The 17th Biennial Conference of the Japanese
Studies Association of Australia. University of Melbourne, Melbourne,
Australia, 6 July 2011.
Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic,
literary and beyond. The 2nd Combined Conference of Applied Linguistics
Association of Australia & Applied Linguistics Association of New Zealand.
Australian National University, Canberra, Australia, 2 December 2011.
Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A
Corpus-based Approach. PhD dissertation, Victoria University of Wellington,
Wellington.
Nation, I.S.P. (2006). How Large a Vocabulary Is Needed for Reading and Listening?
The Canadian Modern Language Review, 63(1): 59-82
Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher,
31(7), 9–13.
Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English
News Articles and Sentences. ACL-2003, 72-79.
Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new
vocabulary from reading a graded reader? Reading in a Foreign Language, 15(2),
130-163.
工藤拓 (2006). MeCab Ver. 0.98pre3（形態素解析器） http://mecab.sourceforge.net/
2009年7月10日
小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾
値探索の試み―」『日本語教育』 125, 83-92.
参考文献（３）
伝康晴・山田篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12（解析
辞書） http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007)
野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度
日本語能力試験分析評価に関する報告書』 45–111、凡人社
松下達彦 (2010) 「日本語を読むために必要な語彙とは？－書籍とインターネットの大規
模コーパスに基づく語彙リストの作成－」『2010年度日本語教育学会春季大会予稿
集』335-336.
松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for
Reading Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日
松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同
形漢語の量的検証－学習開始時点で、受容的語彙知識は、学習者の母語により
どのぐらい異なるか－」The 4th Annual North East Asian Region (N.E.A.R.)
Language Education Conference, International University of Japan, Niigata, Japan,
28 May 2011.
松下達彦 (2011c) 「日本語の学術共通語彙（アカデミック・ワード）の抽出と妥当性の検
証」『2011年度日本語教育学会春季大会予稿集』 244–249.
松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際
研究大会予稿集第一分冊』 310.
松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第
九回国際日本語教育・日本研究シンポジウム、香港城市大学、2012年11月24日
ホームページ
（「松下」「言語」で検索してください）
 http://www17408ui.sakura.ne.jp/tat
sum/

スライド - Japanese Lexical Analyzer

Transcript スライド - Japanese Lexical Analyzer

Directory