Transcript 発表スライド
複数の語彙リストの比較による、
日本語の常用語に含まれる日中同形漢語の
量的検証
-学習開始時点で、受容的語彙知識は、
学習者の母語によりどのぐらい異なるか-
松下 達彦 MATSUSHITA, Tatsuhiko
(Victoria University of Wellington)
[email protected]
The Third N.E.A.R. Language Education Conference,
第3回北東アジア言語教育学会, May 28, 2011
International University of Japan 国際大学
本発表の構成
1.研究動機
2.先行研究
3.研究課題
4.研究方法
5.結果
6.考察
7.まとめ
8.今後の課題
1.研究動機(1)
• 日本語カリキュラムの問題の一つ
いわゆる漢字圏/非漢字圏の学習者の混在
• 学習者の母語の漢字知識の影響に起因
• 中国語系学習者:読むための語彙知識において
有利な点が多い
• では、それはどの程度?
• 量的に把握している教師/研究者は少ない
• 学習時間にしてどの程度の差になりえるのか?
1.研究動機(2)
• 欧米など非漢字圏のアジア研究の学科
• 日中両語を学習する学生や研究者も少なくない
• 日中両語を学習する学習負担上のメリット
(デメリット)はどの程度?
Cf. 複数言語が使えるヨーロッパやスラブの研究者
2.先行研究(1)
日中同形語の研究
• 意味・用法の異同の記述的研究は多い
(荒川1979、文化庁1978など)
• 同形漢字語の認知や習得の研究もいくつか
(加藤2006、茅本1996, 2000、呉1996、玉岡・松下1999、
陳2003など)
中国語語彙における位置づけを量的に論じたもの
(荒屋1983、曾根1988、高野・王2002)
2.先行研究(2)
中国語語彙における位置づけを量的に論じたもの
• 荒屋1983:辞典を使用、中国語常用語3800語中、
約50%を同形語と認定
▫ ただし和語も含み、活用語尾を無視
例)「進む」=〈进〉
• 曾根1988:中国語頻度表と日本語辞書を参照、
上位8441語から単音節語を除いた6112語中、
56%を同形語と認定
• 高野・王2002:中国語頻度表と日本の高校教科書の
語彙を比較、中国語上位3000語中、
33%を同形語と認定
2.先行研究(3)
日本語語彙における同形漢語の量的な位置づけ
• 高野・王2002:中国語頻度表と日本の高校教科書の
語彙を比較、日本語上位3000語中、
41%を同形語と認定
• 松下2009:雑誌の語彙頻度上位5022語中、
38%を同形語と認定
(上位3000語に限れば高野・王2002と近い値)
• いずれの調査もコーパス領域(教科書/雑誌)、
コーパスサイズの問題あり
⇒ 別のコーパスでの調査の必要あり
3.研究課題(1)
これらの問題を考える基礎資料提供のため
• 日中同形漢語は
常用語にどの程度存在するのか?
を書籍を含むコーパスに基づいて明らかにする
3.研究課題(2)
具体的には、
• 異なるコーパスに基づく二種類の語彙リストの自立
語上位5000語の中に
• どの程度の漢語が存在し
• そのうちのどの程度が日中同形漢語かを比較
• 1000語ずつに区切ったレベルにおける割合
を調べ、意味等の違いも考慮したうえで、
学習負担の違いを時間数に換算して予測する
4.研究方法(1)
調査対象のコーパス・語彙リスト
• 現代雑誌200万字語彙リスト(現代雑誌)(国立国語研究所2006)
▫ 1994年に出版された雑誌70種類に基づく
▫ 延べ語数約106万語、うち自立語73万語
• 日本語を読むための語彙データベース(VDRJ)(松下2011)
▫ 現代日本語書き言葉均衡コーパス2009年モニター版
(国立国語研究所2009)に基づく
▫ 書籍(延べ約2800万語)と「Yahoo知恵袋」(同約500万語)
▫ 計約3300万語、うち自立語1900万語
▫ 頻度に分散度をかけ合わせた指標(Juilland &
Chang-Rodrigues, 1964)で順位づけ
4.研究方法(2)
• 標準的表記の認定
▫ 漢語でも、かな表記のほうが頻度が高い場合は、
かな表記を採用し、同形語とはしない
例)「たぶん(多分)」「けんか(喧嘩)」
• 自立語および漢語の認定
▫ 現代雑誌:語彙リスト上の情報に基づく
▫ VDRJ:形態素解析辞書UniDic(伝ほか2009)
に基づく
4.研究方法(3)
日中同形語の認定
• 現代雑誌:松下(2009)に基づくが、一部修正
▫ 《现代汉语频率词典》(北京语言学院语言教学
研究所1986)収録語をすべて認定
▫ その他の語は中国語母語の日本語専攻の院生2
名による認定、必要に応じて3名の合議で判定
▫ さらに中国語母語の日中翻訳歴10年以上の翻訳者
と発表者の2名の合議で判定を一部修正
• VDRJ:
▫ 松下(2009)と重なる語はすべてその認定に従う
▫ その他の語は中国語母語の日中翻訳歴10年以上
の翻訳者と発表者の2名の合議で判定
4.研究方法(4)
日中同形語の認定
• 文字表記上の同形語
• いわゆる字体の相違は考慮しない
• 旧字体(康煕字典体)が共通である字をすべて同形と
認定
← 日本語と中国語の漢字は脳内でリンク(茅本2000)
(字体が異なっていても音韻的類似度の影響あり)
4.研究方法(5)
• 対応する字体の漢字表記が同じの語は「同形語」
=旧漢字(康煕字典体=繁体字)の表記が共通
(康煕字典体)
《經濟》
「経済」 (日本漢字)
〈经济〉(中国漢字=簡体字)
• 語種は漢語(中国語からの借用語)のみ
例)「場合」は含まない
4.研究方法(6)
日中同形語の認定に迷うケース
認定しない場合
• 「たぶん(多分)」「場合」
認定する場合
• 「編集」 cf.〈编辑〉:通用表記
• 「種々」 cf.〈种种〉:通用表記
• 「業者」
:比較的新しい語(ネットで確認)
• 「我慢」「完了」
:異なる文法単位
• 「-徒」
:接辞
5.結果(1)語種の割合(異なり語数)
表1 書籍・インターネットフォーラム ( 松下2 0 1 1 ) 高頻度自立語5 0 0 0 語に占める語種別の語数・ 割合
レベル
語数
レベル 重要度順位* 全体
漢語
割合( %)
外来語 和語
混種語
その 他 * *
全体
漢語
外来語 和語
混種語
その 他 * *
-1000 0001-1000
1000
449
13
497
25
16 100.0%
44.9%
1.3%
49.7%
2.5%
1.6%
-2000 1001-2000
1000
538
52
371
22
17 100.0%
53.8%
5.2%
37.1%
2.2%
1.7%
-3000 2001-3000
1000
505
83
363
17
32 100.0%
50.5%
8.3%
36.3%
1.7%
3.2%
-4000 3001-4000
1000
518
90
336
16
40 100.0%
51.8%
9.0%
33.6%
1.6%
4.0%
-5000 4001-5000
1000
501
104
322
25
48 100.0%
50.1%
10.4%
32.2%
2.5%
4.8%
5000
2511
342
1889
105
1 5 3 100.0% 5 0 . 2 %
6.8%
37.8%
2.1%
3.1%
混種語
その 他 * *
全体 0 0 0 1 - 5 0 0 0
*頻度に分散度をかけ合わせた運用度係数(Juilland & Chang-Rodrigues1964)の順位
**高頻度自立語5000語に含まれる「その他」は固有名詞(地名・人名)・不明など。
表2 雑誌 ( 国立国語研究所2 0 0 6 ) 高頻度自立語5 0 0 0 語に占める語種別の語数・ 割合
レベル
レベル 頻度順位*
語数
全体
漢語
割合( %)
外来語 和語
混種語
その 他 * *
全体
漢語
外来語 和語
-1000 0001-992
1002
461
110
389
16
26 100.0%
46.0%
11.0%
38.8%
1.6%
2.6%
-2000 1003-1964
999
452
150
339
14
44 100.0%
45.2%
15.0%
33.9%
1.4%
4.4%
-3000 2002-2955
1027
450
204
280
26
67 100.0%
43.8%
19.9%
27.3%
2.5%
6.5%
-4000 3029-3903
1034
416
245
270
24
79 100.0%
40.2%
23.7%
26.1%
2.3%
7.6%
-5000 4063-4794
960
397
216
235
20
92 100.0%
41.4%
22.5%
24.5%
2.1%
9.6%
5022
2176
925
1513
100
3 0 8 100.0% 4 3 . 3 %
18.4%
30.1%
2.0%
6.1%
全体 0 0 0 1 - 4 7 9 4
*同一順位に同頻度の複数の語があるため順位と累計語数は必ずしも一致しない。
**高頻度自立語5000語に含まれる「その他」はすべて固有名詞(地名・人名)である。
5.結果(2)語種の割合(異なり語数)
•
•
•
•
•
漢語は書籍等のほうが雑誌より7%多い
漢語は書籍等では異なり語数の半数を占める
和語も書籍等のほうが雑誌より8%多い
外来語は書籍等のほうが雑誌より12%少ない
全体的には漢語は安定
和語は頻度が下がると減り、外来語が増える
• 従来の研究では雑誌のデータ(国立国語研究所
1962など)が多く引用されてきたが、雑誌は広告を
多く含み、語種構成に偏りあり
5.結果(3)同形語の割合(異なり語数)
表3 書籍・ インターネッ トフォーラム ( 松下2 0 1 1 ) 高頻度自立語5 0 0 0 語に占める日中同形語の語数・ 割合
レベル
語数
日中同形語の語数/割合
レベル
重要度順位*
全体
漢語
同形語
n / 漢語
n / 全体
-1000 0001-1000
1000
449
423
94.2%
42.3%
-2000 1001-2000
1000
538
495
92.0%
49.5%
-3000 2001-3000
1000
505
433
85.7%
43.3%
-4000 3001-4000
1000
518
428
82.6%
42.8%
-5000 4001-5000
1000
501
373
74.5%
37.3%
5000
2511
2152
85.7%
43.0%
全体 0 0 0 1 - 5 0 0 0
*頻度に分散度をかけ合わせた運用度係数(Juilland & Chang-Rodrigues1964)の順位
付属語は除いている。
表4 雑誌( 国立国語研究所2 0 0 6 ) 高頻度自立語5 0 0 0 語に占める日中同形語の語数・ 割合
レベル
語数
日中同形語の語数/割合
レベル
頻度順位*
全体
漢語
同形語
n / 漢語
n / 全体
-1000 0001-992
1002
461
419
90.9%
41.8%
-2000 1003-1964
999
452
414
91.6%
41.4%
-3000 2002-2955
1027
450
386
85.8%
37.6%
-4000 3029-3903
1034
415
343
82.7%
33.2%
-5000 4063-4794
960
397
325
81.9%
33.9%
5022
2176
1887
86.7%
37.6%
全体 0 0 0 1 - 4 7 9 4
*同一順位に同頻度の複数の語があるため順位と累計語数は必ずしも一致しない。
5.結果(4)同形語の割合(異なり語数)
• 書籍等、雑誌ともに、漢語の8~9割が同形語
• 書籍等、雑誌ともに、同形語は上位2000語に多い
(漢語の9割以上)
• 同形漢語の割合は、頻度順が下がるにつれて
少しずつ下がる
• 同形語は(自立)語(異なり語数)全体の4割前後
(書籍等:43%、雑誌38%)
• 高野・王2002に近い結果だが、やや多い
▫ 対象コーパスの違い、認定範囲の違いに起因か
5.結果(5)まとめ
• 漢語は雑誌語彙の上位5000語において4割以上、書
籍等の語彙では5割以上
• いずれのリストにおいても同形語が漢語の8割から9
割、上位5000語全体の4割前後
• 同形漢語は特に上位2000語で漢語の9割以上
• その割合は5000語レベルにかけて少しずつだが下
がっていく
6.考察(1)
• 意味のずれはどのぐらいか
▫ 高野・王2002:84%を意味同一と認定
▫ 曾根1988:中国語上位1000語に含まれる同形語313
語中、73%を意味同一と認定
• 同形語の頻度レベル:日中両語である程度の相関
(松下2009) r = .336, p<.01
=高くないが著しく低くもない ⇒文体差は大きくない
6.考察(2)
• 同形語の字体:67%が同一、23%が類似(松下2009)
一部を除けば字体の相違は
上級者には認知処理に影響ない(玉岡・松下1999)
• 同形語の音韻的類似度:一部を除き高くない(松下2009)
7点法、平均2.60、標準偏差1.14
(茅本(1995)に基づいて計算)
6.考察(3)
• 同形語が上位5000語で4割で、
その4分の3程度が意味・表記が同一と考えると、
総異なり語数の3割程度は
中国語知識の利用により理解できる書きことば語彙
であると推定できる
• 表記の学習は非同形語でも非漢字圏学習者より有利
(松下・Taft・玉岡2004)
• 意味・用法の異なる同形語は母語知識の抑制が必要
• 同形漢語の特質を理解した上で、
学習上、楽できるところは楽をして、
注意すべき点に集中するのがよい
6.考察(4)
学習負担の違いはどのぐらいか?
• 週当たり、年間の学習可能語彙数を設定し、学習時間
に換算してみる
▫ 25~50語/週×40週=1000~2000語
▫ 5000語×0.3=1500語
⇒一部の日本語学校カリキュラム(1年間で中級終了)は
漢字圏学習者に合わせて作られている
と言わざるを得ない(週100語近いペース)
⇒非中国語系学習者が中級終了までに要する期間は、
フルタイムで学習しても
中国語系学習者より、約1年、余分にかかるのでは?
6.考察(5)
• (日本語語彙量テスト結果)
• 会話と読み書きの学習負担の相違をどう考えるか
▫ 初級では会話中心
▫ 中級以降、特にカリキュラムに工夫が必要か
▫ 書きことば語彙理解の有利さは、
文法習得や会話の不利にも
⇒中国語系、非中国語系が混在する機関では
初級から選択モジュール/複線的カリキュラムの導入
が必要ではないか
7.まとめ
•
•
•
•
漢語は書籍等では異なり語数の半数を占める
書籍等、雑誌ともに、漢語の8~9割が同形語
同形語は(自立)語(異なり語数)全体の4割前後
中国語知識で理解できる日本語書きことば語彙は
総異なり語数の3割程度
• 非中国語系学習者が中級終了までに要する期間は
フルタイムでも中国語系より、約1年、余分に?
• 中国語系、非中国語系が混在する機関では
初級から選択モジュール/複線的カリキュラムの
導入が必要では?
8.今後の課題
• さらに上級、超上級までの漢語、同形語の割合
の検証
• 和語の学習負担への第一言語の影響の検証
• 外来語の学習負担への第一言語の影響の検証
• 意味や用法の相違のパタン別の割合の詳細な
検討
• 一般的な学習負担の計算の精密化
• 具体的な対策としての選択モジュール/複線的
カリキュラムの研究
引用文献(1)
• Juilland, A., & Chang-Rodrigues, E. (1964). Frequency
Dictionary of Spanish Words. London: Mouton & Co.
• 荒川清秀(1979)「中国語と漢語 -文化庁『中国語と
対応する漢語』の評を兼ねて」『愛知大学文学会文
学論叢』62、1-28
• 荒屋 勤(1983)「日中同形語」『大東文化大学紀要
人文科学』21, 17-29
• 加藤稔人(2005)「中国語母語話者による日本語の漢
語習得 -中国語との対応のしかたによる漢語習得
過程の違い-」『日本語教育』125, 96-105
• 茅本百合子(1995)「同一漢字における中国語音と日
本語の音読みの類似度に関する調査」『広島大学日
本語教育学科紀要』5, 67-75
引用文献(2)
• 茅本百合子(1996)「日本語漢字と中国語漢字の形
態的・音韻的差異が中国語母語話者による日本語
漢字の読みに及ぼす影響」『広島大学教育学部紀
要』第二部、45,345-352
• 茅本百合子(2000)「日本語を学習する中国語母語
話者の漢字の認知 -上級者・超上級者の心内辞
書における音韻情報処理-」
• 呉 佳頴(1999)「台湾人日本語学習者の聴解力に関
する研究 -漢語と和語の聞き取りを中心に-」広
島大学教育学研究科修士論文
引用文献(3)
• 国立国語研究所(1962) 国立国語研究所報告21『現
代雑誌九十種の用語用字 第一分冊 総記および語
彙表』秀英出版
• 国立国語研究所(2006)『現代雑誌200万字言語調査
語彙表』公開版(ver.1.0) 以下よりダウンロード可
(2009年1月26日確認)
http://www2.kokken.go.jp/goityosa/index.html
• 曾根博隆(1988)「日中同形語に関する基礎的考察」
『明治学院論叢』424, 61-96
• 高野繁男・王 宝平(2002)「日中現代漢語の層別 ―
日中同形語に見る―」神奈川大学人文学研究所編
『日中文化論集』118-139、勁草書房
引用文献(4)
• 玉岡賀津雄・松下達彦(1999)「中国語系日本語学習
者による日本語漢字二字熟語の認知処理における
母語の影響」第4回国際日本語教育・日本研究シン
ポジウム「アジア太平洋地域における日本語教育と
日本研究:現状と展望」(香港理工大学)、配布資料
• 陳 毓敏(2003)「中国語を母語とする日本語学習者
の漢語習得について ―同義語・類義語・異義語・脱
落語の4タイプからの検討―」『2003年度 日本語教育
学会秋季大会 予稿集』174-179、日本語教育学会
• 伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智
信 (2009). UniDic version 1.3.11(解析辞書)
http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007)
引用文献(5)
• 文化庁(早稲田大学語学教育研究所日本語科)
(1978)『中国語と対応する漢語』大蔵省印刷局
• 北京语言学院语言教学研究所(1986)《现代汉语
频率词典》北京语言学院出版社
• 松下達彦・Marcus Taft・玉岡賀津雄 (2004) 「中国語
「単語」を知っていることは日本語漢字語の発音学
習に役立つか?」,記念論文集編集委員会編『平井
勝利教授退官記念 中国学・日本語学論文集』白
帝社, p.578-590,2004年3月
• 松下達彦(2009) 「マクロに見た常用漢字語の日中
対照研究 ―データベース開発の過程から―」『桜
美林言語教育論叢』5、117-131
引用文献(6)
• 松下達彦 (2011). 日本語を読むための語彙データ
ベース (Vocabulary database for reading Japanese)
(=日本語を読むためのTM語彙リスト Ver. 4.0,Ver.
1.0 は2010).
http://www.wa.commufa.jp/~tatsum/index.html