メンタルレキシコン4: ことばの意味を言語データから

Download Report

Transcript メンタルレキシコン4: ことばの意味を言語データから

メンタルレキシコン:
ことばの意味を言語データから探
る
Mental Lexicon: Investigating Word Meaning with
Language Data
Victoria Muehleisen, Waseda University
コーパス言語学とは?

コーパス言語学とは、コーパス(テキ
ストの総体)をつかった、言語の科学
的研究のことです。
コーパスとは何か?

コーパス(corpus, pl. corpora; 「身
体」を意味するラテン語に由来)と
は 、ある言語研究の目的のために大
量に収集されたテキストの総体です。

近年ではコーパスは大抵コンピュータ
によって収集、処理、アクセスされま
す。
コンピュータ登場以前のコーパ
ス
シェイクスピアの著作
 聖書やそれに関したテキスト
 オックスフォード辞典を作成するため
の参考資料集め。

コンピュータによる大規模化

初期のコーパスは必然的に量に限界が
ありました。しかし、コンピュータの
発達により、言語学者や他の研究者は
より大きなコーパスを作り始めました。
The Brown Corpus

最初のコンピュータをつかったコーパ
ス。

1961年にBrown Universityで作成された。

新聞記事、教会の説教、小説など、幅
広いジャンルのアメリカ英語から100
万語を収集した。
ブラウン・コーパスで扱われるテキス
トは、慎重に抽出され、広範囲にわた
るため信頼性が比較的高い。
 さらに、無償で提供されているため、
現在でも多くの研究者が利用してる。

なぜコーパスをつくるのか?

ブラウン・コーパスや他のコーパスの
目標:
◦ 英語の多様性を捉えること
◦ そして、それを言語学的に説明すること

1960sのノーム・チョムスキーから始
まり、1980sごろまで、多くの言語学
者は「ネイティブの直感」に頼った方
法で言語を研究していました。

たとえば、言語学者は次のような形で
ネイティブに質問していました。
◦ “How do you say X in your native language?”
◦ “Is this sentence grammatical in your
language?”

話者は創造的で、新しい文章をどんど
ん作ることができるのだから、なにが
言語にとって可能であるかは、ただ発
せられた文を見るだけでは分からない、
と主張されてきました。

しかし、コンピュータ化した大規模な
コーパスにより、すべての可能な文を
収集することは不可能だが、一人の人
間が一生のうちに発する文よりもっと
沢山の文を集めることができるように
なりました。

さらに、大規模なコーパスの中には、
ネイティブが「非文法的」と見な
すような文も、ある特定のコンテキス
ト(文脈)に置かれると「自然」と感
じられる
といった文があることが分かって
きました。

例) the verb bark
“The dog barked loudly”
おそらく、barkは上の例のように、
自動詞としてしか使わない、とネイ
ティブは考えるでしょう。
“The dog barked”
“The dog barked at me”
は自然で文法的ですが、
“The dog barked me awake”
は不自然に聞こえます。
従来のようにネイティブの直感に
頼ってきた言語学者は、これを非文法
的とみなすでしょう。

しかし、コーパスの中を探してみると、
次のような例を見つけることができま
す:

She'd been alerted by our dog Brian who had
barked her awake under the firm impression
that his master was having a nervous
breakdown.

コーパスのデータが示す、「典型的」
または一般的なことばの使用方法は、
ネイティブが想定するものとは違うこ
とがあります。
動詞のrunを例に考えてみます。
 もしrun の意味を定義し、それをつ
かった文をつくるとすると、どうしま
すか?


おそらく、最初に思い浮かぶ定義は次
のようなものではないでしょうか。
run: to move very quickly, by moving your
legs more quickly than when you walk
(Longman Dictionary)

このようなrun の意味を用いた文は次
のようなものがあります:
“The girl ran all the way to school.”
おそらく、このような文が「基本的」
もしくは「典型的」なrunの使い方だ
と感じるでしょう。
 しかし、それは必ずしも実際に一番よ
く使われる「一般的」な用法ではあり
ません。


試しに、run をBritish National Corpus
(BNC) のオンライン版(フリー)を
使って、表示される例文を見てみま
しょう。
1.
2.
3.
4.
5.
Log into Sketch Engine.
Choose the British National Corpus.
Click on “Keywords”.
In the box called “Lemma”, type in “run”
and choose “verb” for “PoS”. (PoS = Part
of Speech).
Then click on “Make Concordance”.
What runs? And what is run?
By sampling and sorting the concordance
lines, we can see some interesting
patterns.
 Try taking a sample of 250 lines, and sort
them to the left.
 Go to the next page, until you are past
the punctuation.

What runs or is run?
people and animals
BUT ALSO
 computer programs/applications
 businesses and services
 trains and buses
 emotions
 and many more..


これを聞くと、ネイティブは当たり前
のことだと思うかもしれませんが、し
かし、このことなかなか気がつきませ
ん。

これが、辞書を作成する出版社などが
大規模なコーパスを作り始めた理由の
ひとつ。

辞書を作成するには、言語使用の説明
はできるだけ完全で正確であることが
必要。
Word Sketch

The Word Sketch summarizes information
from a large corpus into a form that is
easy to see and use.
Try Sketch Engine yourself
Is 走る a good translation for run?
 It depends on the context!
 Compare the Word Sketch for 走る to
the Word Sketch for run?
 In which cases are they equivalent, and in
which cases are they different?

Thesaurus function
The Thesaurus function shows words
which have a similar Word Sketch to the
search term.
 What other verbs are similar to run and
to 走る?

Sketch Difference
You can use this to directly compare two
words within the same corpus.
 What is the difference between run and
walk?
 What is the difference between 走る and
歩く?

Practice with Sketch Difference

Try your own words, in English or in
Japanese…
心
家
 きれい
 Pretty

heart
home
美しい
beautiful
Some other types of corpora and
interfaces
Brigham Young University (BYU) has an
excellent web site with several different
corpora.
 They are free to use, although after you
use it a few times, you’ll be asked to
register.
 You can find it at http://corpus.byu.edu/.

TIME Magazine Corpus
Contains all of the issues of the American
magazine TIME from 1923 up through the
present.
 You can use it to see changes in the use
of words in American English over time.

Set sections to “yes”.
 Type in a word.
 Click on the numbers to see actual
examples.

What are the changes in frequency
of these words?

Which are becoming more frequent?
Which less?
environment, global, keen, cool, hip-hop,
communist
Tracking changes in ideas

1.
2.
3.
How have women typically been
described in America?
Type “woman” as the “Word”.
Then click on “Context”. Set the context
numbers as 1 and 0. (This means one
word to the left, and no words to the
right).
For “POS”, pick “adj.ALL”.
For more detailed information, choose
just two time periods.
 Compare the 1950s to the 2000s. What is
different about how women are
described?


Look at the verbs and other nouns that
occur with woman. Do you find anything
interesting? (You may want to change the
context numbers in order to find
something interesting.)
Compare words
You can also compare two words in the
TIMES corpus.
 Compare woman and girl, or woman and
man.
