III-2.意味づけ論の展開:テキスト解析ツールTextImiとその社会的実践

Download Report

Transcript III-2.意味づけ論の展開:テキスト解析ツールTextImiとその社会的実践

2011-07-19
ソシオセマンティクス
第3部の構成




第3部:人々の意味世界とソシオセマンティクスの手法
11~12回の第3部は「人々の意味世界とソシオセマンティクスの方法・
手法」を主題として、ここまでで紹介してきた理論(意味づけが展開す
る内的舞台である個人の意味世界の在り方、社会生活を支える意味
世界の安定性や社会化について)の応用として、意味世界を実証的に
研究するためのソシオセマンティクスの方法、手法について議論を行
う。
III-1.意味づけ論の展開:スクリプトの分析
III-2.意味づけ論の展開:テキスト解析ツールTextImiとその社会的
実践
III-2.意味づけ論の展開:テキスト解析ツールTextImiとその社会的実践

複雑な現実社会における問題の発見と解決が目指される中では、
関係者集団の主観的な「意味」のような非常に質的で、曖昧で、事前
に定まった変数では取り扱いにくい情報の分析の重要性が高まって
きている。つまり、いわゆる社会調査の文脈などにおいても(ソシオ
セマンティクスで言うところの)人々の意味世界をどのように分析し描
き出すかは課題となってきており、12回ではこのようなニーズを背景
にしながら、インターネット等を通じて採集されるより大規模なテキス
ト情報から機械的に効率よくスクリプトや言語表現の分析を行うため
に深谷研究室と企業とで共同開発したテキスト解析ツールTextImiの
紹介を行う。
言語使用分析の社会的応用とその実践①

体制化され、社会的に共有された語り方



モノやコトの概念は、差異化一般化典型化という原理に即しなが
ら様々なサンプルに触れるコミュニケーションの経験の中で社会
的に編成されていく。
特に対象が抽象的、観念的なものであれば、それがどのように語
られるかという言語的なサンプル(言語使用)からの概念形成が
中心となっていく。
言語使用が社会的に共有され、体制化しているからこそ、我々は
それをなぞる形で社会的な常識としての概念や振舞い方というも
のを理解していく。
言語使用分析の社会的応用とその実践②

分析への応用



ある概念について、特定の集団に流通する類型化された語り方
を観察・分析することから概念の在り様を明らかにする
概念自体を分析するのではなく、人々が何気なく使用する世間の
日常言語使用から概念を明かそうと試みる
前回のスクリプト分析を参照。
意味の分析への需要


定性的な情報への関心の高まり

ライフスタイルや価値基準の多様化

彼らの行動の結果(「何を買ったか」など)だけでなくその理由(「何故買っ
たか」)を知りたい

昔の人が今ほどいろいろなことを考えないというわけではないが、現在
のような価値観の多様化が叫ばれる中ではその「幅」がクローズアップさ
れている
従来の調査では困ること

アンケートなどでとられる選択式の定性データの分析
 はい/いいえの2項目
 「以下からお選びください」の10項目
 既存・所与の変数で人々の意味づけに対応しきれるのか?
意味づけを分析するためのデータとは何か

「何をどう意味づけているか」「どう意味づけたからその行為をおこなったのか」

行為は意味づけの痕跡


意味そのものは個人の記憶や情況に依存するため直接分析することはで
きない

しかし行為の背景に意味づけがあるのであれば、観察可能な人の行為は
全て意味づけを知るためのデータになりうる(意味表出行為の記録、”意味
表出データ”)
行為の観察と他者情況の忖度

実際私たちは、日常的に他人の行為を観察し、相手がどのような情況を編
成しているかを意味づけている。相手の発話内容はもちろん、表情、態度、
仕草などを含めた総合的な解釈
意味表出データとしてのテキスト①

データとしてのテキストの特徴:構造性

テキスト(コトバの集合)は、意味を言語の規則により分節・統合された連関構造とし
て表す

「私はこの花を美しいと思った」



「私」という主体、「(この)花」という対象、「思う」という判断行為、「美しい」という判
断内容、としての各要素の関連付け
例えば「絵を描く」「曲を演奏する」「ダンスをする」「暴力をふるう」・・・、これらの表現
行為もまたその人の意味づけ、物事をどう捉えたかを反映しているが、しかしそれら
は言語ほどの明確な構造性をもたず、意味の解釈可能性は非常に広い
データとしてのテキストの特徴:一般性

ほとんどあらゆる人は言語を用いてあらゆる物事についての意味を表出することが
できる

一方、絵画や演奏などのようなものは特殊な技術を必要とし、その対象も限定される
意味表出データとしてのテキスト②

テキストデータは定性的な分析における基軸データ

他のデータよりも比較的明確な構造性と一般性をもつテキストは、分析の手間やその
結果の解釈の妥当性に関して非常に優位

ただし(定性的な分析すべてにあてはまるが)いくつかの問題もある

恣意性の大幅な介入

分析の結果に至るまでに分析者の主観的な解釈(恣意性)の関わる要素が多い
→ 少なくとも、妥当な解釈であると多くの人が納得できるだけの論拠(データ)と論理
(解釈の仕方)の提示が求められる

データの入手可能性(アベイラビリティ)

確かに一般的に人はテキストを生み出すが、分析に必要なテキストを実際に集め
ることができるのか?公文書や著名人の記録ならば時代を経ても残るが、「普通
の人々」のテキストはどこから手に入る?手に入るとしてもどの程度の範囲?
→ 次スライド:web社会の進展とテキストデータのアベイラビリティ
Web社会の進展とテキストデータのアベイラビリティ

一般調査データの入手経路として認められつつある(認められている?)インターネット

90年代後半からのIT技術の急速な普及に伴い、いわゆる「普通の人々」が普通に
インターネットに接続する時代が到来

総務省の通信利用動向調査によれば2009年末でインターネットの国内人口普及率は78%

中学生から40歳代に至っては普及率で90%を超える



総務省「平成21年度通信利用動向調査」

http://www.soumu.go.jp/johotsusintokei/statistics/pdf/HR200900_001.pdf
2010年度の国勢調査ではインターネットでの回答が東京都内で開始

平成22年国勢調査実施計画のポイント

http://www.stat.go.jp/data/kokusei/2010/keikaku/pdf/sy01.pdf
2004年の段階で、インターネットを利用した調査はマーケティング調査における
手法別売上構成比で27%

日本マーケティングリサーチ協会「市場調査白書2005年版」
Web社会の進展とテキストデータのアベイラビリティ
総務省「平成21年度通信利用動向調査」
Web社会の進展とテキストデータのアベイラビリティ
総務省「平成21年度通信利用動向調査」
Web社会の進展とテキストデータのアベイラビリティ
総務省「平成21年度通信利用動向調査」
Web社会の進展とテキストデータのアベイラビリティ
平成22年国勢調査実施計画のポイント
http://www.stat.go.jp/data/kokusei/2010/keikaku/pdf/sy01.pdf
Web社会の進展とテキストデータのアベイラビリティ
http://www.stat.go.jp/info/now/now12.htm
Web社会の進展とテキストデータのアベイラビリティ
http://mainichi.jp/select/seiji/news/20101009k0000m010026000c.html
Web社会の進展とテキストデータのアベイラビリティ
日本マーケティングリサーチ協会「市場調査白書2005年版」
インターネットはテキストデータの宝庫

IT技術・インターネットの普及によって、個人・団体を問わず入手可能なテキ
ストの質と量は爆発的に増加している

メール

企業官公庁のホームページ

インターネットを利用して収集されるアンケート・調査結果

公文書、ニュースリリース等のネット上での公開

個人ホームページ、ブログ

掲示板型コミュニティ、mixi、twitter、facebook、MySpace、その他のSNS

既存のテキストの電子化・アーカイブ化

などなど枚挙にいとまない
Web社会のテキスト分析の可能性


一般性の(ある程度の)確保

インターネットを通じて得られるテキストの書き手は、かつてのような「特殊な人」だ
けでなくより一般の「普通の人」にまで広がりつつある

少なくとも、一般調査でインターネットを用いることが自然に受け入れられる時代
の到来
入手・分析処理の容易さ

従来の物理的・距離的な制限を超えた情報のやり取りが可能とした大量データの
取得

得られるテキストは当然デジタルテキストの状態のため、コンピュータを用いた
編集・機械処理が可能

なにより大事なのは、これらの状況が立ち現われたのはここ10年の話であること

Webから集めた情報、中でもテキストデータをどのように活かしていくかについて
は、少なくとも一般業務レベルでは現在も模索段階であること
大量テキストを読み解くために必要な情報





コトバの共有によって意味づけの同型性とその内容の類似性が「そこそこ
に」確保され、会話は「そこそこに」成立する
だが会話は自己と他者との意味の不確定性の二重奏であり、その成立が保
証されているわけではない
会話における自己と他者の関係をテキストの分析に置き換えれば、書き手
と分析者ということになる
テキストが小規模であれば直接読むという方法で、我々は自身の言語能力
(日本語力、文法力)と常識(一般的・典型的な意味知識)あるいは専門知識
でもってほぼ書き手の意図した内容をなぞることができる
しかし、書き手が本来意図したような意味を、機械処理されたテキストの断
片的な情報から妥当に解釈し、意味づけるのであれば、そのとき実際に必
要となる情報とはどのようなものだろうか?
テキストの効率的な処理の必要性①

人間の独力の解釈には余るデータの量



小規模のテキストであれば、丹念に読み解き、複数人で内容をチェッ
クするなどで、
テキスト内の意見や主張、評価を整理したほうが現実的
得られるデータが1000~10000を越えるような大規模なテキストの場
合、「どういう人のどういう発言がどれくらいあったか」というようなこと
を読み取るのは非常に困難
何らかの観点から雑多多様なテキストの内容を機械的に整理し、集
約する必要がある
テキストの効率的な処理の必要性②

自然言語処理の援用




自然言語:我々一般が普段の生活で日常的に用いる言語(たとえば
日本語や英語)
形式言語:明確な規則に基づき作られる記号の集合(たとえばプログ
ラミング言語などの機械言語や、数式、音楽の楽譜)
自然言語処理:自然言語をコンピュータで機械的に処理する技術
テキストマイニング:自然言語処理とデータマイニングの知見を利用し
たテキスト解析
膨大な量のテキストデータ
一般的なテキスト解析技術の主要な要素


形態素解析
 定式化されていない自然文を形態素の単位に分割し、品詞等の情
報を特定する
 次スライド
構文解析(係り受け解析を含む)
 形態素解析の情報をもとに、自然文の文構造を特定する
 次々スライド

これらの解析から得られた結果をもとに統計処理を行い、情報の可視化を行う

上記の一連の解析・分析を一般的にテキストマイニングと呼ぶ
形態素解析

形態素解析

定式化されていない自然文を形態素の単位に分割し、品詞等の情報を特定する

形態素:「語や文を構成する最小の意味ある(?)単位」

語弊はあるものの、端的に言ってしまえば「単語」

「子供に携帯電話を持たせる親が増えた」
→ 「子供」「に」「携帯」「電話」「を」「持つ」「せる」「親」「が」「増える」「た」

形態素解析のデモ

Juman(京都大学言語メディア研究室、日本語)


http://reed.kuee.kyoto-u.ac.jp/nl-resource/juman-form.html
TreeTagger(シュトゥットガルト大学コンピュータ言語研究所、英語その他)

http://web4u.setsunan.ac.jp/Website/TreeOnline.htm
構文解析

構文解析

形態素解析の情報をもとに、自然文の文構造を特定する

文構造:連用・連体などの文章の係り受け関係など

「子供に携帯電話を持たせる親が増えた」
→ 「子供」「に」
「携帯」「電話」「を」
「持つ」「せる」

構文解析のデモ

KNP(京都大学言語メディア研究室、日本語)


http://reed.kuee.kyoto-u.ac.jp/nl-resource/knp-form.html
Lexical Functional Grammar

http://lfg-demo.computing.dcu.ie/lfgparser.html
「親」「が」
「増える」「た」
自然言語の曖昧性

形態素解析


どこで区切ればいいのか

「すもももももももものうち」

「にわにはにわにわとりがいる」
構文解析

係り受け関係の可能性が複数ある場合

「象は鼻が長いと思います」

「僕は鼻が長いと思います」

「僕は彼がやったと思います」

「美しい水車小屋の乙女」

「美しい乙女」が水車小屋にいるのか、「美しい水車小屋」に乙女がいるのか

I saw a girl with a telescope.

「望遠鏡を持った女の子を見た」なのか「望遠鏡で女の子を見た」のか
解析結果の統計処理と可視化




一般的なテキストマイングの例
形態素解析によってテキスト内の
単語を抽出
得られた単語をシソーラスを用い
てクラスタリング(似たような意味
の単語をまとめる)
各クラスターと回答者の属性(性別
、年代)をクロス集計し、コレスポン
デンス分析を行う
松村真宏「mixiにおける男女別・年代別の利用者意識の抽出」
第22回ことば工学研究会, SIG-LSE-A503, pp.71-81, 2006.
一般的なテキストマイニングの難点

技術的な問題(自然言語の曖昧性)


形態素解析は意味的に適切なのか、構文解析は意味的に適切なのか
そもそもの意味の不確定性

多くのテキストマイニングソフトは構文情報全てを出力しない(統計処理に適していないため)

仮に解析される情報自体は正しくとも、単語や単純な係り受けを基本とした情報のみでは
実際の発言における意図や評価についての解釈は定まりにくい場合が多い


「趣味」というキーワードが多いから「趣味としてのmixi」なのか?

使っている単語が似ていると本当に同じことを言っているのか?
実際の分析においては結局のところ分析者自身がテキスト原文を読み込むという作業が
不可欠となってしまう
→(作業のコストおよび解釈の恣意性やブレの問題の発生)
→ 結果としての大量テキストの未活用

生データのリストを添付のみする、サンプリングしたうえでの代表的な意見のみの抜粋をする、
分析者の主張の傍証として特徴的な意見のみをピックアップする…など
「意味チャンク」による解析の提案(1)

機械は大量データの処理を効率的に行える


意味の解釈そのものは人間(分析者)自身が行う必要がある



しかし意味の解釈まではおこなえない
ただし人間に大量のデータを一貫して読み解くという行為は難しい
ゆえに、機械は大量テキストの分析の支援として、テキストから人間の解釈
を妥当に行わせる、より「実質的な意味のまとまり」を解析抽出し表示する必
要がある
機械による解析を精緻化していくことで意味を読み取ろうというのではなく、
分析における人間の解釈を前面に押し出すアプローチ
「意味チャンク」による解析の提案(2)

「実質的な意味のまとまり」?

言葉の意味は使用の中に現れる


他の語との意味的な関係(結合・分節)のなかで始めてその情況におけ
る意味が意味づけられる

そして、意味的に関係があるということと、統計的に関係があるということ
はかならずしもイコールではない
人は言葉をどのように意味的に関係付けているのか

特に動詞と助詞の意味調整的な機能に注目する

動詞の図式構成機能

助詞の操作子機能
「意味チャンク」による解析の提案(3)


意味のまとまり:意味チャンク
形態素解析、構文解析によって得られる情報を加工して、テキスト解析に
以下に定義される単位を用いる
ひとつの受け語(述語)と
助詞を含むそこに係るすべての(0個以上の)係り語
のひとまとまり

意味チャンクの複合として文を解析する

「子供に携帯電話を持たせる親が増えた」
(1)[ [子供, に]-[携帯電話, を]- [持つ] ]
(2)[ [親, が]- [増えた] ]
Noun + Particle
Adverbial relation
Meaning Chunk
Predicate
Adnominal relation
Compound Meaning Chunk

TextIMI deals with text as a set of various MCs.










(a)
携帯電話を子供に買い与える親がどんどん増えている。
(Many parents have come to give their children mobile phone.)
(b-1)
[ [子供, に]-[携帯電話, を]- [買い与える] ]
(to buy and give mobile phone to children)
+
(b-2)
[ [親, が]- [増えた] ]
((the number of ) parents increases)
意味チャンクによる解析の利点(1)

「小さな文脈」のテキストからの抽出

言葉と言葉との関係をある程度保持した単位

名詞が助詞、述語と共に抜き出されるからこそ、それがどのような意味で
使われているかについての解釈がそれなりに容易に行われるようになる
「今日、太郎は友人の次郎に恋人の花子を紹介した」

形態素



「太郎」・「次郎」・「花子」・「紹介する」といった語があるという情報
係り1項の係り受け関係

「太郎-紹介する」

「次郎-紹介する」

「花子-紹介する」
意味チャンク

「太郎-は」-「次郎-に」-「花子-を」-「紹介する」
意味チャンクによる解析の利点(2)

意味内容を保持しつつの自然文の標準化

本来複雑な文構造を、ひとつの述語および係る名詞助詞という形で標準化することにより、
同じような構成要素を持った基礎意味チャンクの集合が整理されて表示される
- 「太郎が次郎に花子を紹介する。」
- チャンク構成要素
- 述語:「紹介する」
- 係り語:「太郎-が」「次郎-に」「花子-を」
- 「花子を太郎が次郎に紹介した。」
- チャンク構成要素
- 述語:「紹介する-た」
- 係り語:「太郎-が」「次郎-に」「花子-を」
- 「太郎が弟の次郎に美しい花子を突然紹介した。」
- チャンク構成要素
- 述語:「紹介する-た」
- 係り語:「太郎-が」「次郎-に」「花子-を」
語順の違いや、副詞形容動詞等の装飾があって
も、構成要素のマッチングにより同じチャンクとし
て抽出される
意味チャンクによる解析の利点(2)

意味内容を保持しつつの自然文の標準化

本来複雑な文構造を、ひとつの述語および係る名詞助詞という形で標準化することにより、
同じような構成要素を持った基礎意味チャンクの集合が整理されて表示される
-ファンデーションの使用感想についてのアンケート実文より
-(現在使用しているファンデーションの良い点)
- 「しっとり 肌になじむ 感じ、粉っぽく浮かない。」
- 「 肌に 良く なじむ 。」
- 「自分の 肌になじんでいる 。」
- 「 肌に よく なじむ 感じが気に入っている。」
- 「さらっと 肌になじむ ところ。」
- 実際の表現としては様々な書き方があるものの、「肌になじむ」というチャンクを含んでいるという点で同様。
- 他の類義語(「なじむ」と似たような意味の動詞等)、表記の揺れを設定し吸収することで、類似の意味内容、意見を
機械的に抽出し、集約することができる。
意味チャンクによる解析の利点(3)


解釈の軸としての意味チャンク

入力に対しての機械の解析は一貫している

類似の構造(同義の名詞、述語や、助詞の特定のパターン)を持つ意味チャンクを機械に解
析・抽出させることで、ぶれることのない一定の基準を基に大量テキストの意味内容の解釈を
行うことができる
テキストからの意味チャンクの検索

特定の語を用いてテキストに書き手が表現した内容を意味チャンクの検索やチャンク間の
参照関係をたどる

そのテキストのテーマにおける同義語や表現の揺れを吸収することで類似の意味チャンク
を抽出していく
分析の展開

スクリプト分析


特定の概念(を指す名詞)や、特定の出来事や事象について語られる中
で典型的、且つ社会的に共有された語り方を抽出し、その傾向を整理す
る中でスクリプト(ある物事に対する思考や行動の知識・フレームワーク)
を抽出していく。→概念分析、言説分析
意見内容の集約

あることについての語り方を抽出しその背景にある自明化された常識と
しての概念や振舞い方の分析をおこなうのがスクリプト分析ということに
なるが、集められた「何がどう語られているか」という様々な語り方はそれ
自体でなんらかの意見や主張を持ちうる。それらを集約することによって、
背景にある知識というよりはその場の文脈における発話者の発言内容
自体を分析する。→アンケート分析、世論調査、社会調査
意味内容の集約例(1)
通所介護利用者アンケート(社団法人かながわ福祉サービス振興会実施)
自由回答質問
現在利用している通所介護サービスの改善
してほしい点
回答期間:
平成13年度~平成16年度
総回答者数:
1922件
(H13-180件, H14-849件, H15-824件)
テキストに含まれる意味チャンク数:
8390件
意味内容の集約例(2)
頻出単語を含む意味チャンクの
検索を行い、その語がどのように
語れているかを抽出する
このテキストの場合、全名詞10906件の
うち、「時間」という語が一番多く、488件
(△は未回答者の記号)
意味内容の集約例(3)
「時間」を含む意味チャンクとして
[[時間,を]-[長くする]]
[[時間,を]-[延長する]]
などが頻出する。これらのチャンクを抽出する検索式に対し、
「介護サービスの利用時間に関する不満要望」
としてコードを振る
意味内容の集約例(4)
ただし、同時に「送迎」や「迎え」、「バス」などを含む意味チャンクに
関しては、送迎バスの到着時間などに対する不満である場合も一
覧表から確認された
「時間」という語が長い、短い、早い、遅いなどの述語と結びついて
いて、かつ「送迎」や「入浴」、「レクレーション」といった語も含む意
味チャンクを抽出し、「別の」時間について言及するものとして別途
妥当なコードを振る
不満・要望チャンクの集約結果
語の出現ランキングにおける名詞上位20件、動詞・形容詞上位10
件に対して同様の作業をおこなった
最終的に8390件の意味チャンクから不満・要望意見として判断され
たのは述べ1853件
不満・要望チャンクの集約結果
制度・運営に関する不満・要望チャンク
代表名
「利用時間を延長してほしい」意見数:251
「施設・設備を改善してほしい」意見数:75
「利用日数・手続きに融通をきかせたい」意見数:47
「職員を増やしてほしい」意見数:26
「土日祝日にも利用したい」意見数:21
「職員の入れ替わりが激しい」意見数:20
「ショートステイを利用したい」意見数:17
不満・要望チャンクの集約結果
サービス・プログラムに関する不満・要望チャンク
代表名
「送迎を改善してほしい」意見数:116
「リハビリテーションを充実してほしい」意見数:96
「食事を改善してほしい」意見数:75
「連絡を徹底してほしい」意見数:67
「レクレーションを充実してほしい」意見数:51
「入浴を改善してほしい」意見数:45
「外出がしたい」意見数:35
「利用者の個別性を考慮して欲しい」意見数:34
「トイレを改善して欲しい」意見数:20
「することがない/つまらない」意見数:17
「利用者に過保護すぎる」意見数:17
「専門的なサービスが受けたい」意見数:10
不満・要望チャンクの集約結果
その他 / 特になし
代表名
「その他」意見数:100
「特になし」意見数:713
不満・要望チャンクの集約結果
大カテゴリの経年変化
不満・要望意見の構造の変化
カテゴリ「制度・運営」内の意味内容の経年変化
「制度・運営」に関する不満・要望意見比率の経年変化