圧縮予定

Download Report

Transcript 圧縮予定

日本認知言語学会 第7回全国大会
ワークショップ第3室
日本語テクスト解析ツールTextImiの紹介
テクスト意味空間分析システム 開発作業班
代表者:慶應義塾大学・深谷昌弘
2006.9
ワークショップの構成
 テクスト意味空間分析システムの開発
代表者・慶應義塾大学総合政策学部 深谷昌弘
 日本語テクスト解析ツール TextImi の概要
慶應義塾大学大学院政策・メディア研究科博士課程 中野智仁
 基礎意味チャンクのタグ付け支援
富士ゼロックス株式会社・研究本部 林千登
 TextImi の文法研究への応用
慶應義塾大学大学院政策・メディア研究科博士課程 佐治伸郎
 受け語から表現の共通性を見出す方法と考察
富士ゼロックス株式会社・研究本部 舘野昌一
 慣習化された表現からの日常概念の分析
慶應義塾大学大学院政策・メディア研究科修士課程 桝田晶子
テクスト意味空間分析システムの開発
~インターネットから人々の意味世界を読み解く~
2006.9
深谷研究室・ソシオセマンティクス工房
深谷昌弘
開発の経緯・活動
先行段階:1996・コトバの意味づけ論(日本言語学・言語教育学会賞)、
2001・Ver.0による世間のスクリプト分析
2003年9月~(株式会社富士ゼロックス・研究本部との協働開始、政策COE参画)
テクスト意味空間分析システムのテストバージョンの開発と実装テスト
2003年12月
実装テスト結果に関するワークショップ
2004年~
テクスト意味空間分析システムVer.2の開発
2004年11月
ORF2004(Open Research Forum 2004)発表、慶應義塾賞
2005年~
テクスト意味空間分析Ver.3の開発
提携先との事業化の推進(ネット・リサーチ会社:株式会社ゲインとの連携)
2006年~
TIS 準備室を開設し事業化推進の準備開始
背景:社会研究における意味の重要性
「人々の意味世界」の視点は社会の研究に不可欠
意味と社会現象のダイナミックな関わり
行為
社会現象:人々の行為の複合・集積
人々の行為は心の中の意味世界の所産
意味づけ
(情況編成)
意味世界研究の阻害要因
主体と行為と意味
意味表出データのアベイラビリティ不足
人々にとっての意味の問題を取り扱いうる言語コミュニケーション論の不在
大量の意味表出データから意味を解析する方法論・ツールの未発達
ネットワーク社会の進展とテクストデータ
インターネットはテクストデータの宝庫
特定の人物から、小集団、大集団、不特定多数の市民に至るまで、幅広い人々の言説の
記録・テクストが採取可能に
つまり、ミクロ、セミ・マクロ、マクロの人々の意味世界に関する実証的研究が可能に
「意味表出データ」としてのテクスト
あらゆる人がコトバで意味表出する
ほとんど全ての人がコトバを用いてありとあらゆる事についてさまざまな
動機で自らの意味づけを語る(書く)
この一般性ゆえに意味世界研究の基軸データ:
ただしテクスト至上主義ではない
コトバは意味連関構造を示す
動詞:図式構成機能(名詞が担う事物を意味的に関係づける)
助詞:操作子機能(意味のまとまり同士の関係を示す)
助動詞などの言い回し:アスペクト・モダリティなどを示す
テクストデータは意味世界研究の基軸データ
大量テクストの利用にあたって2つの基本課題がありました
人々にとってのコトバの意味を取り扱う言語コミュニケーション理論の不在
客観主義的意味論・情報理論的コミュニケーション論に固執してきた
従来の言語コミュニケーション理論
ソシオセマンティクスはコトバと意味との関係を新しい言語コミュニケーショ
ン論:意味づけ論によって捉え直しました
このパラダイムでは、「人々にとってのコトバの意味」を取り扱います
テクストデータの意味的解析を可能とする分析システム
人間の解釈の処理にあまる大量のテクストデータ
意味づけ論に立脚したテクスト分析システムの開発
→ テクスト意味空間分析システム
コンピュータの解析と分析者の解釈とが協働するシステム
TextImi: テクストデータを読み解くツール
システムの概要
別途紹介します
システム境界
ネットワーク上に蓄
積されたテクスト
データ
出現語頻度表
Output
係り受け一覧表
解釈
Text Data
Request
基礎意味チャンク一覧表
Response
Input
Server
Client
基礎意味チャンク集計表
基礎意味チャンク分類表
テクスト意味空間分析システム
テクスト意味空間分析システム:TextImi
人々の意味世界を大量のテクストデータから析出するソシオセマンティクス
のテクスト分析システム
基本設計思想と特徴
コンピュータが解析し人間が解釈する
基礎意味チャンク(意味のまとまり)を解析単位とする分析
テキストマイニングから意味空間のコンストラクティングへ
基礎意味チャンク一覧表とその集計表に基づく、分析者の意味解釈の支援
学問的な調査・分析に耐えうるように分析システムを開発しています
意味世界の基本的枠組みに対応した
二つの分析カテゴリー
 意味は記憶連鎖に埋め込まれている潜勢態である意味知識の
編集作業・意味づけによって顕現し、意味づけられた意味は記
憶連鎖に埋め込まれて意味の潜勢態・意味知識となる
意味づけ・記憶の相互循環プロセスが基本枠組みである
(次図参照)
 意味世界の潜勢態構造の分析:スクリプト分析
社会集団が共有する日常的な常識・概念を析出する
カルチュラル・セマンティクスとして開拓途上にある
(世間 家族 自然 などに関する分析事例)
 テクスト集合に顕現している言説内容の分析:コンテンツ分析
イメージ、評価、ステートメント構成などを析出する
(ネット・マーケッティング分析、顧客の声分析、パブリック・
コメント分析 などの手法を開発中である)
意味世界の基本的枠組み
顕現
潜勢
意味
意味知識
意味世界の基本的枠組み
テクスト意味空間分析法の主な特徴
 大量のテクスト・データを用いて人々の意味世界を実証的に
研究するソシオセマンティクスのテクスト分析の方法
 コンピュータの解析(TextImi)と分析者の解釈の協働
 テキスト・マイニングによる見当づけに加えて、基礎意味チャ
ンク(言説の意味命題を担ったスモール・ステートメント)を基
礎単位とした意味解釈支援によって、マイニングの限界を克
服する試み
 セミ・マクロやマクロの意味世界へと研究対象を拡張
 類似の意味命題数をカウントすることで定性データを定量
データに変換
 意味世界の内的属性・外的属性相互間のさまざまなクロス統
計分析への道を開拓
幅広い応用可能性
社会研究としてだけではなく、実践的な応用可能性として、
例えば以下のようなものが考えられます
・世論調査
・ 政策立案
・ ブランド戦略
・ マーケティング
・ コールセンター、営業日報などを手掛かりとした業務の改善
・etc.
今後も実証分析とフィードバックさせながらさまざまな分析手法を
創出し、それらを支援するシステムとして拡充を図ります
テクスト意味空間分析法の現状と展望
 カルチュラル・セマンティクスや意味的社会調査の分野で多く
の実証分析を産出しうる段階に到達しました
 したがって積極的な学会発表を予定しています
 またビジネス化によって実社会にもソシオセマンティクスの有
効性をアピールしていきます
そのため、現在、ネット・マーケティング会社と連携して
“TextImi In Shonan”準備室(TIS準備室)をSFC-IVに
設立してビジネス化を推進しています
 個別目的に応じた分析手法の開発を進めています
 基礎意味チャンク間およびセンテンス間の意味的関係の析出
にまで解析を拡張して有効射程を広げる努力をします
これ以後のワークショップの展開

日本語テクスト解析ツール TextImi の概要
慶應義塾大学大学院政策・メディア研究科博士課程 中野智仁

基礎意味チャンクのタグ付け支援
富士ゼロックス株式会社・研究本部 林千登
(質疑・応答:20分)

TextImi の文法研究への応用
慶應義塾大学大学院政策・メディア研究科博士課程 佐治伸郎

受け語から表現の共通性を見出す方法と考察
富士ゼロックス株式会社・研究本部 舘野昌一

慣習化された表現からの日常概念の分析
慶應義塾大学大学院政策・メディア研究科修士課程 桝田晶子
(質疑・応答:30分)
*報告は各20分強の予定。 なお予稿集にある「文構造の標準化によるKWICの拡張」は報告
者の健康上の理由で割愛させていただきます。