TextImiを用いての

Download Report

Transcript TextImiを用いての

テクスト意味空間分析法最終発表
Ktaifotoのテクスト分析
環境情報学部1年 海野 紗瑶
政策メディア研究科1年 清水 愛子
1. 研究背景・目的
Ktaifoto.net
・カメラ付きケータイとweblogを用いた新しい
コミュニケーションツール
・「写真」「タイトル」「コメント」から成る
文章だけではない、
マルチメディアのテクストの意味世界を探る
2. 分析方法-予備分析
Ktaifoto
2004/04/20~2004/07/28(1503件)
タイトル-9,451字 コメント-1,5635字
総計25,086字(スペースなし)
Ketaifotoのデータ(タイトル、コメント別)を
テクスト意味分析システムにかけても
結果がでない!
→文章として成立していないため
ex)名詞の羅列
タイトルとコメントで一文になっている
記号(・・・/?/!)、顔文字の使用
2. 分析方法-データクリーニング
タイトルとコメントをひとつの文章にまとめる
送り主の意図を壊さない程度に、漢字変換、
文法の修正を行う
ex.1) タイトル:「ひさびさに」
コメント:「お花なんてものをいただきました」
→「久々にお花なんてものをいただきました」
ex.2) タイトル:「80℃バーガー」
コメント:「江ノ島のちかく。なかなかお気に入り」
→江ノ島の近くの80℃バーガーはなかなか
お気に入りです。
2. 分析方法-分析カテゴリーの設定
写真の種類別
→写真の内容と、送り主の「伝えたいこと」に
着目し、以下の8カテゴリーを設定
・風景
屋外(428件)
屋内(120件)
・モノ
食べ物(275件)
雑貨(129件)
・人(308件)
看板(71件)
・その他(121件)
動物(47件)
(写真なしデータ:16件)
投稿者別
→投稿数の多いAico,Asano,Bell,Choを選定
2. 分析方法-出現語頻度表
各分析カテゴリーごとに出現語頻度表を出す
名詞を更に分類することで、傾向を見る
・人に関する名詞
・場所に関する名詞
人
・物体に関する名詞
「動物」
場所
「モノ」
店名
イベント
天気
・時間に関する名詞
時間
「食べ物」
・その他
「その他名詞」
「代名詞」
「数字」
「記号」
「感情」
3. 結果-投稿者別の傾向
写真カテゴリー分布(投稿者別)
Aico/Bell
投稿者
「人」が中心
Ch o
Asano
人
風景(屋外)
風景(屋内)
モノ(食べ物)
モノ(雑貨)
モノ(看板)
モノ(動物)
Be ll
Asan o
Aic o
「食べ物」が中心
0%
100%
割合
Cho
名詞カテゴリー分布
Cho
投稿者
「風景(屋外)」が中心
★名詞も同様の傾向
50%
Bell
Asano
Aico
0%
50%
割合
100%
人名
場所
店名
イベント
天気
食べ物
動物
モノ
時間
その他
代名詞
数字
記号
感情
3. 結果-写真カテゴリの傾向①
 「食べ物」「動物」「雑貨」
・名詞-食べ物/動物/モノ/その他
・形容詞-「評価」「感想」に関わる形容詞
★それに対する評価・感想を伝えることが目的
その他
食べ物
動物
モノ
記号
時間
人
場所
代名詞
数字
店名
感情
天気
イベント
①「食べ物」「雑貨」「動物」の名詞分布
動物
写真カテ ゴ リー
①「食べ物」「雑貨」「動物」全体の名詞分布
雑貨
食べ物
0%
50%
名詞( 割合)
100%
人
場所
店名
イベント
天気
食べ物
動物
モノ
時間
その他
代名詞
数字
記号
感情
3. 結果-写真カテゴリの傾向②
 「人」「屋外」
「~中」が多い
・名詞-人/場所/店名/モノ/時間/その他
・形容詞-「評価」「感想」に関わる形容詞
・動詞-「いる」「する」「来る」「見える」
★行動の流れの一部分におけるその時の状況、
感情を伝えることが目的
その他
場所
人
時間
モノ
数字
食べ物
感情
記号
イベント
天気
店名
動物
代名詞
「人」「屋外」の名詞分布
写真カテ ゴ リー
②「人」「屋外」全体の名詞割合
屋外
人
0%
20%
40%
60%
名詞( 割合)
80%
100%
人
場所
店名
イベント
天気
食べ物
動物
モノ
時間
その他
代名詞
数字
記号
感情
3. 結果-写真カテゴリの傾向③
 「屋内」「看板」
・名詞-場所/時間/人/店名/食べ物/その他
・形容詞-「評価」「感想」に関わる形容詞
・動詞-「いる」「ある」「来る」
★自分が訪れた場所と、そこに存在するものを
伝えることが目的
写真カテ ゴ リー
③「屋内」「看板」の名詞分布
看板
屋内
0%
50%
名詞( 割合)
100%
人
場所
店名
イベント
天気
食べ物
動物
モノ
時間
その他
代名詞
数字
記号
感情
③「屋内」「看板」全体の名詞分布
その他
場所
時間
人
記号
食べ物
数字
店名
モノ
代名詞
イベント
感情
天気
動物
4. 考察
 写真カテゴリー別
各写真カテゴリーにおいて、使われる名詞の傾向が異なる
 投稿者別
各投稿者カテゴリーにおいて、投稿する写真の傾向は異なる
が、その写真に使われる名詞の傾向は同じだった
ktaifoto というマルチメディアコミュニケーション
において、投稿者が経験した事実(行為)を
写真で撮影し、テクストを説明的に付け加える
際に、共通の作法のようなものが存在する
5. 今後の展望
Web上のテクストデータには、記号や内輪の
造語、新語が多く含まれている
ex)2ちゃんねる:orz/キター!/ネ申 etc…
→記号や造語、新語をリアルタイムで登録
していくような辞書機能の作成
最終的には、写真を初め、音楽や動画といった
マルチメディアとあわせた テクスト意味分析を
可能とすることが望まれる