PPT - 慶應義塾大学 徳田研究室

Download Report

Transcript PPT - 慶應義塾大学 徳田研究室

ユーザの動作履歴を基にしたデータ間関連度と
データ着目度算出機構の構築
慶應義塾大学
大澤亮,出内将夫,高汐一紀,徳田英幸
アウトライン







背景・問題意識
目的
アプローチ
関連研究
設計・実装
評価
今後の展望とまとめ
背景
 近年,様々な情報が電子化され,ユーザはPC
上で多くのデータを閲覧するようになった
 文書,画像,音声
 ユーザは過去読んだデータを再度読む可能
性がある
問題意識
 例えば...OS研の論文を作っていたとする
問題意識
 手動操作による階層
 ユーザが分類する手間
 階層化の限界
 分類Aにも分類Bにも当てはまる
 分類Aにも分類Bにも当てはまらない
 時系列順にソート
 状況によっては有効だが,データが大量になると
発見が困難
目的
 通常作業中のユーザに手動操作を要求しな
い手法で,履歴データ検索を効率化する
本発表における用語定義
 履歴検索
 ユーザがデータ閲覧履歴から過去に閲覧した
データを探す検索
 ユーザ動作
 ユーザがデータを閲覧していた際にPC上で行った
動作
アプローチ
 ユーザ動作を基に,
 データ間関連度を自動算出し関連検索を提供
 データ着目度を自動算出し,着目度順にソートす
る
関連検索
 Googleの関連ページ機能
ユーザ動作を基にした関連検索
 「sigos.doc」を作っていたときに参照していた
Webサイトを探す
 記憶は連想からなるので有効
sigos.doc
関連検索
ソート機能
ユーザ動作を基にした着目度順のソート機能
ユーザが過去に注目したデータ
を上位にするようにソート
着目したデータを再度閲覧する
可能性が高いためある程度有
効
参考文献は
どこかな?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
デモンストレーション
関連度算出に利用するユーザ動作
 データアクセス
 同時刻に参照していたデータは関連が深いとする.
 テキスト内検索
 同語句をデータ内で検索した場合,それらのデー
タ同士は関連が深いとする.
 クリップボード利用
 データAでクリップボードにコピーし,データB に
ペーストした場合,データA とデータB は関連が
深いとする.
着目度算出に利用するユーザ動作
 データアクセス




アクセス時間
アクセス回数
クリップボード使用回数
選択文字列反転回数
 キーボード,マウスによる入力
 ユーザが席を離れていないか監視
 ウィンドフォーカスの変更
 ウィンドウにフォーカスがあたっているか
オプション(相関を利用したフィルタ)
 ユーザが明示的にレーティングしたデータに対して
ユーザ動作との相関を求めフィルタを作成する
ユーザA
ユーザB
関連研究
 大阪市立大学の前田氏による興味空間ブラ
ウザ
 数量化Ⅲ類を用いた
意味分類
 意味的な分類と併用
は可能
Google History Search
DMemFidner概要
関連検索と着目度によるソート機能を
もった検索の提供
ユーザ
データ検索アプリケーション
データ間関連度とデータ着目度の提供
DMemFinder
イベントフック
メタ情報
データベース
イベント通知
OS
アプリ
ケーション
実装概要
DMemSeach
データ間関連性とデータ着目度の提供
DMemFinder
イベントフック
Windows XP
イベント通知
OpenOffice.org
Firefox
実装環境
Microsoft Windows
XP SP2
OpenOffice.org
1.1.3
Mozilla Firefox
1.0
Java 2, SDK
Visual C++
Eclipse SWT
5.0
6.0
3.1 M4
有用性の検証
 関連度
実験1.関連検索は有効に働くか
 着目度
実験2.今回利用したユーザ動作は適切だったか
実験3.相関を利用したフィルタは有効に働くか
被験者基本情報
 数日間,DMemFinderを使い,履歴を蓄積す
る.
被験者数
15人
平均年齢
性別(男:女)
平均PC歴
一日平均PC作業時間
22.0才
2:1
5.1年
6.6時間
実験1.関連検索は有効に働くか
1. OpenOfficeで「世界の携帯電話」と言うタイトルでレ
ポートを作成してもらう(制限時間15分)
2. レポート作成中に参考にしたWebサイトのURL(5
個)をレポートに記入してもらう
3. レポート名をキーにして関連検索を実行する
4. 記入したURLがDMemFinderの結果として何位に
表示されるか調べる
実験1.実験結果と考察
参考文献URL表示順位(位)
平均値
12.3
最小値
6.25
最大値
43.5
中央値
10.4
平均母集団312.5
実験2.利用したユーザ動作は適切だったか
1. 一定時間ニュースサイトを参照し,各ページを
レーティングしてもらう.(15分間)
 興味深いと思ったページのレートを上げ,どうでも
いいと思ったページのレートを下げる
2. レートの値と各項目の相関係数を算出する.
実験2.実験結果と考察
着目度
項目
平均値
最低値
最大値
アクセス時間
0.36
0.05
0.87
アクセス回数
0.25
0.03
0.49
選択文字列
反転回数
0.04
-0.23
0.41
各項目と着目度の相関係数(-1~1)
項目
実験3.着目度を用いたフィルタは有効に
働くか
1. 実験2で算出した相関係数を基にフィルタを
作成する.
2. 実験1で作成したレポートをキーにして再度
関連検索を行う.
3. 実験1の結果と比較する
実験3.実験結果と考察
参考文献URL表示順位(位)
平均値
12.3
最小値
6.25
最大値
中央値
43.5
10.4
フィルタ使用時の参考文献URL表示順位(位)
平均値
10.8
最小値
6.2
最大値
33.5
中央値
7.4
パフォーマンス評価
 データ保存量が増えたときにどうやって対策
をするか考察する
時間(msec)
8000
CPU
Pentium42.8EGHz
メモリ
DDR 512 M
HD回転速度
7600rpm(SATA)
OS
Windows XP SP2
測定環境
6000
4000
2000
0
0
500
1000
1500
2000
2500
保存URL数(個)
考察
 アンケートの結果2.8sec以上検索に時間が
かかると半分以上の人がストレスを感じる
先ほどの図から検索対象
URLを1000個以内にする
必要がある.
8000
6000
4000
2000
0
0
500
1000
1500
2000
2500
1日のWebページ参照平均は47.6ページ
→20日間隔でアーカイブ
今後の展望
 状況によるフィルタの付け替え
 blogを読んでいるときの動作からフィルタを作成
→blogを検索するときに利用
 ニュースを読んでいるときの動作からフィルタを作
成
→ニュースサイトを検索するときに利用
 動的フィードバック
 検索結果に対するユーザの行動から次の結果を
変更
今後の展望
 データクラスタリング
 ex.アクセス回数が多いが一回あたりの参照時間
が短いページ
 情報共有化
 他人と関連度,着目度の共用
まとめ
 ユーザ動作を基にデータ間関連度とデータの
着目度算出を自動で行うミドルウェア
DMemFinderを構築し,評価を行った
 評価の結果ユーザの検索をある程度支援で
きることを確認した.
[email protected]
http://www.ht.sfc.keio.ac.jp/~ryo/dmem/wiki/