卒論中間報告 メーリングリストアーカイブの 可読性の向上

Download Report

Transcript 卒論中間報告 メーリングリストアーカイブの 可読性の向上

Web共同編集機能を実装した
メール検索システム
井上研究室
Choy Kho Yee
2006年02月27日
オープンソース開発とメーリングリスト
オープンソース開発
ソースコードなどが公開される
世界中に分散した開発者が協力し合って開発を行う
メーリングリスト
開発者とユーザ間での意思疎通を果たす
設計と実装やバグ,使い方について議論する
2006/02/27
平成17年特別研究報告
2
メーリングリストアーカイブ
メーリングリスト
でやりとり
全てのメールを
メーリングリスト
アーカイブに保存
開発者・ユーザは過去の
議論を参考にして、
問題を解決するために
頻繁にアーカイブを検索する
メーリングリスト
アーカイブ
検索
疑問を持った開発者・ユーザ
2006/02/27
平成17年特別研究報告
3
メーリングリストアーカイブの問題点
時間の流れ
あるイベントで
メールの内容が
正確でなくなった
ユーザA
1.
2.
3.
4.
5.
2006/02/27
ユーザB
ユーザAはメールを出した
メールの内容が時間が過ぎると正確でなくなった
ユーザBがそのメールを見て,間違った情報を信じてしまった
ユーザBは間違った判断をしてしまった
場合によって,検索しなおす
平成17年特別研究報告
4
Web共同編集作業
Webを通して利用者が共同に文章の編集,
レビューを行う作業
例:フリー百科事典「Wikipedia」
各項目は利用者が保守します
間違った箇所は誰でもすぐに修正できる
メーリングリストアーカイブの問題点
の解消に利用できる
2006/02/27
平成17年特別研究報告
5
本研究の目的
メーリングリストアーカイブの利用者に
正確な情報を効率よく届ける
課題
メールの内容の品質向上
メールの本文以外の情報の提供
検索効率の向上
2006/02/27
平成17年特別研究報告
6
提案手法
Web共同編集機能を実装したメール
検索システムを提案
 メールの内容の品質改善
メールの編集
 メール本文以外の情報の提供
メールに対するコメント追加
メールに対する評価
メールのタグでの分類
 検索効率の向上
評価,タグの検索への反映
2006/02/27
平成17年特別研究報告
7
メールの編集
Wikiを導入
Wikiとは,Webインターフェイスからサーバ上の
テキスト文書を簡単に書き換えるシステム
編集履歴を管理
一回の編集につきバージョンが1つ増加する
過去の内容を参照して編集を行う
悪質な書き込みからの内容を復帰する
2006/02/27
平成17年特別研究報告
8
メール本文以外の情報提供
 コメント
 メールに対する意見・補足である
 一通のメールに対して複数のコメントを追加できる
 ランク
 ユーザのメールに対した評価を表す
 ランクの範囲は“-10”~“+10”である
 複数のユーザが付けたランクの平均値をとる
 タグ
 ユーザが任意に指定できる文字列である
 例:”windows migrate”, “php setup”など
 複数指定可能
 メールの分類に利用される
2006/02/27
平成17年特別研究報告
9
メーリングリストアーカイブのモデル図
スレッド構造の
再現に利用した
実体
属性
関連
2006/02/27
平成17年特別研究報告
10
検索機能
 MySQLの全文検索機能を利用する
メールの最初のバージョンと最新バージョンのみ
 スレッド単位で出力する
メール1 スレッド
トップ
メール2がヒットすればスレッド全体がヒットする
メール2
スレッド全体のスコアは各メールのスコアの合計
メール3
スレッド
2006/02/27
平成17年特別研究報告
11
スコアの計算
 メールのスコア,Xは下記式で算出
X  S my  R  N title  2 N tag
※検索にヒットしなかったメールのスコア=0
Smy: MySQLの内部スコア
R: メールのランク
Ntitle: メールのタイトルに含まれる検索キーワードの数
Ntag: 検索キーワードに一致したメールのタグの数
2006/02/27
平成17年特別研究報告
12
検索の高速化
スレッドトップを求めるのに時間がかかる
メール⇔スレッドトップの関係を予め保持しておく
同じキーワードで毎回検索すると効率が悪い
検索キャッシュを設けた
キャッシュの有効期限は10分間にした
2006/02/27
平成17年特別研究報告
13
MLwikiの概略図
登録プログラム
Webインターフェイス
PHPで実装
9つのファイル
総行数2265行
2006/02/27
平成17年特別研究報告
Perlで実装
576行
データベース
MySQL
16個のテーブル
14
MLwikiのユーザインターフェイス
検索入力部
ナビゲーション・サイドバー
2006/02/27
検索結果・内容などの表示部
平成17年特別研究報告
15
メールの編集
追加された部分
最新情報を書く
メールの内容
無効なリンク
古い情報
編集部
2006/02/27
平成17年特別研究報告
16
実験
目的
検索精度を確認する
今後の研究の方向を確認する
対象
FreeBSDのメーリングリストアーカイブ
方法
既存全文検索システムNamazuと比較
FreeBSDの開発者にアンケート採取
2006/02/27
平成17年特別研究報告
17
Namazuとの比較
設定
freebsd-stableで2005年12月にやりとりされたメー
ルの中から「デバイスドライバーに関する議論」を
探したい
方法
5つのキーワードで検索を5回行った
キーワード:device driver, device support, driver,
driver problem, driver support
再現率,適合率の平均値を求め,f値を計算
2006/02/27
平成17年特別研究報告
18
Namazuとの比較結果
既存全文検索システムNamazuとの比較結果
再現率
適合率
f値
Namazu
45.0%
40.8%
0.43
本システム
46.5%
43.5%
0.45
再現率 - 必要な情報のうち実際に検索された情報の割合
適合率 - 実際に検索された情報のうち必要な情報の割合
f値 
2  再現率  適合率
再現率  適合率
ランク,タグの数の増加とともに検索精度の
向上が期待できる
2006/02/27
平成17年特別研究報告
19
アンケートの結果
本システムにおいて実用だと思われる機能
人数
FreeBSDの開発者にアンケート採取
期間:3週間(2006年1月20日~2月10日)
設問数:17問
回収できた件数:14件
2006/02/27
ナ
ビ
ゲサ
ーイ
シド
ョバ
ンー
・
メ
ー
ル
編
集
Wiki
メ
ー
ル
検
索
作
成
平成17年特別研究報告
メ
ー
ル
ラ
ン
ク
タ
グ
追
加
コ
メ
ン
ト
追
加
20
まとめと課題
 Web共同編集機能を実装したメール検索システム
の設計と実装を行った
 Namazuと比較した結果,本システムの検索精度が
高いとわかった
 アンケートを通して今後の研究の方向を確認した
 メール編集に対する抵抗感の解消方法の考案
編集されたことをより強調するなど
 より長い期間でシステムを公開し有効性の検証
2006/02/27
平成17年特別研究報告
21
終わり
ご清聴ありがとうございました
まとめと課題
 Web共同編集機能を実装したメール検索システム
の設計と実装を行った
 Namazuと比較した結果,本システムの検索精度が
高いとわかった
 アンケートを通して今後の研究の方向を確認した
 メール編集に対する抵抗感の解消方法の考案
編集されたことをより強調するなど
 より長い期間でシステムを公開し有効性の検証
2006/02/27
平成17年特別研究報告
23