資訊檢索 information retrieval

Download Report

Transcript 資訊檢索 information retrieval

Searching behavior & evaluation of IR
鍾季倫
anadem_chung[at]yahoo.com.tw
Oct. 27, 2003
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.
大綱
一、資訊行為、資訊尋求行為、與資訊檢索行為模式
二、資訊檢索系統評估方法
三、資訊檢索系統評估實驗
2
一、資訊行為、資訊尋求行為、與資訊檢索行為模式
資訊行為、資訊尋求行為、與資訊檢索行為模式

資訊行為模式
– Wilson 之資訊行為模式

資訊尋求行為模式
– Ellis 之資訊尋求行為模式
– Kuhlthau 之資訊尋求行為模式
– Marchionini 之資訊尋求行為模式

資訊檢索行為模式
–
–
–
–
–
Saracevic 之資訊檢索互動分層模式
Spink 之互動檢索過程模式
Choo、Detlor 和 Turnbull之網路資源檢索行為
Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式
Holscher 和 Strube 之網路資源檢索行為模式
資訊行為、資訊尋求行為與資訊檢索行為界說
資訊行為
資訊尋求行為
資訊檢索行為
資料來源:Wilson (1999)
Wilson 之資訊行為模式
資訊需求
活動機制
阻礙因素
活動機制
資訊尋求行為
使用者
壓力/處理
理論
心理的
危險/獎賞
理論
消極注意
人口統計學的
角色相關或
人際關係
環境的
消極檢索
社會學習
理論
自我學
習
積極檢索
進行中
檢索
資料來源特色
資訊處理和使用
資料來源:Wilson (1997)
Ellis 之資訊尋求行為模式
瀏覽
開始
串連
區分
擷取
查核
監視
資料來源:Wilson (1999)
結束
Kuhlthau 之資訊尋求行為模式
資訊尋求過 各階段的感覺 各階段的想法 各階段的行動 適當的任務
程之階段
( feelings )
( thoughts )
( actions )
( task )
1.開始
不確定
一般、模糊
2.選擇
樂觀
3.探索
困惑、挫折、
懷疑
4.成形
清晰
縮小、清晰
5.收集
方向感、信心
興趣增加
6.發表
困難解除、滿
意或失望
清晰或專注
尋求背景資訊
瞭解資訊
需求
辨別一般
主題
尋求相關資訊
調查一般主
題的資訊
形成焦點
尋求相關或焦 收集符合焦
點資訊
點的資訊
完成資訊
尋求活動
資料來源:Kuhlthau (1991)
Marchionini 之資訊尋求行為模式
預設路逕
形
成
檢
索
問
題
執
行
檢
索
高可能性路逕
檢
視
結
果
擷
取
資
訊
\
定
義
問
題
選
擇
系
統
\
確
認
或
接
受
考
慮
反
覆
終
止
低可能性路逕
資料來源:Marchionini (1995)
Saracevic 之資訊檢索互動分層模式
環境
任務…
情感
認知
面
層
意圖…
用
檢索問題
特徵
動
者
表面層
互
使
知識結構…
適
應
用
介面
使
適
工程
硬體、能力
訊
電
處理
軟體、演算法…
內容
應
資
腦
資訊來源、文本呈現...
資料來源:Saracevic (1997)
10
Spink 之互動檢索過程模式
檢索過程
…檢索策略…
循環
循環…
互動回饋迴圈
檢索技巧
或行動
檢索技巧
或行動
使用者的
判斷
檢索技巧
或行動…
使用者的
判斷
檢索技巧
或行動
使用者的
判斷
使用者的
判斷…
使用者的
判斷
資料來源:Spink (1997)
11
Choo、Detlor 和 Turnbull之網路資源檢索行為
Ellis的資
訊尋求行
為模式
開始
串連
從感興趣
的資訊來
源開始查
詢資料
跟著引文
或其他型
式的指示
型資訊將
相關的資
訊連結起
來
跟著超連
結到相關
的網站或
網頁
從可能包
Choo等
含或指出
所提出之 感興趣的
網路上的 資訊的網
預期行為 站或網頁
開始查詢
瀏覽
區分
監視
擷取
略看內文
或標題
辨別資訊
間的本質
差異,與
品質好壞
透過對特
定資訊的
監控,以
保持對該
領域發展
情況的知
曉
針對特定
資訊進行
查詢,以
從中獲取
有價值的
資訊
略看經選
擇後的網
頁相關資
訊,例如
標題或網
站地圖
․將有用的
資源標籤、
列印、儲
存或複製
起來等
․選擇不同
的網站
․利用各種
方式,獲
取得符合
得新知
需求的相
․再次造訪
關資訊
「喜愛的
」網站
12
資料來源:Choo, Detlor, & Turnbull (1999)
Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式 ( I )
規劃檢索
分類的
判斷問題結構
分散的
使用主題瀏覽式
的分類目錄
探索型
判斷任務的目標
由上而下
事實型
混合策略
由下而上
由上而下
[ 網路使用經驗豐富者 ]
13
資料來源:Navarro-Prieto, Scaife, & Rogers (1999)
Navarro-Prieto、Scaife 和 Rogers 之網路資源檢索行為模式 ( II )
由主題瀏覽式的分類目錄、或直接鍵入
提供給他們的字詞來開始檢索
受系統的回饋影響他們的
檢索行為
[ 網路使用經驗貧乏者 ]
資料來源:Navarro-Prieto, Scaife, & Rogers (1999)
14
Holscher 和 Strube 之網路資源檢索行為模式 ( I )
資訊需求
.81
.19 [.05]
.31
直接到(熟悉的)網站
.27
.01
.64
與網路資源檢索工具互動
.59
.30
.04
獲取文件
檢視
.39
.07
.15
.23
瀏覽網站
.06
.03
.10
失敗
成功
.72
資料來源:Holscher & Strube (2000)
15
Holscher 和 Strube 之網路資源檢索行為模式 ( II )
.08 [進階查詢]
選擇 + 到達網路資源檢索工具
.15
.08
雅虎的主題目錄
.68
形成 + 選擇檢索詞彙
陳述檢索問題
.05
1.00
.02
.27
送出檢索問題/獲得檢索結果
.12
.42
.03
.43
.21
瀏覽
1.00
檢視檢索結果
.30
從檢索結果中選出文件
檢視文件
.53
.23
資料來源:Holscher & Strube (2000)
16
二、資訊檢索系統評估方法
資訊檢索系統評估方法

相關派

效用派

評估標準
18
評估方法 ─ 相關派
Entire document
collection
Relevant
Retrieved
documents
(not relevant & documents
not retrieved)
d
c
a
b
a
檢全率 ( Recall ) =
ac
a
檢準率 (Precision) =
ab
b
雜訊比 ( Fallout ) =
bd
[ 找到垃圾的比例愈高,檢準率愈低 ]
系統評估不僅考慮到拒絕不相關文獻的能力 (檢準率) ,同時也
測量系統找到所有相關文獻的能力 (檢全率)。(黃慕萱,民85)
19
Precision
檢全率與檢準率之關係
小蝶老師:『此事古難全』
0
Recall
檢全率和檢準率間存在一種反比關係。
也就是說,在檢索中,如果要提高檢全率,必定會降低檢
準率,反之亦然。
20
檢全率與檢準率之限制

相關 (relevance) 的定義莫衷一是。

『相關』的判斷,相當主觀。

相關文獻 (c) 在資料庫中難以計算。

是否相關的主觀判斷因素,不只受文件內容之
影響,也會受使用者在檢索時,自身的知識狀
態所影響。
參考書目:卜小蝶(民89);Chowdhury (1999) p. 208
21
何謂相關 (Relevance)

相關概念可說是目前評估IR系統的最主要依據,其判斷
主要包括以系統為主 (客觀相關),以使用者為主 (主觀
相關) 。

較知名的定義:
– 主題相關 (subject relevance):檢索詞彙與索引詞彙間的吻合程度
– 邏輯相關 (logical relevance):William Cooper 1971年提出
– 情境相關 (situation relevance):考慮個人的認知狀態、興趣和喜
好 (Patrick Wilson提出)
– 心理相關 (psychological relevance):能改變認知或知識狀態、或
產生文字關聯效果(contextual effect)的資訊才能視為相關 (Steven
Harter 1992 年提出)
參考書目:卜小蝶(民89)
22
評估方法 ─ 效用派 (Utility)

Cooper認為,任何一篇文章皆有其報酬 (rewards) 和懲
罰 (penalties)
– 報酬可能來字文章的資訊本身或其休閒娛樂價值等;
– 懲罰則源自於閱讀困難或其他自文件資訊所產生的不愉快經
驗等。

因此,當書目資料或文章呈現在使用者眼前時,使用
者可以根據該篇文章之報酬和懲罰來衡量其價值。

換句話說,使用者可以自由心證地決定他願意花多少
錢來購買此一文件,也就是主觀認定該篇文件之效用。
參考書目:黃慕萱(民85)
23
效用派之限制

缺乏簡單明確的量化公式。

未考慮到未被檢索到之相關文獻的可能效益。
(但使用者也不可能知道未檢索到文獻的影響)

使用者對與檢索主題無關但引發興趣之文章,
可能給予高度效用評分。

金錢的價值因人而異,無法成為評估效用之一
致性標準。
參考書目:卜小蝶(民89);黃慕萱(民85)
24
資訊檢索系統評估標準
評估標準
系統變數 (parameters) 舉例
檢全率和檢準率
索引詳盡度;詞彙專指度
回應時間
接收使用者提問 (queries) 的頻率
使用者需花費的精力
與系統互動之容易度
呈現形式
輸出的樣式,例如摘要或全文
收藏範圍
輸入設備的種類與儲存設備的種類及大小
資料來源:Salton & McGill (1983) as cited in Chowdhury (1999) p.204
25
三、資訊檢索系統評估實驗
資訊檢索系統評估實驗

Cranfield 研究

SMART 實驗

STAIRS 計畫

文件檢索會議 (TREC)
Cranfield 研究 ─ 背景陳述

始於1950年代末期,結束於1960年代中期。

Cranfield 研究可分為前後二期,皆由Cleverdon
完成。
– 一般將早期的研究稱為 Cranfield I ;而後期的研究
稱為 Cranfield II 。

前後二期 Cranfield 計畫的目的,都是為了找出
較佳的索引語言 (索引語言在此包括分類系統
和檢索系統)。
參考書目:黃慕萱(民85),頁117
28
Cranfield I

第一期的 Cranfield 研究報告在1960年發表。

根據 Case Western Reserve University圖書館中1,100多
篇有關冶金學的文章,以檢全率和檢準率來評估四種
索引語言之優劣:
–
–
–
–

國際十進分類法 (UDC) 、
層面分類法 (Facet Classification) 、
按字母順排列之主題索引 (alphabetical subject catalog) 、
單詞組合索引法 (uniterm system of coordinate indexing)
結果發現這四種索引語言的表現難分軒輊;也就是說,
利用這四種索引語言來組織資訊,所得的檢索效益大
體上是一致的。
參考書目:黃慕萱(民85),頁118
29
Cranfield II ( I )

根據第一次的失敗經驗,Cleverdon將索引語言
大致分為三種:
– 單一詞彙語言 (single term language) 、
– 簡單概念索引語言 (simple concept index language) 、
– 控制詞彙索引 (controlled term index)

然後再將各種能提高檢全率和檢準率的方法附
加於各索引語言之下 (例如切截、同義詞、或
類同義詞等 ),總共產生了三十三種不同的索
引方式。第二期 Cranfield計畫即在比較這三十
三種索引方式之檢索效益。
參考書目:黃慕萱(民85),頁118
30
Cranfield II ( II )

大致而言,其研究結果發現『單一詞彙語言』
(使用的是後組合系統, post-coordinate system)
的總體表現最好,其次是『控制詞彙索引』,
表現最差的則為『簡單概念索引語言』(使用的
是前組合系統, pre-coordinate system) 。

Cleverdon 的研究推翻控制詞彙較自然語言為
佳的說法,意謂圖書資訊人員在整理組織資訊
上雖投入大量時間和人力,但其檢索效益仍無
法超越自動索引,實為人力資源上的極大浪費。
參考書目:黃慕萱(民85),頁120
31
SMART 實驗 ( I )

Salton 於1960 年代初期開始,當時所使用的測
試資料庫 (即SMART系統),是以Cleverdon 在
Cranfield II 計畫中所蒐集的實驗性館藏為本。

其原始構想是想證明圖書館界長期使用的文獻
分析或內容分析的方法,應比一般關鍵詞檢索
能達到更好的檢索效果。

但在1965年,初期研究結果推翻其原先的預測
和假設,加權關鍵詞加上切截後的表現相當突
出。
參考書目:黃慕萱(民85),頁125
32
SMART 實驗 ( II )

1973年,Salton 比較關鍵詞自動索引和
MEDLARS 人工索引在檢索效益上的差異,結
果發現自動索引的表現不會比人工索引遜色。

1983年,SMART 系統已超越 Cleverdon 的實驗
性館藏,由一仟筆資料成長至五萬筆資料。

Salton已相當肯定關鍵詞自動索引 (或單一詞彙)
的檢索效益。
參考書目:黃慕萱(民85),頁126
33
STAIRS (STorage And Information Retrieval System) 計畫

1985 年由Blair 和 Maron 所進行。他們在 STARIS 中儲
存了四萬多篇文章,約是三十五萬頁的全文資料。

使用的檢索方法是未經加權的關鍵詞和布林邏輯結合
檢索,結果得到平均檢準率為79%,而平均檢全率為
20%。

Blair 和 Maron對此檢索結果相當滿意。不過,79%的
檢準率雖是不錯,但20%的檢全率則顯得過低。又事
實上,大部分的檢索者根本未意識到低檢全率的現象。
參考書目:黃慕萱(民85),頁126
34
小結

Salton 認為,圖書館界一再排斥類似的研究結
果,是因其嚴重損及館員的專業地位,如果自
動索引和館員人工分析資料的結果一樣好,那
館員的工作是否還有存在的價值?

三十多年來,不同的檢索系統、不同的檢索問
題、不同的相關判斷,所得的研究結果卻大致
相同。換言之,一再重複的實驗結果只是不斷
提醒人們圖書館界慣用的整理組織資訊的方式
必須重新檢討。
參考書目:黃慕萱(民85),頁128
35
文件檢索會議 (TREC) 簡介

為了促進資訊檢索的研究與應用的發展,美國國防部
高等研究計劃局(Defense Advanced Research Projects
Agency,簡稱DARPA)與美國國家標準暨技術局
(National Institute of Standards and Technology,簡稱
NIST)共同舉辦了『文件檢索會議』(Text REtrieval
Conference,簡稱TREC)

透過所發展出的大型測試集,制定各種測試項目、測
試程序及測量準則、組合成一評估檢索系統的機制。

TREC在1992年舉辦了第一屆,其後持續在每年年底舉
辦會議,至今 (2002年11月) 已進行了十一屆。
參考書目:江玉婷、陳光華(民88)
36
TREC 測試集 ( I )

TREC的評估機制基本上是依據Cranfield研究的概念擴
展而來,因此其測試集亦包含文件集、主題及相關判
斷三個主要部分。
– 文件集(Document Set)
TREC文件集所收錄的主要是新聞性文件及雜誌期刊,文件的
異質性亦為一大特色。
– 主題(Topics)
TREC不同於一般的測試集採用傳統的查詢問句作測試,而是
模擬使用者的資訊需求,以各種形式、各種角度陳述出來,
並以結構化的欄位來呈現,稱之為主題(Topics)。鼓勵了研
究者探討如何分析資訊需求,選擇、結合主題中各欄位,並
從中擷取有意義的資訊。
參考書目:江玉婷、陳光華(民88)
37
TREC 測試集 ( II )
– 相關判斷
TREC的相關判斷主要是根據主題的Nar-rative欄位
進行。對相關與否的判斷原則,是只要文件部分與
主題相關即可(即使只是數句),並不要求文件的
每個部分均與主題相關。
TREC採用了pooling的方式進行,亦即針對每個主
題,從各系統所送回的測試結果中,抽取出一定數
量的文件(通常為100篇),合併形成一個pool,將
之視為該主題可能的相關文件集合。將此pool中重
覆的文件去除後,再給該主題的原始建構者進行相
關判斷。
參考書目:江玉婷、陳光華(民88)
38
TREC對於文件檢索的影響

在測試集方面:TREC測試集至TREC-6有5GB的文件
集,以及350個具有相關判斷的主題,並已被整個文件
檢索的研究社群所廣泛採用。有些未能真正參加TREC
的團體,亦使用此測試集來發展其檢索策略。

在測試項目方面:TREC持續地致力於研究發展許多新
的測試項目,使得不同的檢索技術均能在一致的測試
環境中進行評估,也將傳統的文件檢索研究擴展至新
的領域。如中文、西班牙文、跨語檢索等項目。

在會議及論壇方面:TREC的舉行使得研究者能透過系
統測試以及相互間的觀摩切磋,使系統的檢索技術得
到改良,並獲致更高的檢索效益。
參考書目:江玉婷、陳光華(民88)
39
參考書目 ( I )
卜小蝶(民89)。資訊檢索課程講義。(未出版)。
 江玉婷、陳光華(民88)。TREC現況及其對資訊檢索研
究之影響。圖書與資訊學刊,29期,頁36-59。Also
available at
http://www.lib.nccu.edu.tw/mag/admin/29/p36.html
 黃慕萱(民85)。資訊檢索中『相關』概念之研究。臺北
市:臺灣學生。
 Chowdhury, G.G. (1999). Introduction to Modern
Information Retrieval. London: Library Association
Publishing.

40
參考書目 ( II )



Choo, C. W., Detlor, B., & Turnbull, D. (1999).
Information seeking on the web ─ an integrated model of
browsing and searching. Proceedings of the 62nd ASIS
Annual Meeting, 36, 3-16.
Holscher, C. & Strube, G. (2000). Web search behavior of
Internet experts and newbies. In Proceedings of the Ninth
International World Wide Web Conference, p. 337-346.
Retrieved Sept. 1, 2002 from
http://www9.org/w9cdrom/81/81.html
Kuhlthau, C. C. (1991). Inside the search process:
information seeking form the user’s perspective. Journal of
the American Society for Information Science, 42(5), 361371.
41
參考書目 ( III )



Marchionini, G. (1995). Information seeking in electronic
environments. New York: Cambridge University Press.
Navarro-Prieto, R., Scaife, M., & Rogers, Y. (1999).
Cognitive Strategies in Web Searching. Retrieved Sept. 2,
2002 from
http://zing.ncsl.nist.gov/hfweb/proceedings/navarroprieto/index.html
Salton, G., & McGill, M.J.(1983). Introduction to Modern
Information Retrieval. Auckland: McGraw-Hill as cited in
Chowdhury, G.G.(1999). Introduction to Modern
Information Retrieval. London: Library Association
Publishing.
42
參考書目 ( IV )




Saracevic, T. (1997).The Stratified Model of Information
Retrieval Interaction: Extension and Applications.
Retrieved Oct. 19, 2002 from
http://www.scils.rutgers.edu/~tefko/ProcASIS1997.doc
Spink, A. (1997). Study of interactive feedback during
mediated information retrieval. Journal of the American
Society for Information Science, 48(5), 382-394.
Wilson, T. D. (1997). Information behaviour: a
interdisciplinary perspective. Information Processing and
Management, 33(4), 551-572.
Wilson, T. D. (1999). Models in information behaviour
research. Journal of Documentation, 55(3), 249-270
43
P.S.

此投影片是碩一上卜小蝶老師的「資訊
檢索研究」課程時整理的。
內容如有錯誤,敬請不吝指正。
 my email: anadem_chung[at]yahoo.com.tw

Thank you
44