搜尋引擎介紹

Download Report

Transcript 搜尋引擎介紹

搜尋引擎介紹
--以 Google 為例
吳錦範
臺東大學圖書館
2011/03/12
[email protected]
大綱
• 一些數字的省思
• Google介紹
–
–
–
–
–
–
–
•
•
•
•
Google的由來
Google的歷史
Google的搜尋架構
Google的檢索語法
Google其他功能
其他的Google
行動版Google
其他Search engines
網頁資訊品質的評估
網路資源的迷思
使用網路資源應有的認知
2011/03/12
搜尋引擎介紹
2
一些數字的省思 (1/11)
3,892,179,868,480,350,000,000
???
一些數字的省思 (2/11)
• How much Information ?
– University of California at Berkeley (2002)
• 2002年生產5ExaBytes新資訊
– IDC (2006)
• 2006年數位資訊量已達1,610億GB(相當於161ExaBytes)
( http://www.eettaiwan.com/ART_8800457388_628626_NT_c6dca029.HTM)
– IDC (2007)
• 2007年數位世界的規模比預期超出10%,目前達2,810億GB(281
ExaBytes) (http://taiwan.emc.com/about/news/press/2008/20080331-01.htm )
– IDC (2008)
• 2008年全球數位資訊量比預測的還要高出3%, 達4,870億Gigabytes
(487ExaBytes) (http://news.networkmagazine.com.tw/trends/2009/05/19/12648/ )
– IDC (2009)
2009年經濟衰退期間,數位資料量比2008年增加62%,達到8,000億GB
(gigabytes), 等於0.8 ZB (zettabytes)
– 2010預估數位資訊量則可達1.2 ZB (1ZB=1021 Byte)
( http://www.eettaiwan.com/ART_8800606150_628626_NT_9d4294e4.HTM )
2011/03/12
搜尋引擎介紹
(IDC預估每18個月資訊量成長一倍)
4
一些數字的省思 (3/11)
• How much information ?
– 柏克萊大學 (2003)
• 2002年生產5ExaBytes新資訊. (1Exabyte = 1018)
– 92%在磁性物質或硬碟,紙本0.01%
– 每人每年生產800MB的新資訊
– 美國國會圖書館: 128,000,000件(2004)
(資料來源: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/)
2011/03/12
搜尋引擎介紹
5
一些數字的省思 (4/11)
• How much Information ?
– 2007/3/7 聯合報 國際A14版
– http://mag.udn.com/mag/digital/storypage.jsp?f_ART_ID=92946
2011/03/12
搜尋引擎介紹
6
一些數字的省思 (5/11)
• 2011截至目前的資訊量是多少?
– EMC: http://www.emc.com/leadership/digitaluniverse/expanding-digital-universe.htm
2011/03/12
搜尋引擎介紹
7
一些數字的省思 (6/11)
• 全球連網主機 ? (2011/1, 818,374,269 部)
( 資料來源: https://www.isc.org/solutions/survey)
2011/03/12
搜尋引擎介紹
8
一些數字的省思 (7/11)
• How much Web Server ? (2011/03 298,002,705 )
(資料來源: http://news.netcraft.com/archives/web_server_survey.html )
2011/03/12
搜尋引擎介紹
9
一些數字的省思 (8/11)
• 台灣的連網主機?(2011/02 ) 17,744,674部
2010.03
2010.01
2009.11
2009.09
2009.07
2009.05
2009.03
2009.01
2008.11
2008.09
2008.07
2008.05
2008.03
2008.01
2007.11
2007.09
2007.07
2007.05
2007.03
2007.01
2006.11
2006.09
2006.07
2006.05
2006.03
2006.01
2005.11
2005.09
2005.07
2005.05
2005.03
2005.01
2004.11
2004.09
2004.07
2004.05
2004.03
2004.01
2003.11
2003.09
2003.07
2003.05
2003.03
2003.01
2002.11
2002.09
2002.07
2002.05
2002.03
2002.01
2001.11
2001.09
2001.06
2001.02
2000.12
2000.06
2000.01
10
搜尋引擎介紹
2011/03/12
.org
.gov
.edu
.net
.com
16000000
14000000
12000000
10000000
8000000
6000000
4000000
2000000
0
(資料來源: http://www.twnic.net.tw/survy.xls)
一些數字的省思 (9/11)
• 台灣地區 WWW Server? (2011/02 ) 137,446部
2010.02
2009.11
2009.08
2009.05
2009.02
2008.11
2008.08
2008.05
2008.02
2007.11
2007.08
2007.05
2007.02
2006.11
2006.08
2006.05
2006.02
2005.11
2005.08
2005.05
2005.02
2004.11
2004.08
2004.05
2004.02
2003.11
2003.08
2003.05
2003.02
2002.11
2002.08
2002.05
2002.02
2001.11
2001.08
2000.12
1999.06
1997.12
11
搜尋引擎介紹
2011/03/12
.org
.net
.gov
.edu
.com
150000
130000
110000
90000
70000
50000
30000
10000
-10000
(資料來源: http://www.twnic.net.tw/survy.xls)
一些數字的省思 (10/11)
• Web page
– 8,058,044,651 (Google 2005/7 )
• image
– 1,305,093,600 (Google 2005/7 )
• Web page
– 124,426,951,803 (Cuil 2008/10 )
124,426,951,803
2011/03/12
搜尋引擎介紹
12
一些數字的省思 (11/11)
• Google將與美國的哈佛﹑史丹佛及密西根大學﹑英國
的牛津大學及紐約公共圖書館簽約﹐預計6年內,將其藏
書1500萬冊圖書數位化 (2004/12)
• Yahoo數位圖書館計畫:Internet Archive、加州大學等
共同參與,將其公開版權或授權的圖書數位化(2005/10)
• 微軟(MSN)書籍內文搜尋,計畫第一年提供15萬本
• 全球數位圖書館百萬圖書計畫:全球150萬冊無版權的
圖書數位化
• ….
2011/03/12
搜尋引擎介紹
13
結論:
在資訊爆炸的時代,資料的蒐集,
需要靠工具的協助。
(工欲善其事,必先利其器)
先看一段影片…
• 闖出創界戰記 (http://www.youtube.com/watch?v=c8QxWMCL0A&feature=BF&list=UL8BglRQ9HLCs&index=15 )
• 迎接新生時刻
(http://www.youtube.com/watch?v=mVkS7NRgjX0&feature=BF&list=UL8B
glRQ9HLCs&index=2 )
• 重返榮耀之路
(http://www.youtube.com/watch?v=tJeK37i4rX0&feature=BF&list=UL8BglR
Q9HLCs&index=4 )
2011/03/12
搜尋引擎介紹
15
Google介紹
Google一詞
• 是數學名詞「Googol」的諧音
• Googol:很大的正數 ,1之後跟隨100個零的數(此
數超過宇宙中原子的數目,後者僅為1085的數量
級) (註1)
• 代表是10的100次方 (10100)
(註1: 數學大辭典, 1999年,貓頭鷹出版, p.311)
2011/03/12
搜尋引擎介紹
17
Google的歷史
•
•
•
•
Google的前身BackRub
公司創立於1998年9月
創辦人: 布林(Sergey Brin) 與佩吉(Larry Page)
美國史丹佛大學博士班學生
2011/03/12
搜尋引擎介紹
18
檢索架構
URL分析
詞語典
網頁排序
分類
(資料來源: http://www-db.stanford.edu/~backrub/google.html)
2011/03/12
搜尋引擎介紹
19
語法
• 一般檢索
– 「關鍵字」
– 例如:資訊檢索
• AND
– 「關鍵字1」 「關鍵字2」
– 例如: 圖書館 讀者服務
• OR
– 「關鍵字1」 OR 「關鍵字2」
– 例如:數位圖書館 OR 電子圖書館 OR 虛擬圖書館
• NOT
– 「關鍵字1」 -「關鍵字2」
– 例如: 圖書館 -讀者服務
2011/03/12
搜尋引擎介紹
20
語法 (cont.)
• 完整片語
– 「“關鍵字“」
– 例如: “資料採礦“
• 強制檢索被忽略的字
– +「關鍵字」
– 例如: This +is +a book
• 搜尋特定網站
– 「關鍵字 site:網域名稱」
– 例如: 考古題 site:www.lib.ntu.edu.tw
2011/03/12
搜尋引擎介紹
21
語法 (cont.)
• 搜尋特定檔案格式
– 「filetype:檔案格式 關鍵字」
– 例如: filetype:pdf “digital library”
• 只搜尋網頁標題
– 「intitle:關鍵字」
– 例如: intitle:數位圖書館
• 查詢相關網站
– 「related:網址」
– 例如: related:www.lib.nttu.edu.tw
• 查詢相連結網站
– 「link:網址」
– 例如: link:www.lib.nttu.edu.tw
2011/03/12
搜尋引擎介紹
22
語法比較
關鍵字
vs. “關鍵字”
KW:運動休閒
2011/03/12
搜尋引擎介紹
24
KW:運動休閒 身心整合
2011/03/12
搜尋引擎介紹
25
KW:運動休閒 身心整合 身心技法
2011/03/12
搜尋引擎介紹
26
KW: “運動休閒”
2011/03/12
搜尋引擎介紹
27
KW:”運動休閒” “身心整合”
2011/03/12
搜尋引擎介紹
28
KW:”運動休閒” “身心整合” “身心
技法”
2011/03/12
搜尋引擎介紹
29
關鍵字 vs. “關鍵字”
運動休閒 身心整合 身心技法
VS.
“運動休閒” “身心整合” “身心技法
"
18,200 vs. 173
您願意選哪一個?
2011/03/12
搜尋引擎介紹
30
其他功能
• 專有名詞定義
– 「define:專有名詞」
– 例如: define: “digital library”
• 好手氣
– 「關鍵詞」
– 自動帶領您直接到 Google 所推薦第一個網頁
• 電話查詢
– 「電話號碼」
– 例如: 089-318855
• 數學運算
– 「數學運算式」
– 例如: 5+100*3/6
• 數字範圍
– 「數字..數字」
– 例如: “數位相機” $10000..$25000
2011/03/12
搜尋引擎介紹
31
其他功能 (cont.)
• 單位換算
– 「單位1」=?「單位2」
– 例如: 25攝氏度=?華氏度
• 農曆陽曆轉換
– 「陽曆」、「公曆」、「農曆」、「gl」、「nl」
– 例如: 陽曆 2012/6/10 、2033年 中秋
• 中英文字典
– 「fy 中文」
– 例如: fy 鳳梨
• 拼音漢字轉換
– 「漢字拼音」
– 例如: wan luo xing wen
• 錯別字改正
– 例如: 「互連網」  「互聯網」
2011/03/12
搜尋引擎介紹
32
其他功能 (cont.)
2011/03/12
搜尋引擎介紹
33
圖片搜尋
2011/03/12
搜尋引擎介紹
34
圖片搜尋 (cont.)
2011/03/12
搜尋引擎介紹
35
影片搜尋
2011/03/12
搜尋引擎介紹
36
新聞搜尋
2011/03/12
搜尋引擎介紹
37
書籍搜尋
2011/03/12
搜尋引擎介紹
38
時間限制搜尋
2011/03/12
搜尋引擎介紹
39
即時搜尋
2011/03/12
搜尋引擎介紹
40
搜尋羅盤
2011/03/12
搜尋引擎介紹
41
搜尋羅盤 (cont.)
2011/03/12
搜尋引擎介紹
42
網頁翻譯功能
2011/03/12
搜尋引擎介紹
43
網頁翻譯功能 (cont.)
2011/03/12
搜尋引擎介紹
44
相關字詞功能
英文版才
有的功能
2011/03/12
搜尋引擎介紹
45
關鍵詞與時間軸關係
英文版才
有的功能
2011/03/12
搜尋引擎介紹
46
其他功能 (cont.)
•頁庫存檔
• 類似網頁
• 搜尋語言
• 網頁目錄
• 圖片
• 網上論壇
• 大學搜尋
• 進階搜尋
• 使用偏好
2011/03/12
搜尋引擎介紹
47
實際上線體驗Google的功能
http://www.google.com.tw/
其他的Google
•
•
•
•
•
•
•
•
•
•
Google scholar (http://scholar.google.com.tw/ )
Google books (http://books.google.com.tw/ )
Google Blog search (http://blogsearch.google.com.tw/ )
Google news (http://news.google.com.tw/ )
Google alerts (http://www.google.com.tw/alerts )
Google answers (http://answers.google.com/answers/ )
Google translate (http://translate.google.com.tw/ )
Google maps (http://maps.google.com.tw/ )
Google Trends (http://www.google.com.tw/trends )
……
2011/03/12
搜尋引擎介紹
49
Google scholar (學術搜尋)
• (http://scholar.google.com.tw/ )
2011/03/12
搜尋引擎介紹
50
Google scholar (學術搜尋) (cont.)
2011/03/12
搜尋引擎介紹
51
連結說明
1. 標題:文章摘要的連結,或是完
整文章 (如果能在網路上取得)。
2. 引用:識別已引用該系列文章的
其他文件。
3. 相關文章 : 尋找其他與此群組文
章相似的報告。
4. 圖書館連結 (線上):透過與您圖
書館結盟的圖書館資源來找出該
文件的電子版。如果您在校園內,
這些連結會自動出現。
5. 圖書館連結(離線):找出擁有該
文件實際副本的圖書館。
6. 文章系列:找出該學術文件系列
中的其他文章 (可能是初版),而
您可以使用這些版本。 範例包含
預行刊物、摘要、會議文件或其
他改編版本。
7. 網頁搜尋:在 Google 上搜尋關
於此項研究的資訊。
2011/03/12
搜尋引擎介紹
52
Google books (圖書搜尋)
• (http://books.google.com.tw/ )
2011/03/12
搜尋引擎介紹
53
Google books (圖書搜尋) (cont.)
2011/03/12
搜尋引擎介紹
54
Google Blog Search (網誌搜尋)
• (http://blogsearch.google.com.tw/ )
2011/03/12
搜尋引擎介紹
55
Google Blog Search (網誌搜尋) (cont.)
2011/03/12
搜尋引擎介紹
56
Google news (新聞)
• (http://news.google.com.tw/ )
2011/03/12
搜尋引擎介紹
57
Google news (新聞) (cont.)
2011/03/12
搜尋引擎介紹
58
Google 快訊的監視與取得
• Alerts (http://www.google.com.tw/alerts?hl=zh-TW )
• RSS
2011/03/12
搜尋引擎介紹
59
Google translate (翻譯)
• (http://translate.google.com.tw/ )
2011/03/12
搜尋引擎介紹
60
Google Trends (趨勢)
• (http://www.google.com.tw/trends )
2011/03/12
搜尋引擎介紹
61
行動版Google
• 語音搜尋
• 照相搜尋
• Google翻譯
2011/03/12
搜尋引擎介紹
62
語音搜尋
2011/03/12
搜尋引擎介紹
63
照相搜尋
2011/03/12
搜尋引擎介紹
64
其他的搜尋引擎
Wolfram Alpha
• 2009年5月英國數學家所開發,是一個智慧型的知識庫。
(http://www41.wolframalpha.com/)
2011/03/12
搜尋引擎介紹
66
Wolfram Alpha (cont.)
2011/03/12
搜尋引擎介紹
67
其他的搜尋引擎
•
•
•
•
•
•
•
•
•
•
站台分類索引 ( Yam , Yahoo , ,Openfind …. )
網頁內容索引 (Google , GAIS, AltaVista,…. )
整合式 (ixquick,CNET,….)
入口網 (Yahoo, MSN,Lycos,….)
主題式 (yippy, ask, vivisimo, …)
視覺化 (mooter, Kartoo, Grokker, UJIKO)
綜合類型 (A9)
智慧型 (WolframAlpha, Bing)
以圖找圖 (VisualSeeker)
其他 (exalead, lygo, cuil)
2011/03/12
搜尋引擎介紹
68
網頁資訊品質的評估
網頁資訊品質的評估 (1/2)
• Robert Harris1997提出CARS:
– C:權威性(Credibility)
•
•
•
•
•
作者是誰
作者資歷如何
能否查證作者的資歷
作者的連絡資訊
網站建置者是誰
– A:正確性 (Accuracy)
• 網頁的建置理由?
• 設定的使用對象?
• 時效性如何?
2011/03/12
搜尋引擎介紹
70
網頁資訊品質的評估 (2/2)
– R:合理性 (Reasonableness)
•
•
•
•
•
公正性
客觀性
適當性
一致性
世界觀
– S:佐證(Support)
• 作者有無提供支持其論述的資訊?
• 所提供佐證資訊是否可信?
2011/03/12
搜尋引擎介紹
71
網路資源的迷思
網路資源的迷思
• 資料量太多
– 有用的資訊太少,垃圾資訊太多
• 資訊品質良莠不齊
– 人人是使用者, 也可以是提供者
• 網路不確定因素
– 線路問題 ; 系統問題 ; 程式問題 ; ….
• 資料生命週期
– 過時 ; 站台關閉 ; 網頁移除 ; ….
• 搜尋引擎 = 掌握全世界 ?
– 約55 % 不可被搜尋
2011/03/12
搜尋引擎介紹
73
使用網路資源應有的認知
使用網路資源應有的認知
•
•
•
•
•
•
•
學科專業
選擇正確的工具
多利用別人整理好的資源目錄
隨時修正自己的檢索策略
評估網路資源的可信賴度
貨比三家 ( 這家沒有換別家 )
網路資源搜尋是每位上網者都應該具備的一種
基本素養
• 遵守著作權法的相關規範
2011/03/12
搜尋引擎介紹
75
The end.
Thank you!