Transcript PPT

図書館情報技術論 第6回
検索エンジン
2013年5月23日(木)
第5時限
R002教室
復習小テスト
1. WWWとは何の略か?
2. WWWの発明者は誰か?
3. ウェブページの記述に用いられる言語は
何か?
4. WWWで情報のやり取りに使われている
通信規約は何か?
5. Internet Explorer, Firefoxなどウェブサイト
の情報を閲覧するソフトを何と呼ぶか?
インターネット上の情報資源の検索
• 検索エンジン、サーチエンジン search engine
– 広義にはコンピュータ・システムに格納された情報
を探し出すため設計された情報検索システムだが、
一般にはウェブページを対象とする検索システム
(Web search engine)を指す
– 検索方法は、検索語を入力する方式とカテゴリーを
たどるディレクトリ方式がある(両方備えるものが多
い)
– インターネット上を巡回するクローラー/スパイダー/
ロボットと呼ばれるソフトウェアにより、ウェブページ
の情報を自動収集
• 初期はファイル名やタイトルのみ、やがて全文が検索対
象に
検索エンジンの例
• 日本
–
–
–
–
–
–
–
BIGLOBEサーチ
excite
goo
Google
Infoseek
Bing
Yahoo! Japan
• 海外
–
–
–
–
–
AltaVista
excite
Google
Yahoo!
百度 など
検索エンジンの始まり
• 1993年、CERNがWWWを無料開放
• 同年、画期的なウェブブラウザNCSA Mosaic公開
→WWWの爆発的普及につながる
• 同年、最初のロボット型検索エンジンJumpStation
• 1994年、スタンフォード大学の大学院生ジェリー・
ヤンとデビッド・ファイロがウェブページをカテゴリ
ー別に整理したディレクトリ(リンク集)を作成
→1995年Yahoo!を創立し、事業化
• 以後、検索エンジンはロボット型(自動プログラム
による索引作成)とディレクトリ型(人手によるカテ
ゴリー分け、整理)に大別されてきた
– Webサイトが爆発的に増え、人手によるページ収集・
整理は困難に
グーグル Google
• 現在、世界で最も人気のある検索エンジン
• 1996年、スタンフォード大学の大学院生ラリー・
ペイジとセルゲイ・ブリンがGoogleの原型となる
検索エンジンを開発
• 1998年、創業。 2004年、株式公開
• 2000年、Yahoo!の検索エンジンとして採用(~
2004年)
• 「Google の使命は、世界中の情報を整理し、世
界中の人々がアクセスできて使えるようにするこ
とです」 ―Googleについて
• “Don’t be evil.” -- GoogleのCode of Conduct
グーグル検索のさまざまな機能
•
•
•
•
検索サービスのページで詳しく解説
計算機能
画像検索
GoogleマップとGoogle Earth
– ストリートビュー
• YouTube
• 音声入力
Google Scholar とGoogle Books
• Google Scholar
– 学術資料に特化した検索
– 図書館リンク・プログラム
– 「巨人の肩の上に立つ」というスローガンは有名
• Google Books
– 書籍の全文検索サービス
– 図書館プロジェクト
• 世界の主要図書館と提携し、蔵書の電子化と目録情報
を提供
• 著作権のあるものも無許諾で電子化し問題に
検索アルゴリズム
• アルゴリズム【algorithm】
– 計算や問題を解決するための手順、方式。特にコ
ンピューターのプログラムに適用可能な手続きをい
うことが多い。(三省堂『大辞林』)
• 検索エンジンが検索要求に対して該当するペ
ージがあるかどうか、どのページが最もよく要
求に合致するかなどを計算する手順
– 単純な例:指定された検索語の数が多いページを
上位に持って来る
– 実際にはそれぞれ独自の複雑なアルゴリズム(企
業秘密)で適合度を計算
ページランク
• グーグルはウェブ・ページの重要度をリンク
関係から計算して判定
– 多くのページからリンクされたページは重要
– 重要なページからリンクされたページは重要
– 一種の人気投票
*実際には他の要素も加味している(企業秘密)
• 重要度の高いページから先に表示
→利用者の求めるページによく合致
• 学術論文の引用索引の手法に似ている
引用索引 Citation Index
• 学術論文の引用文献をデータベース化したもの
– ユージン・ガーフィールドが実用化
– 現在、”Web of Knowledge”という商品になっている
• ある文献の引用文献は同じ主題を扱っている
– 引用文献に引用されている文献も関連性が高い
– 引用文献の引用文献の引用文献も…
– 芋づる式に関連文献を収集できる
• 多く引用されている文献は重要
– 重要な文献から引用されている文献は重要
– 研究者や雑誌の評価にも使われる
検索エンジン最適化
• Search Engine Optimization (SEO)の訳語
• ウェブページの作成者が、検索エンジンの
検索結果がより上位になるようページの書
き方を工夫すること
– 利用者は検索結果上位のページしか見ない
– ページの閲覧数が業績評価につながる
• 広告料収入などに直結
– 各検索エンジンのアルゴリズムを推測
• 基本的には個別対応になってしまう
検索エンジンの限界
• 深層ウェブ Deep Web
– Invisible Web(見えないウェブ)、Hidden Web(
隠されたウェブ)などと言われることも
– 通常の検索エンジンによって索引が作成され
ておらず、検索できないコンテンツのこと
• 動的に作成されるページ(データベースの検索結果
など)
• どこからもリンクされていないページ
• パスワードが必要なページ
• ロボットによるアクセス拒否の設定をしているページ
第6回のまとめ
• 検索エンジン(ウェブ検索エンジン)はウェブ
ページを対象とした検索システム
• Yahoo!はディレクトリ型検索エンジンの草分け
• Googleはロボット型検索エンジンで圧倒的な
人気を持ち、さまざまな先端的機能を提供
• 検索アルゴリズムを推測し、自分のページが
検索結果上位に来るよう工夫する検索エンジ
ン最適化
• 検索エンジンでは探せない深層ウェブの存在