Transcript PPT
図書館情報技術論 第6回 検索エンジン 2013年5月23日(木) 第5時限 R002教室 復習小テスト 1. WWWとは何の略か? 2. WWWの発明者は誰か? 3. ウェブページの記述に用いられる言語は 何か? 4. WWWで情報のやり取りに使われている 通信規約は何か? 5. Internet Explorer, Firefoxなどウェブサイト の情報を閲覧するソフトを何と呼ぶか? インターネット上の情報資源の検索 • 検索エンジン、サーチエンジン search engine – 広義にはコンピュータ・システムに格納された情報 を探し出すため設計された情報検索システムだが、 一般にはウェブページを対象とする検索システム (Web search engine)を指す – 検索方法は、検索語を入力する方式とカテゴリーを たどるディレクトリ方式がある(両方備えるものが多 い) – インターネット上を巡回するクローラー/スパイダー/ ロボットと呼ばれるソフトウェアにより、ウェブページ の情報を自動収集 • 初期はファイル名やタイトルのみ、やがて全文が検索対 象に 検索エンジンの例 • 日本 – – – – – – – BIGLOBEサーチ excite goo Google Infoseek Bing Yahoo! Japan • 海外 – – – – – AltaVista excite Google Yahoo! 百度 など 検索エンジンの始まり • 1993年、CERNがWWWを無料開放 • 同年、画期的なウェブブラウザNCSA Mosaic公開 →WWWの爆発的普及につながる • 同年、最初のロボット型検索エンジンJumpStation • 1994年、スタンフォード大学の大学院生ジェリー・ ヤンとデビッド・ファイロがウェブページをカテゴリ ー別に整理したディレクトリ(リンク集)を作成 →1995年Yahoo!を創立し、事業化 • 以後、検索エンジンはロボット型(自動プログラム による索引作成)とディレクトリ型(人手によるカテ ゴリー分け、整理)に大別されてきた – Webサイトが爆発的に増え、人手によるページ収集・ 整理は困難に グーグル Google • 現在、世界で最も人気のある検索エンジン • 1996年、スタンフォード大学の大学院生ラリー・ ペイジとセルゲイ・ブリンがGoogleの原型となる 検索エンジンを開発 • 1998年、創業。 2004年、株式公開 • 2000年、Yahoo!の検索エンジンとして採用(~ 2004年) • 「Google の使命は、世界中の情報を整理し、世 界中の人々がアクセスできて使えるようにするこ とです」 ―Googleについて • “Don’t be evil.” -- GoogleのCode of Conduct グーグル検索のさまざまな機能 • • • • 検索サービスのページで詳しく解説 計算機能 画像検索 GoogleマップとGoogle Earth – ストリートビュー • YouTube • 音声入力 Google Scholar とGoogle Books • Google Scholar – 学術資料に特化した検索 – 図書館リンク・プログラム – 「巨人の肩の上に立つ」というスローガンは有名 • Google Books – 書籍の全文検索サービス – 図書館プロジェクト • 世界の主要図書館と提携し、蔵書の電子化と目録情報 を提供 • 著作権のあるものも無許諾で電子化し問題に 検索アルゴリズム • アルゴリズム【algorithm】 – 計算や問題を解決するための手順、方式。特にコ ンピューターのプログラムに適用可能な手続きをい うことが多い。(三省堂『大辞林』) • 検索エンジンが検索要求に対して該当するペ ージがあるかどうか、どのページが最もよく要 求に合致するかなどを計算する手順 – 単純な例:指定された検索語の数が多いページを 上位に持って来る – 実際にはそれぞれ独自の複雑なアルゴリズム(企 業秘密)で適合度を計算 ページランク • グーグルはウェブ・ページの重要度をリンク 関係から計算して判定 – 多くのページからリンクされたページは重要 – 重要なページからリンクされたページは重要 – 一種の人気投票 *実際には他の要素も加味している(企業秘密) • 重要度の高いページから先に表示 →利用者の求めるページによく合致 • 学術論文の引用索引の手法に似ている 引用索引 Citation Index • 学術論文の引用文献をデータベース化したもの – ユージン・ガーフィールドが実用化 – 現在、”Web of Knowledge”という商品になっている • ある文献の引用文献は同じ主題を扱っている – 引用文献に引用されている文献も関連性が高い – 引用文献の引用文献の引用文献も… – 芋づる式に関連文献を収集できる • 多く引用されている文献は重要 – 重要な文献から引用されている文献は重要 – 研究者や雑誌の評価にも使われる 検索エンジン最適化 • Search Engine Optimization (SEO)の訳語 • ウェブページの作成者が、検索エンジンの 検索結果がより上位になるようページの書 き方を工夫すること – 利用者は検索結果上位のページしか見ない – ページの閲覧数が業績評価につながる • 広告料収入などに直結 – 各検索エンジンのアルゴリズムを推測 • 基本的には個別対応になってしまう 検索エンジンの限界 • 深層ウェブ Deep Web – Invisible Web(見えないウェブ)、Hidden Web( 隠されたウェブ)などと言われることも – 通常の検索エンジンによって索引が作成され ておらず、検索できないコンテンツのこと • 動的に作成されるページ(データベースの検索結果 など) • どこからもリンクされていないページ • パスワードが必要なページ • ロボットによるアクセス拒否の設定をしているページ 第6回のまとめ • 検索エンジン(ウェブ検索エンジン)はウェブ ページを対象とした検索システム • Yahoo!はディレクトリ型検索エンジンの草分け • Googleはロボット型検索エンジンで圧倒的な 人気を持ち、さまざまな先端的機能を提供 • 検索アルゴリズムを推測し、自分のページが 検索結果上位に来るよう工夫する検索エンジ ン最適化 • 検索エンジンでは探せない深層ウェブの存在