PPT - 常磐大学

Download Report

Transcript PPT - 常磐大学

情報資源組織演習A 第14回
ネットワーク情報資源の主題検索
2013年7月13日(土)
第4時限
R002教室
検索エンジンのカテゴリー検索
• 1994年、スタンフォード大学のジェリー・ヤン
とデビッド・ファイロがウェブ・ページをカテゴリ
ー別に整理したディレクトリを作成、評判とな
る→Yahoo!の創立(検索エンジンの始まり)
• 以後、検索エンジンはロボット型(自動プログ
ラムによる索引作成)とディレクトリ型(人手に
よるカテゴリー分け、整理)に大別されてきた
が、最近では人手によるページ収集・整理は
困難になっている
メタデータ
• データについてのデータ
• すなわち、ウェブ・ページなどの情報資源(デー
タ)のタイトル、作成者、主題、作成日などの情
報
• 図書館の蔵書目録データも、図書や雑誌をデー
タとみなせば、メタデータと言える
• ウェブ・ページ自体あるいはデータベースに記録
• 検索等に有効活用するためには標準規定が必
要
HTMLによるメタデータの記述例
(常磐大学・常磐短期大学ホームページ)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja"
lang="ja">
<head>
<title>常磐大学・常磐短期大学</title>
<meta name="description" content="常磐大学・常磐短期大
学の総合情報をご覧いただけます。" />
<meta name="keywords" content="常磐大学,常磐短期大学,
常磐大学大学院,茨城,水戸,心理,教育,人間,国際,キャリア,幼
児,保育,就職,地域連携,生涯学習" />
<meta name="copyright" content="常磐大学・常磐短期大学"
/>
(以下略)
ダブリン・コア
• メタデータ記述の語彙を定めた国際標準
• Dublin Core Metadata Initiative (DCMI)という
組織が開発、維持管理
• 15の基本要素(DCMES)、それらを拡張した
DCMIメタデータ語彙 (DCMI Metadata Terms)
を定義
• 主題は subject という要素(プロパティ)で記述
– 値の記述には、LCSH, MeSH, DDC, LCCなど既存
の件名標目表、分類表を使用
– 日本ではBSH, NDLSH, NDC, NDLCなども使用
RDFとXML
• ダブリン・コアが「何を」記述するかを規定してい
るのに対し、「どのように」記述するかを規定する
のがRDFとXML
• RDFはメタデータを主語、述語、目的語の3要素
で表現
– 情報資源(主語):常磐大学ホームページ
– プロパティ(述語):主題 (dc:subject)
– プロパティの値(目的語): NDC:377
• XMLはタグにより文書の構造を記述するマーク
アップ(タグ付け)言語
RDF/XMLによる主題の記述例
(国立国会図書館ダブリンコアメタデータ記述による)
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xml:lang="ja">
<rdf:Description rdf:about="http://www.tokiwa.ac.jp/">
<dc:title>常磐大学・常磐短期大学</dc:title>
<dc:subject
rdf:datatype="http://ndl.go.jp/dcndl/terms/NDC">377</dc:
subject>
</rdf:Description>
</rdf:RDF>
グーグルのページランク
• グーグルはウェブ・ページの重要度をリンク
関係から計算して判定
– 多くのページからリンクされたページは重要
– 重要なページからリンクされたページは重要
– 一種の人気投票
• 重要度の高いページから先に表示
→利用者の求めるページによく合致
• 学術論文の引用索引の手法に似ている
引用索引 Citation Index
• 学術論文の引用文献をデータベース化したもの
– ユージン・ガーフィールドが実用化
– 現在、”Web of Knowledge”という商品になっている
• ある文献の引用文献は同じ主題を扱っている
– 引用文献に引用されている文献も関連性が高い
– 引用文献の引用文献の引用文献も…
– 芋づる式に関連文献を収集できる
• 多く引用されている文献は重要
– 重要な文献から引用されている文献は重要
– 研究者や雑誌の評価にも使われる
芋づる方式の応用
• レコメンド(推薦)サービス
– この商品を買った人はこんな商品も買っています
– amazon.comが開始し、有名に
– 図書館の目録でも同様のサービス
「この本を借りた人はこんな本も借りています」
• 連想検索
– 国立情報学研究所のWebcat Plusで採用
– 文書と文書の言葉の重なり具合をもとに、ある文
書(検索条件)に近い文書(検索結果)を探し出す
検索技術
全文検索によるランク付け
• メタデータではなく文書の全文を検索して主題等
を判定
– 一番単純な方法:各単語の出現頻度をカウント
– キーワード抽出、文書の類似性判定等にも用いられる
• tf-idf (term frequency - inverse document frequency)
– tf = ある文書におけるある単語の出現回数
– idf = 全文書数をその単語が出現する文書数で割った
値の対数
– tf×idf でその文書のポイントを表す
– 特殊な語が多く出現する文書ほどtf-idfの値は大きくな
る
フォークソノミーとタグ・クラウド
• フォークソノミー(folksonomy)
– folks(民衆)とtaxonomy(分類法)の合成語
• トーマス・ヴァンダーワル(Thomas Vander Wal) の造語
– ウェブ・ページの閲覧者がタグと呼ばれる属性情
報を自由に付与できるシステム
• タグ・クラウド
– タグ(キーワード)を集めて視覚的に表示したもの
– 多く与えられたタグほど大きな文字で表示
– 例)カレントアウェアネス・ポータル
メタデータ不要論(?)
• 人手によるメタデータ付与は必要か?
– ページ・ランクやtf-idfなど自動的に関連性の高い情
報資源を検索する技法が発展
→機械的な処理で十分では?
• 統制語彙、専門家によるメタデータ付与は必要
か?
– フォークソノミーのように不特定多数がメタデータを付
与できる仕組みができている
– 膨大なインターネット上の情報資源すべてに専門家
がメタデータを付与するのは不可能
• しかし、精細なメタデータ規定の動きは継続中
第14回のまとめ
• 検索エンジンは人手によるカテゴリー分けか
らロボットによる索引作成へ
• メタデータ語彙を定めたダブリン・コアと記述
法・構文を定めるRDF/XML
• ページランク、引用索引、レコメンド・サービス、
連想検索など芋づる式検索の応用が成功
• 利用者がタグ付けするフォークソノミーとタグ・
クラウド
• メタデータ不要論もあるが、精細なメタデータ
規定の動きは継続