PPT - 常磐大学

Download Report

Transcript PPT - 常磐大学

情報資源組織論 第13回
ネットワーク情報資源とメタデータ
2014年1月7日(火)
第4時限
R101教室
復習小テスト
1. 図書館資料の配架場所を示す記号を何と言う
か?
2. 図書記号と著者記号はどう違うか?
3. オンライン目録の作業で、既存の書誌データを
利用して新しい書誌データを入力する方式を何
と言うか?
4. 書誌情報を一定のフォーマットでコンピュータが
処理できる媒体に記録したものを英語の略称
で何と言うか?
5. 日本とアメリカの代表的な書誌ユーティリティは
それぞれ何か?
ネットワーク情報資源
• インターネット上の情報資源
• 現在ではWorld Wide Web (WWW, Web)によ
るアクセスが主流
– Webサイト=Web上で情報を提供するひとまとまり
のWebページの集まり
– Webサーバ=Webサイトを運用するコンピュータ
– Webページ=Web上の個々の文書。HTMLという言
語で書かれる
– Webブラウザ=Webページを閲覧するためのソフト
– PDFなどHTML以外のファイルもWebを介してアクセ
ス可能
日本目録規則による電子資料の組織化
• 利用形態により記述方法が異なる
– ローカルアクセス:利用者自身がDVDなどキャリア
(媒体)をコンピュータの周辺装置に挿入することに
よって利用可能となる場合
– リモートアクセス:利用者自身の操作すべきキャリ
アがない場合(資料はハードディスクなどに格納)
• ネットワーク情報資源はこれに該当する
• 記述の情報源
– 内部情報源:ソフトのタイトル画面、メニューなど電
子資料に内在する情報源
– 外部情報源:キャリアに永久的に貼り付けられたラ
ベル、付属資料、容器など
– リモートアクセスの場合、外部情報源は存在しない
電子的内容(日本目録規則第9章より)
第1レベル
データ(電子データ)
第2レベル
第3レベル
画像データ(電子画像データ)
画像データ(電子画像データ)
数値データ(電子数値データ)
調査データ(電子統計データ)
統計データ(電子調査データ)
地図データ(電子地図データ)
地図データ(電子地図データ)
テキスト・データ(電子テキスト・デー
タ)
書誌データベース
電子ジャーナル
電子新聞
文書(電子文書)
プログラム(電子プログラ
ム)
フォント・データ(電子フォント・デー
タ)
録音データ(電子録音データ)
フォント・データ(電子フォント・データ)
アプリケーション・プログラム
ゲーム・ソフトウェア
録音データ(電子録音データ)
データベース・プログラム
表計算ソフトウェア
文書作成プログラム
CADプログラム
DTPプログラム
システム・プログラム
検索プログラム
プログラミング言語
OSソフトウェア
データおよびプログラム(電子
データおよびプログラム)
ユーティリディ・プログラム
ユーティリディ・プログラム
上記の用語の組み合わせ
上記の用語の組み合わせ
インタラクティブ・マルチメディア
インタラクティブ・マルチメディア
オンライン・サービス
オンライン・サービス
メタデータ
• データについてのデータ
• 情報資源(データ)を検索したり、管理するため
の情報
• すなわち、Webページなどの情報資源のタイト
ル、作成者、主題、作成日などの情報
• 図書館の蔵書目録データも、図書や雑誌をデー
タとみなせば、メタデータと言える
• Webページ自体あるいはデータベースに記録
• 検索等に有効活用するためには標準規定が必
要
HTMLによるメタデータの記述例
(常磐大学・常磐短期大学ホームページ)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja"
lang="ja">
<head>
<title>常磐大学・常磐短期大学</title>
<meta name="description" content="常磐大学・常磐短期大
学の総合情報をご覧いただけます。" />
<meta name="keywords" content="常磐大学,常磐短期大学,
常磐大学大学院,茨城,水戸,心理,教育,人間,国際,キャリア,幼
児,保育,就職,地域連携,生涯学習" />
<meta name="copyright" content="常磐大学・常磐短期大学"
/>
(以下略)
ダブリン・コア
• 多様な情報資源すべてに共通する、核(コア)と
なる要素を定めた国際標準
• Dublin Core Metadata Initiative (DCMI)という
組織が開発、維持管理
– 毎年、国際会議が開かれる
• ダブリン・コア・メタデータ要素セット(DCMES)ま
たはSimple DC
– title, creatorなど15の基本要素を規定
• DCMIメタデータ語彙 (DCMI Metadata Terms)
– DCMESの拡張
• 日本語の解説として、神崎正英「Dublin Core: メ
タデータを記述するボキャブラリ」
ダブリン・コア・メタデータ要素セット Ver.1.1
要素名
要素名の和訳
定義・コメント
contributor
coverage
creator
date
寄与者
範囲
作成者
日付
description
format
identifier
language
記述
フォー
マット
識別子
言語
情報資源に寄与している人、組織、サービスなど。
情報資源の地理的あるいは時代的区分、適用範囲、法域など。
情報資源の作成に主として責任のある者。
情報資源のライフサイクルで起きた出来事に関する時点また
は期間。
情報資源の説明。抄録、目次、図、自由形式の説明文など。
情報資源のファイルフォーマット、物理媒体、サイズなど。
publisher
relation
rights
source
subject
title
type
公開者
関係
権利
出所
主題
タイトル
タイプ
定められた条件内において情報資源を一意に示すもの。
情報資源の言語。既定の言語コード等を用いる。例:ja=日
本語、en=英語
情報資源を利用可能にしている責任者。
関連する情報資源。
情報資源の権利に関する情報。
記述対象の情報資源の派生元となった情報資源。
情報資源のトピック。キーワードや分類記号などで表わす。
情報資源に与えられた名前。
情報資源の性質あるいはジャンル。DCタイプ要素など既定
の語彙を用いる。
Resource Description Framework (RDF)(1)
• 直訳すると「情報資源記述の枠組み」
• ダブリン・コアが「何を」記述するかを規定して
いるのに対し、「どのように」記述するかを規定
• メタデータを主語、述語、目的語の三つの要素
(トリプル)で表現
• 「常磐大学のホームページの作成者は常磐大
学である」という情報は、「常磐大学ホームペ
ージは・常磐大学を・作成者として持つ」といっ
た風に考えて、次のように表す
– 主語:常磐大学ホームページ
– 述語:作成者
– 目的語:常磐大学
Resource Description Framework (RDF)(2)
• 主語:リソース(情報資源)
• 述語:プロパティ(メタデータ要素)
• 目的語:プロパティの値
– リソース:http://www.tokiwa.ac.jp/
– プロパティ:http://purl.org/dc/elements/1.1/creator
(または dc:creator )
*URIで表されていることに注意
– プロパティの値:常磐大学
http://www.tokiwa.ac.jp/
dc:creator
常磐大学
RDFとXML
• RDFは具体的な記述法までは定めていない
– 記述言語として多く使われるのがXML
• XML (Extensible Markup Language)はタグ
により文書の構造を記述するマークアップ(タ
グ付け)言語
– HTMLはタグが決まっているが、XMLは自分で設
定できる
• RDF/XML Syntax Specification
– XMLによるRDF準拠のメタデータ記述法
RDF/XMLによる記述例
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xml:lang="ja">
<rdf:Description rdf:about="http://www.tokiwa.ac.jp/">
<dc:title>常磐大学・常磐短期大学</dc:title>
<dc:creator>常磐大学</dc:creator>
<dc:creator>常磐短期大学</dc:creator>
<dc:description>常磐大学・常磐短期大学の総合情報をご覧いただ
けます。</dc:description>
<dc:language>ja</dc:language>
<dc:subject>私立大学</dc:subject>
<dc:subject>短期大学</dc:subject>
</rdf:Description>
</rdf:RDF>
日本における応用事例
• 国立国会図書館ダブリンコアメタデータ記述
(DC-NDL)
– ダブリン・コアを独自に拡張したメタデータ規定
– 国立国会図書館サーチでは、図書の書誌情報も
DC-NDL/RDF/XML形式で出力できる
• junii2
– 国立情報学研究所(NII)が策定したメタデータ・フ
ォーマット
– タイトル、作成者など56のデータ項目
– 学術機関リポジトリ構築連携支援事業の一環
メタデータの交換
• [学術]機関リポジトリとは、大学や研究機関が研
究成果などを収集・保存してインターネット上で
公開する電子アーカイブ
• 検索エンジンなどは、機関リポジトリのコンテン
ツのメタデータを収集し、検索に利用
• OAI-PMH (Open Archives Initiative Protocol
for Metadata Harvesting)
– メタデータを自動収集するためのプロトコル
– XML形式でメタデータをやり取り
– 国立国会図書館サーチでもOAI-PMHで書誌データ
を提供
メタデータに頼らない検索
―グーグルのページ・ランク
• グーグルはウェブ・ページの重要度をリンク
関係から計算して判定
– 多くのページからリンクされたページは重要
– 重要なページからリンクされたページは重要
– 一種の人気投票
• 重要度の高いページから先に表示
→利用者の求めるページによく合致
• 学術論文の引用索引の手法に似ている
引用索引 Citation Index
• 学術論文の引用文献をデータベース化したもの
– ユージン・ガーフィールドが実用化
– 現在、”Web of Knowledge”という商品になっている
• ある文献の引用文献は同じ主題を扱っている
– 引用文献に引用されている文献も関連性が高い
– 引用文献の引用文献の引用文献も…
– 芋づる式に関連文献を収集できる
• 多く引用されている文献は重要
– 重要な文献から引用されている文献は重要
– 研究者や雑誌の評価にも使われる
芋づる方式の応用
• レコメンド(推薦)サービス
– この商品を買った人はこんな商品も買っています
– amazon.comが開始し、有名に
– 図書館の目録でも同様のサービス
「この本を借りた人はこんな本も借りています」
• 連想検索
– 国立情報学研究所のWebcat Plusで採用
– 文書と文書の言葉の重なり具合をもとに、ある文
書(検索条件)に近い文書(検索結果)を探し出す
検索技術
全文検索によるランク付け
• メタデータではなく文書の全文を検索して主題等
を判定
– 一番単純な方法:各単語の出現頻度をカウント
– キーワード抽出、文書の類似性判定等にも用いられる
• tf-idf (term frequency - inverse document frequency)
– tf = ある文書におけるある単語の出現回数
– idf = 全文書数をその単語が出現する文書数で割った
値の対数
– tf×idf でその文書のポイントを表す
– 特殊な語が多く出現する文書ほどtf-idfの値は大きくな
る
フォークソノミーとタグ・クラウド
• フォークソノミー(folksonomy)
– folks(民衆)とtaxonomy(分類法)の合成語
• トーマス・ヴァンダーワル(Thomas Vander Wal) の造語
– ウェブ・ページの閲覧者がタグと呼ばれる属性情
報を自由に付与できるシステム
• タグ・クラウド
– タグ(キーワード)を集めて視覚的に表示したもの
– 多く与えられたタグほど大きな文字で表示
– 例)カレントアウェアネス・ポータル
メタデータ不要論
• 人手によるメタデータ付与は必要か?
– ページ・ランクやtf-idfなど自動的に関連性の高い情
報資源を検索する技法が発展
→機械的な処理で十分では?
• 統制語彙、専門家によるメタデータ付与は必要
か?
– フォークソノミーのように不特定多数がメタデータを付
与できる仕組みができている
– 膨大なインターネット上の情報資源すべてに専門家
がメタデータを付与するのは不可能
• しかし、精細なメタデータ規定の動きは継続中
第13回のまとめ
• メタデータ語彙を定めたダブリン・コアと記述
法・構文を定めるRDF/XML
– 応用例としてDC-NDLとjunii2
• メタデータ交換のプロトコルOAI-PMH
• ページランク、引用索引、レコメンド・サービス、
連想検索など芋づる式検索の応用が成功
• 利用者がタグ付けするフォークソノミーとタグ・
クラウド
• メタデータ不要論もあるが、精細なメタデータ規
定の動きは継続