スライド タイトルなし

Download Report

Transcript スライド タイトルなし

整理技術研究グループ6月例会
電子図書館とメタデータ
-神戸大学電子図書館システムを中心に
2000.7.1
渡邊 隆弘
(神戸大学附属図書館)
[email protected]
目 次
1.神戸大学電子図書館システムの概要
2.「電子アーカイブ」構築・検索システムのコンセプト
対象資料-特に震災資料
メタデータ重視の考え方
検索の実際
3.情報の管理と検索システム
メタデータ管理のしくみ
一次情報の作成と管理
検索システムの特徴
4.コンテンツの現状と課題
5.電子図書館におけるメタデータ・マークアップ言語
1.
神戸大学電子図書館システム
の概要
国立大学の電子図書館プロジェクト
国大図協次期電算化システム専門委員会(平成5-8年度)
学術審議会建議(平成8.7)
予算措置
平成8
奈良先端大
平成10
京都大
筑波大
平成11東京工業大
図書館情報大
神戸大
篠塚、栗山「国立大学図書館における電子図書館プロジェクト-その経緯と現状
『情報の科学と技術』 49(6), 1999.6 pp.284-289
電子図書館システムの方向性
基本的図書館機能をデジタル化/ネットワーク化
電子ジャーナル、二次情報DB
学内者向けサービスが主
所蔵資料を電子化して広く外部発信
貴重書、学内研究成果
各図書館の情報発信が「仮想図書館」の一翼
ネットワーク情報資源の組織化・水先案内
特定分野のサブジェクトゲートウエイ
ハイブリッド図書館(ネットワーク資源と既存資源の融合)
神戸大学 = 外部発信型
神戸大学電子図書館システム
http://www.lib.kobe-u.ac.jp
システム概念図
電子アーカイブの構築
阪神・淡路大震災関係資料
「震災文庫」収集資料
及び震災に関する学内研究成果物
所蔵資料等の電子化
が事業の中心
経済・経営学関係資料等
「住田文庫」
「新聞記事文庫」
神戸港開港関係文書
学内研究成果物
本学紀要目次情報
科研報告書・学位論文
学内蔵書検索
オンライン蔵書目録
(OPAC)
新着図書リスト
市販データベースの提供
(学内利用)
電子ジャーナル
2次情報データベース
Current Contents
MEDLINE, CA, Econlit
ERIC, PsycLIT, 雑誌記事索引 etc.
レファレンス情報データベース
OED etc.
附属図書館案内
利用案内
図書館ニュース
各館・室情報
図書館報
ネットワーク上の情報源
WWW情報検索
震災情報 etc.
リンク集
インターネット
2.
「電子アーカイブ」構築・
検索システムのコンセプト
・対象資料-特に震災資料
・メタデータ重視の考え方
・検索の実際
電子アーカイブ構築・検索システム
図書館所蔵資料や学内研究成果を、図書館の
主体でデジタル化し、広く全国・世界に情報発信
渡邊「神戸大学電子図書館システムにおける『電
子アーカイブ』の構築」『ディジタル図書館』
no. 16, 1999.11. pp. 3-11
http://www.lib.kobe-u.ac.jp/dlibdoc/dlw.html
に転載
電子アーカイブの対象資料
阪神・淡路大震災関係資料
「震災文庫」として網羅収集した多様な資料が中心
(18,000点以上)
経済・経営関係資料
「住田文庫」---海事史関係資料(版本、文書、地図など)
「新聞記事文庫」---明治末~戦前期の新聞切抜資料
その他
学内研究成果
紀要・科研費報告書
研究成果としてのコレクション(標本など)
教材資料など
特に、震災関係資料を念頭においたシステム開発
震災資料とは
震災文庫(1995.10- )
http://www.lib.kobe-u.ac.jp/eqb/
稲葉「震災資料の保存と公開-神戸大学「震災文庫」を中心として」
『大学図書館研究』 55, 1999.3. pp.54-64
渡邊「『震災文庫』のこれまでとこれから-電子図書館を中心に」
『Academic Resource Guide』 no.055, 2000.2.
http://www.ne.jp/asahi/coffee/house/ARG/055.html
関係資料の網羅収集
公開が見込めるものならどんなものでも集める
→ 現在約19,000 件の資料
震災資料(震災文庫資料)の特色
多様性に富んだ資料群
資料媒体の多様性
図書、雑誌、パンフ・レジュメ、チラシ・ポスター、
広報紙、地図、写真、音声、映像、電子媒体
資料となる単位の多様性
抜粋、抜刷、切抜
情報要求の多様性
他の検索手段が未確立(二次資料類の乏しさ)
メタデータの重視
一次情報入力も進めるが、全資料の電子化は見通しな
し
メタデータ整備にも十分なコストをかけて、震災関連情報
のレファレンスデータベースとしての充実を
写真・地図などの重要性-「全文検索」では解決しない
メタデータの要件
十分精細なレベルのデータ
様々な情報単位を弁別
様々な媒体、単位に応じた柔軟性
メタデータ検索の実際
「電子アーカイブ検索」
電子アーカイブ検索
簡易検索画面
全資料を対象に
「震災 診療」で検索
その他の検索機能
・より詳細な検索項目指定
・類義語辞書の使用
・新旧字体の同時検索
etc.
電子アーカイブ検索
検索結果一覧画面
図書中の1章
様々な種類・レベルの
データを一括検索
1冊の図書
雑誌中の論文
電子アーカイブ検索
詳細表示画面
「目次」に相当する
階層型表示
一次情報の
参照
検索・表示対象となるレベル
すべてにメタデータ作成
3.
情報の管理と検索システム
・メタデータ管理のしくみ
・一次情報の作成と管理
・検索システムの特徴
メタデータの管理
様々な種類のメタデータ作成
資料タイトルレベル(様々な媒体・形態)
図書・雑誌中の論文・記事
写真集中の写真
図書中の写真 etc.
「リソース種別」の付与
階層構造の管理
メタデータ項目の設定とデータ形式
必要十分な項目設定と柔軟性
SGML方式で保持(OpenText使用のため)
「リソース種別」の付与
各メタデータに3種類の種別情報を付与
アーカイブ種別
震災文庫
住田文庫
学内紀要
新聞記事文庫
....
資料種別
図書資料
雑誌資料
新聞・広報紙類
パンフレット類
一枚資料
写真資料
地図資料
映像資料
音声資料
コンピュータファイル
エレメント種別
シリーズレベル
資料タイトルレベル
分冊巻号レベル
ブロックレベル
記事・著作レベル
章・節レベル
写真レベル
地図レベル
図表レベル
映像レベル
音声レベル
ファイルレベル
ページ画像レベル
メタデータ間の階層構造
メタデータ間の親子関係
同位データ間の順序
の情報保持
入力システム
画面
メタデータ項目の設定とデータ保持
Dublin Core 15項目
Title, Creator ...枠だけで未使用も
その他約20の基本項目(図書館目録の項目が多い)
版、出版年、数量、大きさ、請求記号…
リソース種別に応じて拡張項目
写真なら撮影日付、撮影場所、撮影条件...
リソース種別に応じた柔軟性
項目の追加・手直しの柔軟性
・項目定義ファイルを外部ファイルで
・リソース種別ごとに項目有無・表示名称・表示順を規定
・拡張項目の追加は容易
SGML形式のデータ保持
検索・表示用定義ファイルの例
震災/図書/タイトルの定義ファイル
#
METAID:メタデータID:MetadataID:1:pink:0:
#リソースIDは固定表示、プルダウンで表示したいときだけ定義する
AID:リソースID:ResourceID:1:pink:0:
DID:リソースID:ResourceID:1:pink:0:
EID:リソースID:ResourceID:1:pink:0:
#
LANGUAGE:本文の言語:Language:1:pink:0:
CREATEDATE:データ登録日:CreateDate:1:pink:0:
ORGPLACE:所在:Place:1:pink:0:
CALLNO:請求記号:CallNo:1:pink:0:
DOCNO:資料番号:DocumentNo:1:pink:0:
VODESCRIPTION:巻号:VolNumber:1:gold:0:
#Titleが表示専用となる代わりに、「Tree:タイトル」として(同位置になるよう)検索専用項目として(再)指定します。
TITLE:書名:Title:1:gold:0:
TREE:書名:Title:0::1:0
#
MATERIALTYPE:資料種別:MaterialType:1:gold:1:0
CREATOR:著者など:Creator:1:gold:1:0
EDITION:版:Edition:1:gold:1:0
PLACE:出版地:PubPlace:1:gold:0:
ORGPUBLISHER:出版者:Publisher:1:gold:1:0
#出版年は表示用と検索用がある
PUBLISHDATE1:出版年月:PubDate:1:gold:0:
PUBLISHDATE2:出版年月:PubDate:0::1:1
#
EXTENT:ページ数など:Pages:1:gold:1:0
SIZE:大きさ:Size:1:gold:0:
一次情報の作成と管理
・メタデータと一対一でリンクが原則
・ページごとではなく章・節などの意味あるまとまりで
一次情報ファイルを作成し、そのレベルのメタデータとリンク
することを想定
・資料に応じてPDF、HTML、JPEGなど
・OCRにより全文検索用テキスト作成
完全校正 → ノーマルPDFかHTMLで表示
校正しない → 表示はイメージPDF
問題
意味的まとまりで一次情報を作る場合、イメージで提供しよう
とするとファイルサイズの点から現実的でなく、制約される。
全文テキストの扱い
「新聞記事文庫」 2000.6.30リリース
http://www.lib.kobe-u.ac.jp/sinbun/
大量の全文テキストを含んだコンテンツははじめて
検索用全文テキストは最終的にメタデータの一部となる。
<TEXTBODY>タグに全体が格納されて検索対象に
全文テキストを構造化して検索に生かす機能はない
全文のSGML記述などは当面考えていない。
メタデータ間のリンク関係である程度の文書構造を表現
「新聞記事文庫」では若干のタグづけの試み
当面はHTML提供のため
多少は将来も考えて構造化
電子アーカイブ構築・検索
システム構成
入力系システム
一次情報・メタデータの
入力(PCベース)
ファイル共有
(SAMBA)
データベースサーバ
(Oracle8)
SGML化
(バッチ処理)
検索サーバ
OpenText
メタデータ
一次情報
NFSマウント
Z39.50検索
WWWサーバ
神戸大学内LAN
インターネット
検索
ファイアウォールサーバ
検索システムの特徴(1)
Z39.50(情報検索プロトコル)の使用
検索履歴の再利用など。
十分に力を発揮しているとはいえない。
OpenText(検索エンジン)による全文検索
検索項目、表示項目設定の柔軟性
類義語辞書の使用オプション
新旧字体同時検索オプションも。
公開属性とユーザ認証機能
英語版検索機能
DB上、一部コード類を除いてフィールドを日英二重に。
OpenTextのSGML形式メタデータでは、日英のフィールド群がそれぞれ
<JA>…</JA>、<EN>…</EN>で囲まれた形で記述される。
検索システムの特徴(2)
メタデータ階層構造と検索
例) 神戸大学の被災状況
第1章 概説
第2章 附属病院の被災
資料タイトルレベル
章・節レベル
章・節レベル
ツリーの上位階層にあたる部分のタイトルからも検索
「神戸大学 AND 附属病院」で第2章のメタデータがヒット
階層関係をなす複数データがヒットした時は一つ(上位)に
「神戸大学 AND 被災」ではタイトルレベルのみ
4.
コンテンツの現状と課題
・震災関係資料
・経済関係資料
・その他学内研究成果など
コンテンツの現状と計画(1) 震災資料
メタデータ(全資料約19,000件)
資料タイトルレベルは全件あり
より細かな入力(記事、図表、写真キャプション)
アルバイト、外注を動員して遡及入力も
対象地名キーワードの入力
英訳データの発信(写真キャプション)
一次情報
一枚もの資料の画像イメージ(約1600点)
著作権許諾済み
写真資料の公開(約1500コマ)
図書資料にも着手
現状と計画(2) 経済・経営学関係資料
住田文庫(海事関係資料)
資料全点のメタデータ(目録情報)作成済み
全文ページ画像(約100点 5,300コマ)
地図など高精細画像も準備中 (FlashPix)
新聞記事文庫(明治末~戦前)
30000コマ(22000記事)を公開
10000コマ分は全文テキストもあり
全体では500000万コマ
神戸開港文書
検討中
現状と計画(3) 学内研究成果など
紀要など
遡及入力進みメタデータ(目次情報)約17,000件公開
全文はまだやってない
科学研究費報告書などのメタデータも準備中
各部局・研究室の研究成果
全教官にアンケート調査を行い、候補資料を募集
2件を選び着手
中川家文書(文学部所蔵)
藻類標本コレクション(内海域機能教育研究センター)
電子アーカイブ 今後の課題
震災資料
図書資料などの電子化・公開
提供形式の模索(レイアウト保持の問題など)
著作権許諾体制の確立
図書などは権利関係が錯綜する場合も
ネットワーク情報資源への対処(アーカイブの必要性)
経済経営関係資料など
教官による協力体制できめ細かなデータ作成
図書館員だけでは限界
研究室の協力
5.
電子図書館におけるメタデータ
・マークアップ言語
電子図書館におけるメタデータ
メタデータの必要性
効率的な情報アクセス
(全文アクセスは万能でない)
メタデータの定義・対象
本来対象となる媒体を問わない概念
実際にはネットワーク情報源に特化して論じられる傾向もある
電子「図書館」のメタデータ
ネットワーク情報資源では「著者がつけるメタデータ」が必要
→できるだけ簡略化して実効性をあげる(Dublin Core)
「目録」というより「標題紙・奥付」に近いイメージ?
一方で情報専門家による組織化の必要性
→TEI, 「サブジェクト・ゲートウエイ」
より精細なメタデータが必要
メタデータ記述の問題点
作成の単位(書誌単位)
電子情報は物理的実体が安定していない
→「単行レベル」が簡単に認定できないものも多い
全文検索・提供により、資料の一部分への検索・アクセスが日常的に
→「構成レベル」のメタデータも作成せざるをえない
記事・論文レベルよりさらに下位の断片へもアクセス可能性
(章節・図表など)
実は電子情報に限ったことではない(震災文庫)
記述すべき内容(データ項目)
Dublin Coreでは不十分
→より詳細レベルの標準化(目録規則, TEI…?)
必ずしも単一の規則である必要はない(RDF)
記述のシンタックス(記述文法)
XMLを採用したRDF(Resource Description Framework)の枠組み
メタデータ間の構造表現はどうするのか
電子図書館におけるマークアップ言語(SGML, XML)
メタデータ記述のマークアップ表現
これまでのコンピュータ目録システムでは、ISBDのエリア(又は要素)
単位でRDB上のフィールドとする方式が主流
→表現性に欠ける(繰り返し、入れ子構造)
一方でMARCフォーマット
→サブフィールドコードは一種のマークアップ表現(開始タグだけ)
今後、RDFに従ったXML記述の可能性
→表現性高まり、より細かなデータ要素設定も
実務レベルでは、十分な更新性能の得られるDBエンジンが必要
一次情報のマークアップ表現
パターンの決まったものなら、DTD作成が可能
主題にあわせて様々な資料を受け入れるのが普通の図書館
→どこまで定型化が可能か