디지털 도서관과 메타데이터 표준화

Download Report

Transcript 디지털 도서관과 메타데이터 표준화

디지털 도서관과
메타데이터 표준화
2004. 11. 19
한국과학기술정보연구원(KISTI)
서태설
[email protected]
2004-11-19
디지털도서관 컨퍼런스
목 차
1. 메타데이터 표준화의 필요성

디지털도서관의 개요

디지털도서관의 당면 문제점

메타데이터 표준화
2. 디지털도서관을 위한 메타데이터

메타데이터의 개요와 발전과정

주요 문헌정보 메타데이터
3. 메타데이터 표준화 전략
2004-11-19

메타데이터 상호운용성

MDR에 의한 메타데이터 표준화
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 개요(1/4)

정보 검색 기술의 발전과정
시기
주요
기술
발전
1960년이전
54년 검색시스템
검색
시장
요구
1960년이후
60년초 TSS
69년 ARPANet
81년 LAN
1990년이후
93년 모자이크
94년 Netscape
200?년
Semantic Web
수작업 검색
(2차정보)
온라인 검색
(2차정보)
Web 검색
(원정보)
차세대 Web 검색
(원정보+…)
검색
검색
검색
검색
시간효율성
시간효율성
시간효율성
편리성/감성
편리성/감성
의미/활용성
데이터
Data Card
전통적 도서관
Simple DTD
DB Schema
DB Schema
정보센터
디지털도서관
자료: 서태설 외, 지식콘텐트의 표준과 기술동향, 한국과학기술정보연구원, 2003. 12.
2004-11-19
디지털도서관 컨퍼런스
Metadata
가상도서관
1. 메타데이터 표준화의 필요성
디지털도서관의 개요(2/4)
과거
현재
Internet
2004-11-19
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 개요(3/4)

명칭
 디지털도서관, 전자도서관, 가상도서관

개념
 자료의 디지털화 + 네트워크에 의한 접근

기능
 자원의 전자화된 목록을 통한 탐색
 디지털 데이터, 정보, 지식의 제공
 네트워크를 통한 커뮤니케이션
자료: 한상완 외, “국가디지털도서관 구축계획에 관한 연구”, 한국문헌정보학회지, 제30권 제3호, 1996
2004-11-19
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 개요(4/4)

효과
 폭증하는 정보의 효율적 관리
 정보의 신속한 검색과 전달
 분산된 정보를 활용한 새로운 서비스 창출
 다양한 형태의(멀티미디어) 정보 제공
 정보의 지역적 불균형(digital divide) 해소
 정보의 중복 구축 방지
자료: 심효정, “디지털도서관의 정책과 제도의 분석”, 정보관리연구, 제34권 제1호, 2003
2004-11-19
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 당면 문제(1/3)

검색 및 출력 양식의 불일
치(국가전자도서관)
2004-11-19
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 당면 문제(2/3)

데이터 요소 및 형식의 불일치(KISTI)
Adonis
(1993-2002)
Ebsco
(1993-)
Swetscan
표준데이터
포멧파일
Work table 생성
Swetscan
(1994-)
데이터요소/형식 분석
데이터 변환
Ebsco
표준데이터
포멧파일
CrossRef
표준데이터
포멧파일
참조
해외도입DB
표준데이터
포멧파일
CrossRef
해외도입DB
해외학술지
수집대상리스트
Adonis
표준데이터
포멧파일
ADONIS
Oracle DB
CrossRef
JTIActa Obstetricia et Gynecologica Scandinavica
journal title="Journal of Neuroscience" Research"
ISN0001-6349
YPB2002
issns="03604012,10974547"
VON81
year="2001"
IUN11
volume="66" issue="4"
PGR995-1000
page="612"
ATIMonoamniotic twins: Diagnosis and
management
atitle="Role
of taurine in regulation of intracellular ...
2004-11-19
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
디지털도서관의 당면 문제(3/3)

데이터 오류 및 중복 발생(KISTI)
오류 DB
통합 DB
오류코드부여
Y
표준데이터포멧파일
N
오류데이터?
N
중복데이터?
Y
순번
입수처
총종수
대상종수
1
Adonis
-
-
2
Swetscan
7,728
7,728
3
Ebsco
8,029
2,005
4
CrossRef
6,299
388(5,911)
5
해외도입
-
-
6
기타
790
-
2004-11-19
중복 DB
디지털도서관 컨퍼런스
N
항목누락데이터?
Y
1. 메타데이터 표준화의 필요성
메타데이터 표준화(1/3)

정보의 표현 방법
2004-11-19
Object
Property
Representation
논문
유형
Journal
제목
디지털도서관의 …
페이지
pp. 17-31
사용언어
KO
잡지명
정보관리연구
권호
제34권 제1호
:
:
디지털도서관 컨퍼런스
1. 메타데이터 표준화의 필요성
메타데이터 표준화(2/3)

데이터 요소 및 형식의 불일치
항목명(property)의 불일치
표현(representation)의 불일치
유형
종류
Journal
J
제목
표제
디지털도서관의 …
전자도서관의 …
페이지
쪽수
pp. 17-31
P. 17-31
사용언어
발행국가
KO
한국
잡지명
저널명
정보관리연구
정보관리연구
권호
권
제34권 제1호
Vol. 34
호
불일치
유형
2004-11-19
명칭 표기의 차이
다른 항목 선택
No. 1
불일치
유형
명칭 세분화
디지털도서관 컨퍼런스
값 표기의 차이
단위의 차이
1. 메타데이터 표준화의 필요성
메타데이터 표준화(3/3)

메타데이터 표준화의 효과
검색효율성
대폭 증가
정보생산/유통기관
B
DB
메타데이터 표준
정보자원 속성, 명세, 의미 등에 대한 메타데이터 등록
정보생산/유통기관
A
DB
검색 비효율
정보생산/유통기관 정보생산/유통기관 정보생산/유통기관
정보생산/유통기관
C
DB
A
B
DB
C
DB
DB
정보 상호운용 가능
정보상호운용 불가
A기관
B기관
C기관
데이터표준유무
<있음>
<없음>
<없음>
데이터표준유무
<MDR 참조>
‘항목명’표기예
차량가격
가격
공식가격
‘항목명’표기예
가격
‘항목값’표기예
1000
10,000
10,000,000
‘항목값’표기예
10,000
‘항목단위’표기예
만원
천원
원
‘항목단위’표기예
천원
‘항목길이’표기예
5자리
6자리
9자리
‘항목길이’표기예
6자리
2004-11-19
A기관
디지털도서관 컨퍼런스
B기관
C기관
2. 디지털도서관을 위한 메타데이터
메타데이터의 개요와 발전과정(1/3)

메타데이터의 정의
정의자
정의
대상
Herry (1996)
데이터에 대한 데이터 (data about data)
데이터
Lange & Winkler (1997)
전자자원을 記述하는데 사용되는 데이터 요소
전자자원
Iannella (1998)
데이터에 대한 구조화(structured)된 데이터
데이터

메타데이터의 개념은 이미 오래 전부터 있어왔다.


HTML에 기반한 웹 문서에는 메타데이터가 매우 취약하다.


사물에 대한 의사전달 및 데이터 양식, 스키마 등
XML은 이 부분을 강화한 것이다.
이제 새로운 가능성을 가지고 메타데이터를 이야기 하는 시대가 열리고 있다.

시멘틱 웹
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
메타데이터의 개요와 발전과정(2/3)

메타데이터의 기능
 Metadata identifies and describes an information object;
it also documents how that object behaves, its function and use, its
relationship to other information object and how it should be managed.

메타데이터의 유익
 Effectiveness of searching
 Cataloging + Relationship
 System independence
Anne J. Gilliland-Swetland, Introduction to Metadata, Getty In- formation Institute., 1998
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
메타데이터의 개요와 발전과정(3/3)

문헌정보 메타데이터의 발전과정
2000
ONIX
ONIX
International
ONIX Int. 1.3
EPICS
FRBR
INDECS
2002
MODS
1965
1995
MARC
DC
AACR2
TEI IH
2004-11-19
디지털도서관 컨퍼런스
ONIX Int. 2.0
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(1/8)


MARC (MAchine Readable Cataloging)
MARC 형식은 시스템간의 레코드 교환을 위한 표준적인 목록 레
코드 형식(구조)으로서 정보 자원의 기술(description)이라는 측면
에서 도서관의 목록 레코드를 메타데이터로 보는 관점
 1965년 LC MARC로 출발, USMARC로 개정
 MARC는 1971년에는 ANSI Z39.2, 1973년에는 ISO 2709로 채택
 USMARC -> CANMARC, UKMARC, KORMARC 등
 1999년 USMARC과 CANMARC이 통합되면서 MARC21

간결성, 효율성, 표현력, 융통성에서 제한적이고, 인증 데이터,
네트워크 환경 등을 반영하지 못하며, 구조가 복잡함.
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(2/8)

MARC 레코드 사례
리더
Leader
Control No.
Control No. ID
DTLT
Fixed Data
LCCN
ISBN
제어필드
Title
데이터
필드
2004-11-19
Variant Title
Edition
Publication
01041cam 2200265 a 4500
001 ###89048230#/AC/r91
003 DLC
005 19911106082810.9
008 891101s1990 maua j
001 0 eng
010 ## $a ###89048230
020 ## $a 0316107514 :
$c $12.95
245 10 $a Make the team.
$p Soccer :
$b a heads up guide to super soccer! /
$c Richard J. Brenner.
246 30 $a Heads up guide to super soccer
250 ## $a 1st ed.
260 ## $a Boston :
$b Little, Brown,
$c c1990.
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(3/8)

DC(Dublin Core)

모든 네트워크 자원을 기술하려는 시도로, 확장성, 구문 독
립성, 선택성, 수정가능성 등의 기준에 따라 누구나 쉽게 작
성하도록 15개의 데이터 기술 요소만 제안
 1995년 3월 OCLC와 NCSA가 Dublin 워크숍에서 시작
 2000년 7월 한정어(Canberra Qualifier)의 도입
 2002년 2월 DCMI는 Dublin Core Metadata Element Set,
v.1.1를 발표 이래 세계 각국 표준으로 채택: CWA 13874,
ANSI/NISO Z39.85, UK e-Government, ISO 15836:2003

너무 단순해서 디지털도서관용으로는 제한적임.
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(4/8)

DC 15개 기본 요소
Subject
자원의 주제나 그 내용을 기술하는 키워드 혹은 구절
Creator
자원의 내용에 책임을 진 개인이나 단체(예: 저자)
Title
creator나 publisher가 자원에 부여한 제목
Publisher
자원을 현재의 형태로 이용 가능하게 만든 실체(예: 출판사)
Contributor
저자 이외의 기여한 인물이나 기관(예: 번역자)
Date
자원이 현재 형태로 가능하게 된 날짜
Type
자원의 범주나 장르(예: 기술보고서)
Format
자원의 데이터 표현 형식(예: ASCII)
Identifier
자원을 고유하게 식별할 수 있는 문자열이나 숫자(예: URL)
Relation
다른 자원과의 관계.(예: chapters in a book)
Sources
해당 자원의 출처가 된 정보자원
Language
자원의 내용을 기술한 언어(예: 영어)
Coverage
자원의 지리적, 시간적 특성을 나타내는 요소
Description
요약 정보를 포함한 자원의 내용에 관한 정보(예: 초록)
Rights
2004-11-19
저작권의 사용 권한에 관한 내용
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(5/8)

ONIX (ONine Information eXchange) International

인쇄책, 전자책, CD, DVD 등을 포함하는 다양한 미디어 제품에
대한 유통 메타데이터
 Amazon.com, Wiley, Cambridge University Press 등에서 사용. 미국/영
국 70여개 기관 회원
 250여개 element; 매우 상세한 명세로 주관적 해석이 개입될 여부가
없음. 예)<title>에 대한 사항이 6-7개
 현재 Version 2.1

IT 산업에 필요한 정보 제공
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(6/8)

ONIX의 구조 예
자료: 이창열, “ONIX 메타데이터 체계와 구현”, KISTI 내부세미나, 2004
……………
<?xml version="1.0"?>
Product(제품)
<Product>
<!DOCTYPE ONIXmessage SYSTEM
<RecordReference>1234567890</RecordReference>
"http://www.editeur.org/onix/2.0/short/onix-international.dtd">
<NotificationType>03</NotificationType>
<ONIXmessage>
<ISBN>0816016356</ISBN>
<header> ... </header>
<ProductForm>BB</ProductForm>
<product> ... </product>
<DistinctiveTitle>British English, A to Zed</DistinctiveTitle>
<product> ... </product>
...
<Contributor>
</ONIXmessage>
<ContributorRole>A01</ContributorRole>
<ONIXmessage>
<PersonNameInverted>Schur,Norman W</PersonNameInverted>
Header(메시지)
<BiographicalNote>A Harvard graduate in …· </BiographicalNote>
<header>
</Contributor>
<FromCompany>www.deu.ac.kr</FromCompany>
<FromPerson>[email protected]</FromPerson>
:
:
:
<ToCompany>EDItEUR</ToCompany>
<ToPerson>David Martin</ToPerson>
<MessageNumber>1213</MessageNumber> <BASICMainSubject>REF008000</BASICMainSubject>
<SentDate>2004070161330</SentDate>
<PublicationDate>1987</PublicationDate>
<MessageNote>샘플 자료를 보냅니다.</MessageNote>
<Height>9.25</Height>
<DefaultLanguageOfText>kor</DefaultLanguageOfText>
<Width>6.25</Width>
</header>
<Thickness>1.2</Thickness>
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(7/8)

MODS (Metadata Object Description Schema)

MARC, DC, ONIX, IMS, TEI등을 절충하여 상호운용성과 정
밀성을 모두 만족시킨 디지털도서관 영역의 범용 서지정보
표준 메타데이터
 2002년 7월 Library of Congress가 공식발표 (현재 버전3.0)
 MARC-compatible: MARC필드의 일부분 포함, 언어형식의 태
그 사용
 XML schema 기반: MARC 21의 축약형 XML 버전 (MARCXML)
 19개의 상위요소와 64개의 하위요소

METS (Metadata Encording and Transmission Standard)
와 함께 사용됨으로써 디지털도서관의 요구에 부합
자료: 이수상, “MODS-디지털 도서관의 서지정보 표준 메타데이터”, KISTI 내부세미나, 2004
2004-11-19
디지털도서관 컨퍼런스
2. 디지털도서관을 위한 메타데이터
주요 문헌정보 메타데이터(8/8)

MODS의 상위 메타데이터 요소
요소
기술내용
요소
기술내용
Titleinfo
제목관련정보
note
주기
name
자원의 책임자,기여자
subject
주제 및 주제관련키워드
typeOfResource
자원의 범주
classification
자원의 분류정보
genre
자원의 유형
relateditem
관련된 자원
origininfo
출판자 정보와 날짜정보
identifier
자원 식별자
language
자원 기술 언어
location
자원접근정보
physicalDescription
자원의 데이터표현형식
accessCondition
저작권관련내용
abstract
초록
extension
확장요소
tableOfContents
목차
recordinfo
레코드정보
targetAudence
자원이용자
-
-
자료: R. Gartner, MODS: Metadata Object description Schema, Libraries and the Academy. Vol. 3. No. 1., 2003
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
메타데이터의 상호운용성(1/4)

메타데이터 상호운용성 정의와 방법

정의: 서로 다른 메타데이터를 사용하는 시스템들이 각각의
메타데이터를 이해할 수 있는 능력(ALCTS 1998)
 상호 운용성의 3요소: 구문, 구조, 의미
 다양한 메타데이터 표준의 혼재로 상호운용 필요성 제기

방법:
 하나의 메타데이터로 통합: MARC21, MODS
 다양한 메타데이터 인정: Crosswalk, RDF
 메타데이터 레지스트리: ISO/IEC 11179
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
메타데이터의 상호운용성(2/4)

상호참조 테이블(Crosswalk) 방법

USMARC과 DC,TEI, EAD의 매핑 테이블, DC와 다른 메타데이
터 형식과의 참조 테이블, 공통 메타데이터 기술집합과의 매핑
 http://ukoln.bath.ac.uk/metadata/interoperability/ 참조

문제점
 의미상의 일치를 위해서는 전문가의 지적 능력이 필요
 메타데이터의 잦은 수정으로 인한 유지관리의 부담
 정확한 1:1 대응이 되지 않는 부분
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
메타데이터의 상호운용성(3/4)

범용적 메타데이터 통합 구조

공존하는 다양한 메타데이터 형식의 상호운용성 지원
 W3C에서 개념적인 차원의 통합 구조인 RDF를 개발, 구현
RDF
스미카 1
DC
의미
스미카 1
MARC
Metadata Initiatives
구문
XML
XML
namespace
스미카 1
관리메타데이터
구조
RDF 모델
http://www.w3.org/RDF/ 참조
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
메타데이터의 상호운용성(4/4)

메타데이터 레지스트리(MDR) 방법

Registration Authority
통제적인 방법로서 ISO/IEC
JTC1/SC32에서 표준화
Executive Committee
 메타데이터 작성 지침 제공
Registrar
Control Committee
 데이터 요소(메타데이터)의 생성,
등록, 관리를 지원함으로써 시스
Responsible Organization
Stewards
템들 또는 조직들간의 정보 공유
를 지원
 http://metadata-
Metadata Registry
Submitting Organization
stds.org/11179/ 참조
Submitters
Read-only Users
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
MDR에 의한 메타데이터 표준화(1/5)

기술위원회
디지털도서관의 메타데이
터 표준화 개념
표준화 실무작업반
메타데이터
표준개발요청
DL-MDR
메타데이터
참조
정보개발자
정보개발자
정보개발자
2004-11-19
표준 메타데이터 적용
DB
DB
DB
디지털도서관 컨퍼런스
검색
정보이용자
3. 메타데이터 표준화 전략
MDR에 의한 메타데이터 표준화(2/5)

MDR의 활용체계와 효과
공공도서관
DB
DB
DB
국회도서관
국립중앙도서관
해당 분야의
메타데이터 제공
MDR
각 기관의
정보제작 담당자
정기교육
데이터베이스
설계 제공
데이터베이스
품질 평가
과학기술도서관
KISTI
………
메타데이터
표준 및
DB
DB
DB
고품질의
일관성 있는
정보 수집
제작 지침에
의학도서관
따라
데이터베이스
의학도서관
………
구축
DB
DB
DB
………….
:
……………..
2004-11-19
디지털도서관 컨퍼런스
DB
DB
DB
정보
이용자
3. 메타데이터 표준화 전략
MDR에 의한 메타데이터 표준화(3/5)

요구되는 제도적 장치
정보화
사업계획
정보
표준화
의뢰
사업
수행
정보
표준화
평가
사업
완료
기술위원회
표준화 실무작업반
2004-11-19
디지털도서관 컨퍼런스
DL-MDR
3. 메타데이터 표준화 전략
MDR에 의한 메타데이터 표준화(4/5)

KISTI의 사례
http://isv.kisti.re.kr/mdr/참조
사용자 인터페이스 개발
사용자 관리 도구
스키마 셋 관리 도구
데이터 요소 관리 도구
(스키마 셋 제안, 스키마 셋 투표,
(요소 기본 관리, 요소 상태, 평
스키마 셋 관리)
가 및 이력, 요소 버전 관리, 데
이터 요소 개념 관리, 개념 도메
기관 정보 관리 도구
인 관리, 객체 클래스 관리)
MDR 기본 기능 (등록, 평가 및 요소 표준화 기능)
2004-11-19
디지털도서관 컨퍼런스
3. 메타데이터 표준화 전략
MDR에 의한 메타데이터 표준화(5/5)

KISTI의 사례
Division
Administrator
MetaData Repository
Super
Administrator
분야별 MDR
과학기술분야
MDR
산업기술분야
MDR
....
....
Common Format
정보통신분야
MDR
교육분야
MDR
•과학 기술 분야
•산업 기술 분야
Control
Committee
•정보 통신 분야
•교육 분야
.
.
.
Registrar
Committee
Steward
….
General
User
2004-11-19
General
User
General
User
디지털도서관 컨퍼런스
분야별
데이터베이스
Submitter
Thank You
연락처: [email protected]
제 2회 메타데이터 표준화 세미나
더 자세한
내용을 알려면…
2004-11-19
일시
2004년 12월 10일 (금요일) 09:30 ~ 17:30
장소
과학기술단체총연합회관 중강당(약도 참조)
디지털도서관 컨퍼런스