Metadane w polskich bibliotekach cyfrowych

Download Report

Transcript Metadane w polskich bibliotekach cyfrowych

Metadane w polskich bibliotekach cyfrowych

Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009

1

Polskie biblioteki cyfrowe

42 w Federacji Bibliotek Cyfrowych – FBC – „serwis ten jest zbiorem zaawansowanych usług sieciowych opartych na zasobach cyfrowych dostępnych w polskich bibliotekach cyfrowych i repozytoriach uruchomionych w sieci PIONIER”.

• inne (biblioteki cyfrowe (PGd, ABI), prezentacje internetowe zdigitalizowanych obiektów (BUJ, KUL)) • zasoby: – FBC – dostępnych ponad 300 tysięcy obiektów cyfrowych – zdigitalizowane zbiory bibliotek, archiwów, muzeów, ośrodków badawczych oraz kolekcje prywatne – dokumenty „born digital” 2

Metadane - dlaczego analiza?

• jedno miejsce dostępu do metadanych (FBC) • przekazywanie metadanych do zagranicznych serwisów (m.in. Europeana) • dostęp do informacji (użytkownicy) • środowisko / warsztat pracy bibliotekarzy cyfrowych (w kontekście tworzenia metadanych): – standardy – schematy – praktyka 3

Metadane - analiza

• Biblioteki cyfrowe dostępne w FBC* – 40 bibliotek cyfrowych (pominięto PBI oraz planowaną Morską Bibliotekę Cyfrową) • Analiza: wrzesień – październik 2009 r.

• Wykonanie: Agnieszka Wróbel (BUW), Joanna Potęga (BN) * pobieranie metadanych przy pomocy protokołu metadanych OAI-PMH w wersji 2.0. - niezależne od stosowanych standardów tworzenia 4

Metadane - analiza

• Podstawa opisu (dla materiałów digitalizowanych): – Kopia cyfrowa dokumentu oryginalnego (cechy formalne dok. analogowego wraz z informacjami chrakterystycznymi dla dokumentu cyfrowego) - 36 – Rozróżnienie wydawcy i dat wyd. (dok. oryg., dok. cyfrowego) - 3 – Nowy dokument elektroniczny - 1Standardy: – Dublin Core - 38* – MARC 21 - 1 – Własny - 1 * Oprogramowanie: 37 – dLibra 2 – własne 5 1 – VTLS/Virtua

The Dublin Core Metadata Element Set, Ver. 1.1

Zawartość

Content Tytuł (Title) Temat (Subject) Opis (Description) Źródło (Source) Język (Language) Relacja (Relation)

Miejsce i czas

(Zakres / zasięg Coverage)

Własność intelektualna

Intellectual property

Twórca (Creator) Wydawca

(Publisher)

Współtwórca

(Contributor) Prawa (Right)

Dookreślenie

Instantiation

Data (Date)

Typ (Type) Format (Format) –

Identyfikator

(Identifer) 6

Element Title Creator Subject Nazwa elementu

Tytuł - 37 Tytuł(y) - 1 Autor - 35 Twórca - 3

Dodatkowe wystąpienie (nazwa elementu)

Tytuły - 1 Inny tutuł - 2 Wariant tytułu - 2 Tytuł oryginału- 1 Podtytuł - 2 Gatunek sceniczny - 1 Miejsce powstania - 1 Data powstania - 1

Wartości

Tytuły właściwe (z podtytułami lub bez zapisywanymi w róznych konwencjach); tytuły czasopism (numeracja) ; cBN Polona tutył właściw i ozn. wyd. i/lub aders wydaw. Konsekwencja w składni: nazwisko, imie, ale braki w dopowiedzeniach (daty biograficzne) dla tej samej osoby Temat i słowa kluczowe - 31 Słowa kluczowe - 2 Hasło przedmiotowe - 2 Hasło przedmiotowe KABA - 1 Dziedzina – 1 Brak - 1 Hasło przedmiotowe - 4 Słowa kluczowe - 1 Słowa kluczowe użytkowników - 1 7

Element Nazwa elementu Description

Opis - 33 Adnotacje [uwagi] - 2 Uwagi – 2 Brak - 1

Dodatkowe wystąpienie (nazwa elementu)

Wymiary - 1 Abstrakt - 1 Komentarz - 1

Wartości

Informacje o innych tytułach, oznaczenie wydania, opis fizyczny, informacje o streszczeniu, defektach, liczbie skanów

Publisher Contributor Date Type

Wydawca - 36 Wydawca/Drukarz - 1 Wydanie oryginalne - 1 Współtwórca - 38 Data wydania - 37 Data wydania oryg. - 1 Typ zasobu - 32 Typ dokumentu - 2 Typ źródła - 1 Rodzaj dokumentu - 1 Typ publikacji – 1

Brak - 1

Miejsce wydania - 20 Drukarz - 2 Instytucja sprawcza - 1 Data druku - 1 Miejsce wydania - 1 W elemencie nazwanym „Wydawca” też informacje o miejscu wyd. (część adresu wydawniczego) Różne sposoby zapisu dopowiedzeń (Wyd., Wydaw. lub ich brak) Spotykany zapis: 1999

(wyd. oryg.) ; 2008 (wyd. cyfrowe)

Określenie typu dokumentu oryginalnego ; 631 różnych określeń – rekordowa liczba ; czasopismo - czasopisma 8

Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu) Wartości Format Identifier Source Language

Format 36 Format elektroniczny – 1 Brak - 1 Identyfikator zasobu - 34 Identyfikator - 1 Identyfikator dokumentu cyfrowego - 1 Identyfikator publikacji – 1 URL - 1 ISBN - 2 ISSN - 2 Sygnatura oryginału - 1 Identyfikator obiektu cyfrowego - 2 Identyfikator oryginału - 3 Źródło (32) Źródło- sygn. oryginału (1) Sygnatura (1) Sygnatura oryginału (1) ; Dokument oryg. (1) Brak – 2 Język – 37 Brak - 1 Uwagi ; Współoprawny z ; Powiązania ; Prowieniencja ; Linki (wszystkie wystąpienia w 1 BC) Format pliku cyfrowego zamieszczonego w BC Nadawany automatycznie identyfikator OAI, ale też: sygnatura obiektu oryginalnego, przekierowania do opisu katalogowego, numery ISBN, ISSN Instytucja przechowujca obiekt oryginalny, Różne sposoby zapisu informacji o jezyku treści (pol ; polski 9

Element Relation Coverage Rights Nazwa elementu

Powiązania - 36 Seria [cykl] - 1 Brak - 1 Zakres - 37 Brak – 1 Prawa - 36 Prawa do dysponowania publikacją - 1 Brak - 1

Dodatkowe wystąpienie (nazwa elementu)

Katalog GAIK - 1 OPAC WWW kat. online - 1 Seria - 1

Wartości

Informacje o serii, związki z innymi tytułami, ale też: sygnatury wersji MF, płyt DVD Element choć wystepuje w schemacie, to jest praktycznie niewykorzystywany – pojawiają się pojedyncze wartości, np. informacje o zastosowanej skali mapy ; w jednej z BC informacja o trybie dostępu Prawa do dysponowania publikacją - 1 Licencja - 2 Treść licencji- 1 Tekst - 1 Lokalizacja - 1 Lokalizacja oryginału - 2 Konatakt - 1 Digitalizacja - 2 Sygnatura - 1 Zespół archiwalny - 1 Sygn. - 1 Informacje o miejscu przechowywania oryginału, informacja o właścicielu autorskich praw majątkowych, warunkach udostępniania (przekierowania do treści licencji, regulaminów), informacje o tyrbie dostępu (o ograniczeniach w dostępie do obiektu) 10

Elementy poza DC (rożne nazwy, ale równoważne informacje) Interpretacja / Wartości Wariant tytułu - 1 Tytuł w języku angielskim - 1 Wydanie - 1 Miejsce wydania - 4 Opis fizyczny - 1 Seria (1)

Tłumaczenie tytułu przez BC Informacja o oznaczeniu wydania

Tagi - 27 Słowa kluczowe użytkowników - 1 Uwagi - 5 Adnotacje - 1 Inf. tech. - 1

Wyrażenia w języku naturalnym opisujące tematykę zasobu nadawane przez użytkowników Dotyczące oryginału (braki, defekty), dotyczące obiektu cyfrowego (jakości), informacje o powiązaniach (tytuł poprzedni) 11

Elementy poza DC (rożne nazwy, ale równoważne informacje) Interpretacja / Wartości Numer zespołu archiwalnego - 2 Nazwa zespołu archiwalnego - 1 Uwagi archiwistów - 1 Identyfikator obiektu cyfrowego - 2 Identyfikator oryginału - 1 Sygnatura BCPW - 1 Sygnatura oryginalna – 1

Numer identyfikacyjny nośnika? (płyty?) Sygnatury obiektu analogowego

Lokalizacja oryginału- 5 Lokalizacja źródła - 2 OPAC - 1 WebOPAC BN - 1 Pełny opis katalogowy - 1

Informacja o instytucji przechowującej obiekt Przekierowanie do opisu w katalogu komputerowym 12 Link do publikacji w innej BC

Elementy poza DC (rożne nazwy, ale równoważne informacje) Digitalizacja - 6 Reprodukcja cyfrowa - 1 Sponsor digitalizacji - 2 WWW - 1 Publikacja - 1 Tryb dostępu - 1 Strona wydawcy - 1 Interpretacja / Wartości

Informacje o wykonawcy digitalizacji WWW – przekierowanie do strony www sponsora digitalizacji Informacja o instytucji umieszczającej obiekt w BC (informacja głownie wykorzystywana do celów statystycznych w danej BC – tam, gdzie BC jest współtworzona przez wiele instytucji Informacja o ograniczeniu w dostepie do siedziby jednostki Przekierowanie do strony internetowej wydawcy 13

Metadane w polskich BC

• BC nie jest katalogiem bibliotecznym • znaczna dowolność przy wpisywaniu danych – większa elastyczność i intuicyjność danych (dla użytkownika, ale w konsekwencji: szum informacyjny) – brak wsparcia takiego jakie daje KHW w katalogach • brak słowników kontrolowanych dla poszczególnych atrybutów (Indeks autorów/twórców, Indeks słów kluczowych) 15

Metadane w polskich BC

• różnice w interpretacji poszczególnych elementów DC (przy zachowaniu jednorodengo nazewnictwa elementów) • nierównoważne informacje w tym samym elemencie • informacja tego samego typu w wielu różnych elementach • przypadki umieszczania wielu wartości w jednym elemencie jako ciągłego tekstu (brak powtórzeń elementu – brak możliwości wyszukiwania po wartości) • umieszczanie wielu informacji poza DC – lokalność informacji 16

Metadane w polskich BC

Czynniki wpływające na jakość: • różnorodność zasobów i ich specyfika • różnorodność praktyk katalogowych instytucji współtworzących BC (także w BC konsorcyjnych) • mechanizmy tworzenia metadanych przez bibliotekarzy / redaktorów cyfrowych (ankieta październik/listopad 2009): 41 bibliotek – 29 odpowiedzi): - tylko import bez ingerencji w dane – 1 - tylko import z ingerencją w dane – 3 - import i też samodzielne tworzenie opisów – 10 - samodzielne tworzenie opisów - 14 17

Metadane w polskich BC

• Import – dane wyjściowe: – MARC21 – 12 (+1 w przygotowaniu) – MARC – 1 – MARC BN – 1 – MASTER – 1 (plany) • Zalecenia do tworzenia opisów: – TAK – 27 – NIE – 2 • Tylko zalecenia ogóle – 15 • Tylko zalecenia szczegółowe – 8 • Ogólne ze wskazówkami opisu dla poszczególnych typów dokumentów - 4 18

Federacja Bibliotek Cyfrowych

• Wyszukiwanie – dane wyłącznie z 15 elementów DC • Możliwość rozszerzenia protokołu OAI o dodatkowe elementy (pod warunkiem ujednoliconego schematu)

FBC:

„ Zróżnicowanie tych opisów jest dla nas przeszkodą: - w realizowaniu nowych zaawansowanych funkcji dla czytelników - realizowaniu nowych zaawansowanych funkcji dla twórców bibliotek cyfrowych - przekazywaniu metadanych obiektów z polskich bibliotek cyfrowych do zagranicznych serwisów”* * Adam Dudczak, Marcin Werla Warsztaty nt. Opracowania zasobów bibliotek cyfrowych, Gniezno 6-8 września 2009 r.

19

Europeana – poziomy wymagań

Absolutne minimum: – Unikalny i trwały identyfikator obiektu cyfrowego (URL, link do obiektu - isShwonBy i/lub isShownAt) • Minimum (z wykorzystaniem uszczegółowień) – KTO (dc:creator, dc:contributor itp.) – CO (dc:title, europeana:type, dc:language itp.) – KIEDY (dc:date itp.) – GDZIE (dcterms:spatial itp.) • Zwiększenie możliwości dostępu do obiektu: - Rights, Provenance, Format, Relation itp… 20

Europeana Semantic Elements (ESE) 1. E lementy Dublin Core

• • • • • • • • •

Title

• Alternative

Creator Subject Description

• TableofContents

Publisher Contributor Date

• Created • Issued

Type Format

• Extent • Medium • • • • •

Identifier Source Language

• •

Relation

• isVersionOf; hasVersion; • • • • • • isReplacedBy;replaces; isRequiredBy; requires; isPartOf; hasPart; isReferencedBy;references; isFormatOf; hasFormat; conformsTo

Coverage

• Spatial • Temporal

Rights Provenance

(dcterms) 21 Elementy DC: rekomendowane ; zalecane ; dodatkowe

Europeana Semantic Elements (ESE) 2. E lementy Europeana

Language – język kraju dostawcy obiektu • Country – kraj dostawcy treści • Provider – dostawca obiektu • Year – rok związany z obiektem (Time Line) • Type – typ obiektu (wg Europeana: Text, Image, Video, Sound) • HasObject – czy jest dostępna „miniaturka” • Object – link do „miniaturki” • Unstored – wszystko czego nie udało się przemapować • Usertag – tagi użytkowników • URI – unikalny identyfikator obiektu • isShownAt – link do obiektu w pełnym kontekście informacji • isShownBy – link do obiektu w najlepszej jakości 22

Metadane w polskich bibliotekach cyfrowych

„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009

23

Dziękuję za uwagę

Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009

24