Transcript Metadane w polskich bibliotekach cyfrowych
Metadane w polskich bibliotekach cyfrowych
Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009
1
Polskie biblioteki cyfrowe
• 42 w Federacji Bibliotek Cyfrowych – FBC – „serwis ten jest zbiorem zaawansowanych usług sieciowych opartych na zasobach cyfrowych dostępnych w polskich bibliotekach cyfrowych i repozytoriach uruchomionych w sieci PIONIER”.
• inne (biblioteki cyfrowe (PGd, ABI), prezentacje internetowe zdigitalizowanych obiektów (BUJ, KUL)) • zasoby: – FBC – dostępnych ponad 300 tysięcy obiektów cyfrowych – zdigitalizowane zbiory bibliotek, archiwów, muzeów, ośrodków badawczych oraz kolekcje prywatne – dokumenty „born digital” 2
Metadane - dlaczego analiza?
• jedno miejsce dostępu do metadanych (FBC) • przekazywanie metadanych do zagranicznych serwisów (m.in. Europeana) • dostęp do informacji (użytkownicy) • środowisko / warsztat pracy bibliotekarzy cyfrowych (w kontekście tworzenia metadanych): – standardy – schematy – praktyka 3
Metadane - analiza
• Biblioteki cyfrowe dostępne w FBC* – 40 bibliotek cyfrowych (pominięto PBI oraz planowaną Morską Bibliotekę Cyfrową) • Analiza: wrzesień – październik 2009 r.
• Wykonanie: Agnieszka Wróbel (BUW), Joanna Potęga (BN) * pobieranie metadanych przy pomocy protokołu metadanych OAI-PMH w wersji 2.0. - niezależne od stosowanych standardów tworzenia 4
Metadane - analiza
• Podstawa opisu (dla materiałów digitalizowanych): – Kopia cyfrowa dokumentu oryginalnego (cechy formalne dok. analogowego wraz z informacjami chrakterystycznymi dla dokumentu cyfrowego) - 36 – Rozróżnienie wydawcy i dat wyd. (dok. oryg., dok. cyfrowego) - 3 – Nowy dokument elektroniczny - 1 • Standardy: – Dublin Core - 38* – MARC 21 - 1 – Własny - 1 * Oprogramowanie: 37 – dLibra 2 – własne 5 1 – VTLS/Virtua
The Dublin Core Metadata Element Set, Ver. 1.1
Zawartość
Content Tytuł (Title) Temat (Subject) Opis (Description) Źródło (Source) Język (Language) Relacja (Relation)
Miejsce i czas
(Zakres / zasięg Coverage)
Własność intelektualna
Intellectual property
Twórca (Creator) Wydawca
(Publisher)
Współtwórca
(Contributor) Prawa (Right)
Dookreślenie
Instantiation
Data (Date)
Typ (Type) Format (Format) –
Identyfikator
(Identifer) 6
Element Title Creator Subject Nazwa elementu
Tytuł - 37 Tytuł(y) - 1 Autor - 35 Twórca - 3
Dodatkowe wystąpienie (nazwa elementu)
Tytuły - 1 Inny tutuł - 2 Wariant tytułu - 2 Tytuł oryginału- 1 Podtytuł - 2 Gatunek sceniczny - 1 Miejsce powstania - 1 Data powstania - 1
Wartości
Tytuły właściwe (z podtytułami lub bez zapisywanymi w róznych konwencjach); tytuły czasopism (numeracja) ; cBN Polona tutył właściw i ozn. wyd. i/lub aders wydaw. Konsekwencja w składni: nazwisko, imie, ale braki w dopowiedzeniach (daty biograficzne) dla tej samej osoby Temat i słowa kluczowe - 31 Słowa kluczowe - 2 Hasło przedmiotowe - 2 Hasło przedmiotowe KABA - 1 Dziedzina – 1 Brak - 1 Hasło przedmiotowe - 4 Słowa kluczowe - 1 Słowa kluczowe użytkowników - 1 7
Element Nazwa elementu Description
Opis - 33 Adnotacje [uwagi] - 2 Uwagi – 2 Brak - 1
Dodatkowe wystąpienie (nazwa elementu)
Wymiary - 1 Abstrakt - 1 Komentarz - 1
Wartości
Informacje o innych tytułach, oznaczenie wydania, opis fizyczny, informacje o streszczeniu, defektach, liczbie skanów
Publisher Contributor Date Type
Wydawca - 36 Wydawca/Drukarz - 1 Wydanie oryginalne - 1 Współtwórca - 38 Data wydania - 37 Data wydania oryg. - 1 Typ zasobu - 32 Typ dokumentu - 2 Typ źródła - 1 Rodzaj dokumentu - 1 Typ publikacji – 1
Brak - 1
Miejsce wydania - 20 Drukarz - 2 Instytucja sprawcza - 1 Data druku - 1 Miejsce wydania - 1 W elemencie nazwanym „Wydawca” też informacje o miejscu wyd. (część adresu wydawniczego) Różne sposoby zapisu dopowiedzeń (Wyd., Wydaw. lub ich brak) Spotykany zapis: 1999
(wyd. oryg.) ; 2008 (wyd. cyfrowe)
Określenie typu dokumentu oryginalnego ; 631 różnych określeń – rekordowa liczba ; czasopismo - czasopisma 8
Element Nazwa elementu Dodatkowe wystąpienie (nazwa elementu) Wartości Format Identifier Source Language
Format 36 Format elektroniczny – 1 Brak - 1 Identyfikator zasobu - 34 Identyfikator - 1 Identyfikator dokumentu cyfrowego - 1 Identyfikator publikacji – 1 URL - 1 ISBN - 2 ISSN - 2 Sygnatura oryginału - 1 Identyfikator obiektu cyfrowego - 2 Identyfikator oryginału - 3 Źródło (32) Źródło- sygn. oryginału (1) Sygnatura (1) Sygnatura oryginału (1) ; Dokument oryg. (1) Brak – 2 Język – 37 Brak - 1 Uwagi ; Współoprawny z ; Powiązania ; Prowieniencja ; Linki (wszystkie wystąpienia w 1 BC) Format pliku cyfrowego zamieszczonego w BC Nadawany automatycznie identyfikator OAI, ale też: sygnatura obiektu oryginalnego, przekierowania do opisu katalogowego, numery ISBN, ISSN Instytucja przechowujca obiekt oryginalny, Różne sposoby zapisu informacji o jezyku treści (pol ; polski 9
Element Relation Coverage Rights Nazwa elementu
Powiązania - 36 Seria [cykl] - 1 Brak - 1 Zakres - 37 Brak – 1 Prawa - 36 Prawa do dysponowania publikacją - 1 Brak - 1
Dodatkowe wystąpienie (nazwa elementu)
Katalog GAIK - 1 OPAC WWW kat. online - 1 Seria - 1
Wartości
Informacje o serii, związki z innymi tytułami, ale też: sygnatury wersji MF, płyt DVD Element choć wystepuje w schemacie, to jest praktycznie niewykorzystywany – pojawiają się pojedyncze wartości, np. informacje o zastosowanej skali mapy ; w jednej z BC informacja o trybie dostępu Prawa do dysponowania publikacją - 1 Licencja - 2 Treść licencji- 1 Tekst - 1 Lokalizacja - 1 Lokalizacja oryginału - 2 Konatakt - 1 Digitalizacja - 2 Sygnatura - 1 Zespół archiwalny - 1 Sygn. - 1 Informacje o miejscu przechowywania oryginału, informacja o właścicielu autorskich praw majątkowych, warunkach udostępniania (przekierowania do treści licencji, regulaminów), informacje o tyrbie dostępu (o ograniczeniach w dostępie do obiektu) 10
Elementy poza DC (rożne nazwy, ale równoważne informacje) Interpretacja / Wartości Wariant tytułu - 1 Tytuł w języku angielskim - 1 Wydanie - 1 Miejsce wydania - 4 Opis fizyczny - 1 Seria (1)
Tłumaczenie tytułu przez BC Informacja o oznaczeniu wydania
Tagi - 27 Słowa kluczowe użytkowników - 1 Uwagi - 5 Adnotacje - 1 Inf. tech. - 1
Wyrażenia w języku naturalnym opisujące tematykę zasobu nadawane przez użytkowników Dotyczące oryginału (braki, defekty), dotyczące obiektu cyfrowego (jakości), informacje o powiązaniach (tytuł poprzedni) 11
Elementy poza DC (rożne nazwy, ale równoważne informacje) Interpretacja / Wartości Numer zespołu archiwalnego - 2 Nazwa zespołu archiwalnego - 1 Uwagi archiwistów - 1 Identyfikator obiektu cyfrowego - 2 Identyfikator oryginału - 1 Sygnatura BCPW - 1 Sygnatura oryginalna – 1
Numer identyfikacyjny nośnika? (płyty?) Sygnatury obiektu analogowego
Lokalizacja oryginału- 5 Lokalizacja źródła - 2 OPAC - 1 WebOPAC BN - 1 Pełny opis katalogowy - 1
Informacja o instytucji przechowującej obiekt Przekierowanie do opisu w katalogu komputerowym 12 Link do publikacji w innej BC
Elementy poza DC (rożne nazwy, ale równoważne informacje) Digitalizacja - 6 Reprodukcja cyfrowa - 1 Sponsor digitalizacji - 2 WWW - 1 Publikacja - 1 Tryb dostępu - 1 Strona wydawcy - 1 Interpretacja / Wartości
Informacje o wykonawcy digitalizacji WWW – przekierowanie do strony www sponsora digitalizacji Informacja o instytucji umieszczającej obiekt w BC (informacja głownie wykorzystywana do celów statystycznych w danej BC – tam, gdzie BC jest współtworzona przez wiele instytucji Informacja o ograniczeniu w dostepie do siedziby jednostki Przekierowanie do strony internetowej wydawcy 13
Metadane w polskich BC
• BC nie jest katalogiem bibliotecznym • znaczna dowolność przy wpisywaniu danych – większa elastyczność i intuicyjność danych (dla użytkownika, ale w konsekwencji: szum informacyjny) – brak wsparcia takiego jakie daje KHW w katalogach • brak słowników kontrolowanych dla poszczególnych atrybutów (Indeks autorów/twórców, Indeks słów kluczowych) 15
Metadane w polskich BC
• różnice w interpretacji poszczególnych elementów DC (przy zachowaniu jednorodengo nazewnictwa elementów) • nierównoważne informacje w tym samym elemencie • informacja tego samego typu w wielu różnych elementach • przypadki umieszczania wielu wartości w jednym elemencie jako ciągłego tekstu (brak powtórzeń elementu – brak możliwości wyszukiwania po wartości) • umieszczanie wielu informacji poza DC – lokalność informacji 16
Metadane w polskich BC
Czynniki wpływające na jakość: • różnorodność zasobów i ich specyfika • różnorodność praktyk katalogowych instytucji współtworzących BC (także w BC konsorcyjnych) • mechanizmy tworzenia metadanych przez bibliotekarzy / redaktorów cyfrowych (ankieta październik/listopad 2009): 41 bibliotek – 29 odpowiedzi): - tylko import bez ingerencji w dane – 1 - tylko import z ingerencją w dane – 3 - import i też samodzielne tworzenie opisów – 10 - samodzielne tworzenie opisów - 14 17
Metadane w polskich BC
• Import – dane wyjściowe: – MARC21 – 12 (+1 w przygotowaniu) – MARC – 1 – MARC BN – 1 – MASTER – 1 (plany) • Zalecenia do tworzenia opisów: – TAK – 27 – NIE – 2 • Tylko zalecenia ogóle – 15 • Tylko zalecenia szczegółowe – 8 • Ogólne ze wskazówkami opisu dla poszczególnych typów dokumentów - 4 18
Federacja Bibliotek Cyfrowych
• Wyszukiwanie – dane wyłącznie z 15 elementów DC • Możliwość rozszerzenia protokołu OAI o dodatkowe elementy (pod warunkiem ujednoliconego schematu)
FBC:
„ Zróżnicowanie tych opisów jest dla nas przeszkodą: - w realizowaniu nowych zaawansowanych funkcji dla czytelników - realizowaniu nowych zaawansowanych funkcji dla twórców bibliotek cyfrowych - przekazywaniu metadanych obiektów z polskich bibliotek cyfrowych do zagranicznych serwisów”* * Adam Dudczak, Marcin Werla Warsztaty nt. Opracowania zasobów bibliotek cyfrowych, Gniezno 6-8 września 2009 r.
19
Europeana – poziomy wymagań
• Absolutne minimum: – Unikalny i trwały identyfikator obiektu cyfrowego (URL, link do obiektu - isShwonBy i/lub isShownAt) • Minimum (z wykorzystaniem uszczegółowień) – KTO (dc:creator, dc:contributor itp.) – CO (dc:title, europeana:type, dc:language itp.) – KIEDY (dc:date itp.) – GDZIE (dcterms:spatial itp.) • Zwiększenie możliwości dostępu do obiektu: - Rights, Provenance, Format, Relation itp… 20
Europeana Semantic Elements (ESE) 1. E lementy Dublin Core
• • • • • • • • •
Title
• Alternative
Creator Subject Description
• TableofContents
Publisher Contributor Date
• Created • Issued
Type Format
• Extent • Medium • • • • •
Identifier Source Language
• •
Relation
• isVersionOf; hasVersion; • • • • • • isReplacedBy;replaces; isRequiredBy; requires; isPartOf; hasPart; isReferencedBy;references; isFormatOf; hasFormat; conformsTo
Coverage
• Spatial • Temporal
Rights Provenance
(dcterms) 21 Elementy DC: rekomendowane ; zalecane ; dodatkowe
Europeana Semantic Elements (ESE) 2. E lementy Europeana
• Language – język kraju dostawcy obiektu • Country – kraj dostawcy treści • Provider – dostawca obiektu • Year – rok związany z obiektem (Time Line) • Type – typ obiektu (wg Europeana: Text, Image, Video, Sound) • HasObject – czy jest dostępna „miniaturka” • Object – link do „miniaturki” • Unstored – wszystko czego nie udało się przemapować • Usertag – tagi użytkowników • URI – unikalny identyfikator obiektu • isShownAt – link do obiektu w pełnym kontekście informacji • isShownBy – link do obiektu w najlepszej jakości 22
Metadane w polskich bibliotekach cyfrowych
„Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009
23
Dziękuję za uwagę
Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, 26-27 listopada 2009
24