Biblioteki cyfrowe

Transcript Biblioteki cyfrowe


Dygitalizacja
◦ Typologia sprzętu

Oprogramowanie do zarządzania
repozytoriami cyfrowymi
◦ dLibra


Budowa biblioteki cyfrowej
Przykłady polskich bibliotek cyfrowych
Rozwój technologii pozyskiwania
obrazów cyfrowych
Fotografia analogowa
Camera obscura
Aparat Kodak (1888)
Elektroniczne elementy swiatłoczułe
Matryca CCD (ang. Charge Coupled Device)
1969 – Willard Boyle i George Smith
8 pikseli ułożonych w jednym rzędzie
Matryca CCD
Elektroniczne elementy światłoczułe
Matryca CCD (ang. Charge Coupled Device)
Wynaleziona w 1969 przez Willarda Boyle’a i Georga
Smith’a (8 pikseli ułożonych w jednym rzędzie)
Krzemowa płytka zbudowana z elementów światłoczułych,
Działa jako detektor wyłapujący i rejestrujący światło,
Jest podzielona na niezależne elementy o rozmiarach
kilkudziesięciu mikrometrów kwadratowych
Zachodzą w niej zjawiska fotoelektryczne
Rejestrowane sygnały przekazywane są do przetwornika
analogowo-cyfrowego
Skaner

Źródło światła,

Układ optyczny,

Element światłoczuły,

Przetwornik analogowo-cyfrowy

Układ przetwarzania obrazu
Bydgoszcz, 2012
Obrazy cyfrowe
Obrazy cyfrowe (ang. digital images) są elektroniczną
reprezentacją obrazów postrzeganych przez człowieka. Są
uzyskiwane za pomocą cyfrowego aparatu fotograficznego
lub cyfrowej kamery albo w wyniku skanowania istniejących
dokumentów takich jak: fotografie, manuskrypty, książki czy
sztuka rysunkowa.
Bydgoszcz, 2012
Rozdzielczość 1
Rozdzielczość - zdolność do rozpoznawania małych
przestrzennych detali. Termin określa jakość obrazu
cyfrowego i potencjał skanerów.
DPI – „punkt (kropka) na cal”. W rzeczywistości dotyczy
punktów, które drukarka może wydrukować na papierze.
PPI – „piksel (lub punkt) na cal”. Określa parametry
matrycy CCD, które są wyrażone w możliwości podzielenia 1
cala obrazu (2,54 cm) na określoną liczbę elementów.
 np. rozdzielczość 600 dpi to podział 1 cala na 600
elementów
Rozdzielczość 2
Rozdzielczość optyczna - oznacza rzeczywistą liczbę
elementów światłoczułych na jednostkę długości.
Rozdzielczość interpolowana – to sztucznie podniesiona
rozdzielczość. Powstaje dzięki zastosowaniu oprogramowania
skanera, które na podstawie rozdzielczości optycznej tworzy
dodatkowe piksele poprzez uśrednienie wartości i wstawienie
ich pomiędzy skanowane piksele. Taki zabieg nie podnosi
jakości obrazu.
Rozdzielczość 3
Rozmiar pikseli a rozdzielczość obrazu
rozdzielczość obrazu = rozmiar skanowanego dokumentu
x jednostka dpi
np. dla obiektu o rozmiarach 8 x 10 cali rozdzielczość
obrazu wynosi 2400 x 3000 przy rozdzielczości skanera
300 dpi
 z równania: 8 cali x 300 dpi x 10 cali x 300 dpi
Głębia bitowa
Głębia bitowa i rozdzielczość kolorów
Głębia bitowa określa liczbę bitów definiujących każdy
piksel.
Im większa głębia bitowa skanera tym więcej kolorów
może on odczytać z każdego rejestrowanego piksela.
 1 bit – biel i czerń
 4 bity – 16 tonów szarości lub barw
 8 bitów – 256 tonów szarości lub kolorów
 24 bity – 16,8 milionów kolorów
Sprzęt do dygitalizacji
Systematyka sprzętu:
Ze względu na mechanizm działania wyróżniamy:
skanery płaskie (stołowe/biurkowe)
skanery planetarne
skanery przelotowe
skanery bębnowe
aparaty cyfrowe
aparaty skanujące
skanery do mikroform
skanery automatyczne
urządzenia hybrydowe (skan + mikrofilm)
Sprzęt do dygitalizacji
Sprzęt do dygitalizacji
Systematyka sprzętu:
Skanery planetarne
Należą do grupy skanerów specjalistycznych. Głowica
skanująca i oświetlacz zawieszone są na nieruchomym
ramieniu nad stołem (ok 1 m), na którym umieszcza się
skanowany obiekt. Dostępne są różne typy stołów m.in.:
szalkowy oraz kołyskowy. Możliwe jest skanowanie
obiektów do formatu A0. Zalety urządzeń tego typu to
zastosowanie zimnego światła (fluorescencyjnego lub
diodowego) oraz możliwość dostosowania parametrów
stołu do potrzeb wynikających z rodzaju skanowanego
materiału, szybkość skanowania. Wady do przede
wszystkim cena (od 100 tys. do 300 tys. zł), większe
wymagania wobec skanującego personelu, wrażliwość na
zakłócenia zewnętrznego oświetlenia.
Minolta PS5000C



Rozdzielczość: do 600 dpi
Maks. Obszar skanowania:
A3+
Wydajność: 6 sek./str.
Zeutschel Omniscan 1400 A0



Rozdzielczość: do 600 dpi
Maks. Obszar skanowania: A0
Wydajność: 16,8 sek./str. dla 400
dpi
Sprzęt do dygitalizacji
Systematyka sprzętu:
Skanery automatyczne
Istotą automatyzacji procesu skanowania są następujące funkcje:
automatyczne pobieranie kolejnych obiektów lub ich elementów (przekładanie
stron, pobieranie arkuszy z podajnika, przesuwanie filmu na kolejne klatki
mikrofilmu) .
automatyczny dobór obszaru skanowania
automatyczny dobór parametrów skanowania
Za skanery automatyczne uzanć można skanery dowolnego typu, który jest wyposażony w
powyższe funkcje (np.: skaner płaski z podajnikiem arkuszy, skaner planetarny z automatycznym
przewracaniem kart książki, skaner przelotowy, itp.)
Do głównych zalet tego typu skanerów należy szybkość skanowania (3000 str na godz.) oraz
zmniejszenie pracy operatora.
Do wad należy głównie wysoka cena (kilkaset tysięcy zł.), ograniczenie do wybranych typów
obiektów, niebezpieczeństwo zniszczenia materiału, wrażliwość na niejednorodność materiałów,
formatu i stanu zachowania obiektów.
Kiras Technologies Kabis III
Qidenus – Robotic Book Scanner Pro
Metody dygitalizacji ze względu na
wybraną technikę dzielimy na:
ręczne przenoszenie tekstu do
pamięci komputera
zwykłe skanowanie
skanowanie z zastosowaniem
programów rozpoznawania
pisma (OCR)
zastosowanie cyfrowych
aparatów fotograficznych i
kamer cyfrowych
skanowanie automatyczne
bezpieczeństwo (dokładana
analiza obiektów)
koszty (dokładna analiza
relacji kosztów sprzętu do
kosztów obsługi oraz
ewentualnych strat)
szybkość i wydajność
automatów
skanowanie ręczne
M. Kowalska
D. Parandowski
Metody dygitalizacji
Metody dygitalizacji:
Ze względu na podmiot realizaujący dygitalizację wyróżniamy :
dygitalizacja samodzielna
outsorcing – wykorzystanie zasobów zewnętrznych, polegające na zleceniu
wyspecjalizowanym podmiotom zewnętrznym realizacji określonych procesów
niezbędnych dla funkcjonowania danego przedsiębiorstwa, które zostaną zrealizowane
efektywniej niż byłoby to możliwe we własnej zakresie. Etapy wdrażania outsorcingu
(wybór firmy/przetarg, kontrakt, szkolenia, kontrola)
Metody dygitalizacji
Metody dygitalizacji:
Ze względu na sposób doboru materiału wyróżniamy :
dygitalizacja selektywna – wybór pojedynczych obiektów, wyselekcjonowanych
zgodnie z określonymi w planie dygitalizacji kryteriami i wytycznymi, które
opracowano na podstawie metadanych lub z autopsji
dygitalizacja masowa – zespół metod to zastosowanych w celu zdygitalizowania
zbioru obiektów przy eliminacji lub ograniczeniu analizy zawartości tego zbioru

Oprogramowanie do zarządzania
repozytoriami cyfrowymi


Prace nad projektem rozpoczęły się w 1996,
były prowadzone przez Poznańskie Centrum
Superkomputerowo-Sieciowe
Pierwszy prototyp powstał w 1998
dLibra w 2000 roku

W 2001 oprogramowanie dLibra rozwijane było
jako jeden z projektów w obszarze e-content
programu PIONIER (Polski Internet Optyczny - Zaawansowane
Aplikacje, Usługi i Technologie dla Społeczeństwa Informacyjnego)

W 2002 na mocy współpracy z Poznańską Fundacją
Bibliotek Naukowych uruchomiono Wielkopolską
Bibliotekę Cyfrową
WBC 2002-2004
Katedra Informacji Naukowej i Bibliologii, UKW w Bydgoszczy

Kolejne wdrożenia:
◦ 2004 roku na Politechnice Wrocławskiej uruchomiona
została Biblioteka Cyfrowa Politechniki Wrocławskiej, (od
2005 - Dolnośląska Biblioteka Cyfrowa)
◦ 2005 – Kujawsko-pomorska Biblioteka Cyfrowa
(sfinansowana częściowo z funduszy UE
◦ Listę uzupełnią instalacje niedostępne publicznie.
(Akademia Obrony Narodowej, Urząd Miasta Torunia,
Instytut Pamięci Narodowej - Komisja Ścigania Zbrodni
przeciwko Narodowi Polskiemu - Oddział w Poznaniu)

Stan obecny:
◦ 14.02.2014 – najnowsza wersja - dLibra 5.7.2
◦ dLibra jest najczęściej wybieranym
oprogramowaniem do budowy bibliotek cyfrowych
w Polsce. Ponad 75% bibliotek cyfrowych działa przy
wykorzystaniu dLibry. Razem biblioteki te
udostępniają aż 97% dostępnych w Internecie
cyfrowych zasobów polskiego dziedzictwa
kulturowego.
◦ Łączna liczba wdrożeń obejmuje ok. 150 różnego
typu projektów.
◦ Koszt licencji – 1200 zł


Oprogramowanie dLibra służy do budowy
profesjonalnych repozytoriów obiektów
cyfrowych.
Repozytoria oparte o oprogramowanie dLibra
mogą pełnić rolę systemów takich jak:
◦ biblioteki cyfrowe,
◦ instytucjonalne repozytoria dokumentów,
◦ cyfrowe archiwa.

Serwer biblioteki cyfrowej

Aplikacja redaktora i administratora
– odpowiada za realizację
wszystkich funkcji biblioteki, uruchomiony na dedykowanym
komputerze (lub kilku komputerach), pozostaje niedostępny
bezpośrednio dla użytkowników.
- pozwala
użytkownikom tworzącym repozytorium cyfrowe
(wprowadzającym obiekty cyfrowe, tworzącym opisującym
itp.) oraz administratorom na korzystanie z funkcji
repozytorium.

Aplikacja czytelnika
- dostępna poprzez strony WWW,
pozwala użytkownikom („czytelnikom”) korzystać z zasobów
zgromadzonych w repozytorium cyfrowym.
źródło: http://dlibra.psnc.pl
Budowa biblioteki cyfrowej (1)
Formaty zapisu plików graficznych
Formaty opisu obiektów cyfrowych
Formaty zapisu plików graficznych
TIFF
JPEG
PDF
DjVu
TIFF
TIFF (ang. Tagged Image File Format)
popularny format plików graficznych udostępniający wiele rodzajów
kompresji (zarówno stratnej jak i bezstratnej),
umożliwia przechowywanie kanału alfa – przezroczystego obszaru grafiki
24 bitowa głębia kolorów
zapis dokumentów wielostronicowych
rozszerzenia plików: .tif oraz .tiff
JPEG
JPEG (ang. Joint Photographic Experts Group)
niewątpliwie najpopularniejszy format plików graficznych z kompresją
stratną regulowaną
jest powszechnie używany zarówno w sieci internet (obsługiwany przez
prawie wszystkie przeglądarki), jak i w aparatach cyfrowych
zapewnia niewielka objętość plików graficznych
obsługuje pełną paletę kolorów
obsługuje tryb progresywny i hierarchiczny kompresji
rozszerzenia plików: .jpg, .jpeg
PDF
PDF (ang. Portable Document Format)
format pliku opracowany i promowany przez firmę Adobe Systems
(1993)
od 2008 jest formatem otwartym (ISO 32000)
dokument może zawierać hipertekst
umożliwia szyfrowanie plików
plik wygląda identycznie na każdym komputerze
DjVu
DjVu
stworzony dla potrzeb skanowanych dokumentów
mała objętość pliku (5-100 razy mniejsze od PDF)
odrębna digitalizacja i kompresja każdej warstwy obrazu
dokumenty w tym formacie posiadają warstwę tekstową. Możliwe
przeszukiwanie pełnotekstowe
zapis dokumentów wielostronicowych
obsługuje tryb progresywny
Formaty opisu obiektów cyfrowych
Metadane
Są ustrukturowanymi danymi, zawierającymi charakterystyki dokumentów
będących nośnikami informacji. Metadane To zwięzły i systematyczny zestaw
informacji odsyłającej, który może być użyty do efektywnego i trafnego
wyszukiwania większych zestawów informacji
„Dane o danych” lub „informacja o informacji”, ich przykładem są klasyczne
katalogi biblioteczne.
Formaty opisu obiektów cyfrowych
Funkcje metadanych
wyszukiwanie i zarządzanie informacjami
skrótowy opis źródła
zabezpieczenie dostępu
instrukcja interpretacji danych
informacja o sposobie użycia danych
informacja o historii danych
informacja o właścicielu
wskazanie relacji z innymi źródłami
Formaty opisu obiektów cyfrowych
Rodzaje metadanych
metadane strukturalne - definiują w jaki sposób są zorganizowane
złożone obiekty cyfrowe,
metadane administracyjne - informacje pozwalające na zarządzanie
obiektem, takie jak prawa dostępu do obiektu, format cyfrowy plików
wchodzących w skład obiektu,
metadane opisowe - opisują obiekt by możliwe było jego odnalezienie
czy identyfikacja. Mogą zawierać takie informacje jak autor, tytuł, itp.
Formaty opisu obiektów cyfrowych
Dublin Core
otwarty, wymienny standard metadanych do opisu zasobów internetowych,
rozwijany jest przez Dublin Core Metadata Initiative
Dublin Core Metadata Element Set (DCMES), ten podstawowy 15elementowy zestaw metadanych, opracowany został w 1995 roku na
warsztatach organizowanych przez OCLC i NCSA w Dublinie (Ohio, USA),
Każdy element Dublin Core jest zdefiniowany przy użyciu zestawu
dziesięciu atrybutów (np. nazwa, identyfikator, wersja, definicja, komentarz,
itp.)
Formaty opisu obiektów cyfrowych
Elementy Dublin Core
1. Title (Tytuł) nazwa nadana źródłu
2. Creator (Twórca) Jednostka głównie odpowiedzialna za stworzenie treści źródła
3. Subject and Keywords (Opis rzeczowy) Temat treści źródła
4. Description (Opis) Wyliczenie zawartości treści źródła
5. Publisher (Wydawca) Jednostka odpowiedzialna za udostępnienie źródła
6. Contributor (Współtwórca) Jednostka odpowiedzialna za współudział w tworzeniu treści źródła
7. Date (Data) Data związana z wydarzeniem w okresie istnienia źródła
8. Resource Type (Typ zasobu) Natura lub kategoria treści źródła
9. Format (Format) Fizyczna lub cyfrowa materializacja źródła
10. Resource Identifier (Identyfikator zasobu) – Jednoznaczny odnośnik do źródła w obrębie danego kontekstu
11. Source (Źródło) Odesłanie do pierwotnego źródła, z którego pochodzi opisywane źródło
12. Language (Język) Język treści intelektualnych źródła
13. Relation (Relacja) Odesłanie do źródła pozostającego w relacji z tym opisywanym
14. Coverage (Miejsce i czas) Zasięg treści źródła
15. Rights Management (Prawa własności) Informacja o prawach własności do źródła
Dublin Core Metadata Element Set, Version 1.1: Reference Description w tłumaczeniu Marka
Nahotki: http://ebib.oss.wroc.pl/standard/dc.html

Biblioteki cyfrowe

Transcript Biblioteki cyfrowe

Directory