INTRODUKCJA Opr. HWs

Download Report

Transcript INTRODUKCJA Opr. HWs

„We define ourselves by what we choose to
remember and forget.”
Daniel Pitti, University of Virginia
INTRODUKCJA
Opr. HWs (AGAD)
UKŁAD
• Podstawowe:
– Strony internetowe
– Literatura
• Wprowadzenie:
– EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• Historia Projektu
• Układ DTD
• Uwagi prof. Petera HORSMANA na temat EAD
• EAD - Pytania
• Dodatkowe objaśnienie
– SGML, XML
– TEI
• PODSTAWOWE ADRESY:
– www.loc.gov/ead/ead.html - Official Web
Site
– www.jefferson.village.virginia.edu/ead Help Pages
PODSTAWOWA LITERATURA
• EAD - Encoded Archival Description, Tag Library,
Version 1.0, prepared and maintained by the
Encoded Archival Description Working Group of the
Society of American Archivists and the Network
Development and MARC Standards Office of the
Library of Congress, Chicago 1998, s. VII.
• EAD - Encoded Archival Description, Application
Guidelines, Version 1.0, Chicago 1999.
• The EAD Cookbook by Michael J. Fox, June 2000
Encoded Archival Description
• EAD to standard ustrykturalizowania danych
przeznaczony do utrwalenia hierarchii i opisu
zawartości pomocy archiwalnych dostosowany
do pomocy archiwalnych z całego świata.
Umożliwia on prezentację pomocy
archiwalnych poprzez Internet, a także
zapewnia trwałość, gdyż jest stabilnym
środowiskiem z którego dane mogą być
przetransferowane do innego środowiska
programowego, gdy zajdzie taka potrzeba.
Encoded Archival Description
• Istotę EAD stanowi DTD (Document
Type Definition) opracowany i
dostosowany dla zakodowania
archiwalnych pomocy
wyszukiwawczych.
• DTD zostało ułożone zgodnie z
zasadami składni SGML (i jest
transferowalne do XML).
Encoded Archival Description
• EAD pozwoli na zbudowanie
„multuirepository data base” - bazy
danych z pomocami wyszukiwawczymi
z różnych archiwów, pozwalającej na
prowadzenie poszukiwań w wielu
pomocach z wielu archiwów.
EAD to:
• data structure standard dla pomocy
archiwalnych, pozwalający na wielokrotne
wykorzystanie informacji raz wpisanych, ich
wymianę i długotrwałą dostępność;
• format komunikacji umożliwiający archiwom
udostępnianie pomocy przez Internet - zarówno
lokalnym, jak i odległym użytkownikom;
• technologia, które jest oparta na standardach,
niezależna od platformy sprzętowej, mająca do
dyspozycji bardzo wszechstronne narzędzia
wyszukiwawcze, (wyszukanie, dostarczenie,
wyświetlenie i nawigowanie).
Wprowadzenie
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN; Amsterdam, Archiefschool
• W ciągu ostatnich kilki lat zakodowany opis archiwalny EAD skupiał na sobie znaczne zainteresowanie archiwistów
z całego świata. Opis narodził się w Ameryce i nasi
amerykańscy koledzy rozpoczęli kampanię dla powszechnej
akceptacji EAD by wreszcie może doprowadzić
zakodowany opis archiwalny do rangi standardu ISO. The
Resarch Library Group - ciesząca się autorytetem
organizacja w świecie bibliotecznym, do której należą także
małe prywatne archiwa, popiera użycie EAD; Biblioteka
Kongresu Stanów Zjednoczonych, jedna z największych
bibliotek świata, prowadzi jedno z wiodących wdrożeń.
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• EAD rozpoczęło się w sferze mniejszych archiwów, w
większości takich, które nazywa się w Ameryce Północnej
repozytoriami rękopisów. Obecnie kilka większych
publicznych archiwów, włączając w to Public Record
Office w Londynie także rozpoczęło jego wdrażanie.
• Wydaje się, że będzie to historia zakończona sukcesem, ale
z drugiej strony, można się przekonać że te projekty
wdrożenia są zarówno czaso- jak i kapitało- chłonne.
Niektórzy krytycy zapewniają, że koncepcja stojąca za
EAD jest zbyt głęboko osadzona w bibliotekoznawstwie i
że owa metoda nie przystaje do poglądów archiwalnych.
Ktoś mógłby zapytać, czy tak naprawdę EAD jest tym
odmłodzeniem archiwalnego opisu, które powinno
przenieść archiwa do społeczeństwa informacyjnego.
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• Pojęcie Zakodowany Opis Archiwalny zawiera
dwa, lub jak wolicie nawet trzy elementy:
(archiwalny), opis i zakodowanie. To co powoduje,
że EAD jest tak odmienne od tradycyjnego opisu
znajduje się właśnie w sposobie kodowania. Samo
kodowanie nie jest porywającą częścią EAD;
standaryzacja opisu wymagająca, by móc w pełni
korzystać z jej dobrodziejstw, narzędzi do
kodowania, to właśnie standaryzacja jest
wyzwaniem.
HISTORIA PROJEKTU - 1993
• Początek projektu w Berkeley - opracowanie standardu kodowania
pomocy archiwalnych (wzór z TEI) wykraczającego poza możliwości
MARC. Kierownik Daniel Pitti
• Kryteria:
– 1. możliwość szerokiego przedstawienia informacji i wzajemnie powiązanych
informacji z pomocy archiwalnych
– 2. możliwość zachowania hierarchicznych relacji między poziomami opisu
– 3. możliwość przedstawienia deskrypcyjnych informacji, które są przekazywane
z jednego hierarchicznego poziomu opisu na inny (niższy)
– 4. możliwość poruszania się wewnątrz hierarchicznej struktury informacji
– 5. rozwiązanie problemów ze specyficznymi indeksami i uzyskiwaniem
informacji
SGML - wybrany jako metajęzyk z zespołem reguł dla definiowania i prezentacji
logicznej struktury dokumentu, stwarzający możliwości wyszukiwawcze oraz
prezentacyjne.
1995
• Marzec - Berkeley Finding Aids Project (BFAP lub FINDAID DTD)
– 1. strona tytułowa (nazwa archiwum, typ pomocy)
– 2. opis (krótki - jak MARC'owski i długi - opis narracyjny jednostki i jej
wyróżnialnych części (tytuł , daty, zawartość)
– [testowy opis 200 pomocy z 50 archiwów]
• Kwiecień - dołącza Biblioteka Kongresu i Commission on Preservation and
Access
• Lipiec - stypendium Bentley Library i A. W. Mellon Foundation na
konferencję w Ann Arbor, tu określenie co ma być wykonane:
– 1. zaprojektowanie zasad standardu kodowania dla pomocy
archiwalnych
– 2. rewizja dotychczasowego modelu danych
– 3. rewizja DTD dla pomocy archiwalnych
– 4. wytyczne dla kodowania z przykładami (Guidelines - Tag Library)
– 5. artykuł podsumowujący dotychczasowe działania
• Ann Arbor Accord - tu nazwa EAD
• Dwa segmenty pomocy archiwalnych:
– informacje o samej pomocy (tytuł, twórca, daty) <heder>
– opis hierarchiczny zgodny z archiwalną organizacją
opisywanego materiał. Od ogół u do szczegół u z tym, że
szczegół "dziedziczy" potrzebne informacje ogólne.
– Dodatkowe informacje (bibliografia)
– Informacje o zawartości (kolekcji, zbioru, serii)
– ** deskrypcyjne elementy zagnieżdżane w odpowiednich
punktach opisu jednostki lub jej części składowych
– ** ogólne elementy zagnieżdżane w deskrypcyjnych
• Jeżeli elementy są analogiczne z tymi TEI to trzeba
przejąć model zawartości z TEI
1995 (cd)
• Sierpień - Dołącza się Society of American Archivists ono składa prośbę do komórki standaryzacyjnej Library of
Congers (MARC Standards Office) o bycie agencją
podtrzymującą EAD (dokumentacja DTD, server www listserv)
• ATLIS Consultin Group - specjaliści od SGML
1996
• Luty - wersja wstępna EAD (+ elektroniczna dokumentacja)
pół roku na uwagi - comment period
• Kwiecień - prace nad wersja β i logo
• Październik - wersja β (rok na uwagi)
– 20 workshops in US (RLG/SSA) prezentujących dotychczasowy stan
1997
– 50 e-mail z uwagami do wersy β (archiwa: Szwecja, Anglia, Kanada, Biblioteka
z Oxfordu)
• Listopad - adaptacja XML
1998
• Sierpień EAD DTD (wersja 1.0)
(+ 262 str. dokumentacja i dwa numery The American Archivist) -SAA
podtrzymywanie intelektualne EAD
• 1993
• Początek projektu w Berkeley - opracowanie standardu kodowania dla komputerów
pomocy archiwalnych (wzór z TEI) wykraczającego poza możliwości MARC.
Kierownik Daniel Pitti
• Kryteria:
• 1. możliwość szerokiego przedstawienia informacji i wzajemnie powiązanych
informacji z pomocy archiwalnych
• 2. możliwość zachowania hierarchicznych relacji między poziomami opisu
• 3. możliwość przedstawienia deskrypcyjnych informacji, które są przekazywane z
jednego hierarchicznego poziomu opisu na inny (niższy)
• 4. możliwość poruszania się wewnątrz hierarchicznej struktury informacji
• 5. rozwiązanie problemów ze specyficznymi indeksami i uzyskiwaniem informacji
• SGML - wybrany jako metajęzyk z zespołem reguł dla definiowania i prezentacji
logicznej struktury dokumentu, stwarzający możliwości wyszukiwawcze oraz
prezentacyjne.
• 1995 - marzec - Berkeley Finding Aids Project (BFAP lub FINDAID DTD)
• 1. strona tytułowa (nazwa archiwum, typ pomocy)
• 2. opis (krótki - jak MARC'owski i długi - opis narracyjny jednostki i jej
wyróżnialnych części (tytuł , daty, zawartość)
• [testowy opis 200 pomocy z 50 archiwów]
• kwiecień- dołącza Biblioteka Kongresu i Commission on Preservation and Access
• lipiec - stypendium Bentley Library i A. W. Mellon Foundation na konferencję w
Ann Arbor (Bentley team - także przedstawiciele NARA), tu określenie co ma być
wykonane:
• 1. zaprojektowanie zasad standardu kodowania dla pomocy archiwalnych
• 2. rewizja dotychczasowego modelu danych
• 3. rewizja DTD dla pomocy archiwalnych
• 4. wytyczne dla kodowania z przykł adami (Guidelines - Tag Library)
• 5. artykuł podsumowujący dotychczasowe działania
• [Ann Arbor Accord] - tu nazwa EAD
• Dwa segmenty pomocy archiwalnych:
• - informacje o samej pomocy (tytuł, twórca, daty) <heder>
•
- opis hierarchiczny zgodny z archiwalną organizacją opisywanego
materiał. Od ogół u do szczegół u z tym, że szczegół "dziedziczy" potrzebne
informacje ogólne.
•
- dodatkowe informacje (bibliografia)
• - informacje o zawartości (kolekcji, zbioru, serii)
• ** deskrypcyjne elementy zagnieżdżane w odpowiednich punktach opisu
jednostki lub jej części składowych
• ** ogólne elementy zagnieżdżane w deskrypcyjnych
• Jeżeli elementy są analogiczne z tymi TEI to trzeba przejąć model zawartości z
TEI
• sierpień dołącza się Society of American Archivists - ono składa prośbę do
komórki standaryzacyjnej Library of Congers (MARC Standards Office) o bycie
agencją podtrzymującą EAD (dokumentacja DTD, server www - listserv)
• ATLIS Consultin Group - specjaliści od SGML
• 1996 - luty 26 wersja alfa EAD (+ elektroniczna dokumentacja)
pół roku na uwagi - comment period
• kwiecień prace nad wersja beta i logo
• październik wersja beta (rok na uwagi)
• 20 workshops w US (RLG/SSA)
• 1997
• 50 e-mail z uwagami do wersy Beta (archiwa: Szwecja, Anglia, Kanada, Biblioteka
z Oxfordu)
• listopad - adaptacja XML
• 1998
• sierpień EAD DTD (wersja 1.0)
(+ 262 str. dokumentacja i dwa numery The American Archivist).
• SAA podtrzymywanie intelektualne EAD
Gramatyka języków
znakowania
Konwencja:
<polecenie>
<polecenie parametr= "wartość"> tekst </polecenie>
</polecenie>
Przykład z HTML
• < !DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN" >
< HTML>
< HEAD>
< TITLE> Mini Kurs HTML < /TITLE>
< META HTTP-EQUIV="Content-type" CONTENT="text/html;
charset=iso-8859-2">
< META HTTP-EQUIV="Creation-date" CONTENT="2002-0520T08:03:05Z">
< META HTTP-EQUIV="Content-Language" CONTENT="pl">
< META NAME="Keywords" CONTENT="html">
< META NAME="Author" CONTENT=„HWs">
< META NAME="Authoring_tool" CONTENT="CS Pajączek 2000
PRO v4.8.1">
</HEAD>
....
< /HTML>
EAD - struktura
_______________________________________________________________________
<!DOCTYPE ead PUBLIC ......... [
<!ENTITY % eadnota PUBLIC
%eadnata;
]>
________________________________________________________________________
<ead> - nagłówek
______________________________________________________________________
1. informacje o samej pomocy
(tytuł, kto, kiedy etc. ją opracował)
<eadheader>
___________________________________
2. strona tytułowa z wybranymi
elementami
<frontmatter>
______________________________________________________________________
3. informacja o archiwaliach
<archdesc LEVEL = "fonds" >
EAD - struktura
_________________________________________________________
<eadheader>
<eadid> - unikatowy
kod danej pomocy
<filedesc> bibliograficzne informacje o
pomocy (autor, tytuł, podtytuł,
wydawca, seria wydawnicza)
<profiledesc> - dane
odnośnie kodowania w EAD
<revisiondesc> informacje o dokonywanych
zmianach
EAD - struktura
<did> - descriptive identification - opis ogólny
podstawowy
<container TYPE ="box">
<origination> - aktotwórca
<abstract> - streszczenie
< note> - uwagi
<physdesc> - opis zewnętrzny,
rozmiary, cechy stanu fizycznego
<extent> - rozmiary
<physloc> - lokalizacja, w
magazynie
<repository> - archiwum
<unitdate> - daty powstania
<unitid> - sygnatura
<unittitle> - tytuł
Koncepcja EAD
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• Narodzony w USA
• Rozszerzenie MARC-AMC na
poziomy
• Zorientowany na użytkownika
• Kodowanie pomocy archiwalnych
• Standardowy format
• Technologia: XML
• Dostępność wzorców DTD
niższe
Kodowanie EAD
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
•
•
•
•
•
Koncepcja XML, HTML
DTD
TEI
Zastosowania EAD
Co przedstawia pomoc archiwalna EAD?
EAD i bazy danych
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• EAD zaprojektowano dla kodowania
istniejących pomocy archiwalnych
• Możliwe jest pobranie danych z bazy danych
• Zalety:
– Podtrzymywanie (elastyczność)
– Integracja z innymi aplikacjami
– Wprowadzanie nowych opisów
Dalsze kierunki
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• Działania w międzyczasie:
• Czy użytkownicy nadal będą oczekiwać spisów w
przyszłości?
• Konieczność przekształcania pomocy archiwalnych
• Standardy systemów informacyjnych
• Rozwój systemów metadanowych
• Encoded Archival Context (EAC) - kodowanie kontekstu
archiwalnego
• Współpraca z Komitetem do spraw Standardów Opisu
• Konieczność zbadania potrzeb użytkownika
• Współdziałanie z innymi dyscyplinami
• Archiwa nie są samotne na świecie
Wnioski
EAD - MAGIC WORD OR TERROR by prof. PETER HORSMAN
• EAD ma wielkie potencjalne właściwości
• Poprawienie istniejącego systemu pomocy
archiwalnych
• Wdrożenie wymaga dodatkowych prac
przygotowawczych
• Potrzebna jest wizja przyszłości
EAD - PYTANIA
1. Czy wdrażać?
a) czy istnieje program opisu pomocy archiwalnych?
b) czy są stosowane przy tym opisie jakieś standardy?
c) czy potrzeba EAD wynika z misji archiwum?
• Czy istnieje już zespół ludzi zajmujący się takimi
działaniami, czy są możliwości techniczne software i
harware?
• Czy jest możliwość współpracy z innymi instytucjami w
zakresie wspólnego wprowadzania EAD?
• Czy możliwe będzie podtrzymywanie w długim czasie
standardu i opisów, uwzględniając zmiany technologiczne?
EAD - PYTANIA
2. Jak tworzone są elektroniczne pomoce?
a) czy istnieje możliwość konwersji
dotychczasowych pomocy na EAD?
• Ocena dotychczasowych pomocy archiwalnych:
–
–
–
–
jaka jest możliwość konwersji na EAD?
zasady i technologia konwersji?
wybór oprogramowania?
załadowanie DTD i sprawdzenie technologii i
prawidłowości działania i zgrania z SGML
EAD - PYTANIA
3. Jak się je upowszechnia?
a) czy jest bezpieczne i stałe połączenie z
internetem?
• Podłączenie do sieci (koszty) i - przeszukiwarki.
• EAD jest dość złożoną technologią i jego
zastosowanie ma sens tylko wówczas gdy
potencjalne korzyści korespondują z celami
wdrażającej go instytucji.
SGML
Standard Generalized Markup Language
standardowy uniwersalny język znakowania
• 1969 r. - IBM projekt GML (Generalized Markup
Language). Projektem kierował Charles Goldfarb.
• 1986 r. - SGML - standardem ISO 8879:1986
• SGML służy do przygotowywania formatu i
obróbki dokumentów elektronicznych w celu
wymiany danych pomiędzy różnymi programami i
systemami operacyjnymi, pozwalającego na
prezentowanie metadanych związanych z
dokumentem i jego powiązań hipertekstowych.
SGML
• Jest to meta język pozwalający - za pomocą
określonych znaczników (markups, tags) - na
przedstawienie struktury dokumentu oraz
umożliwiający zdefiniowanie i oznakowanie
różnych typów dokumentów. Powstaje w ten
sposób niezależna od sprzętu komputerowego i
systemu operacyjnego baza tekstowa (textbase).
Znacznik to informacja o dokumencie, która nie
jest częścią dokumentu, choć może wpływać na
jego wygląd.
SGML pozwala na:
• 1. określenie formatu dokumentu (procedural markup):
zaznaczenie krojów czcionki, interlinii, etc.;
• 2. zdefiniowanie logicznej struktury dokumentu (descriptive
markup): zaznaczenie nie tylko struktury - rozdziały,
akapity etc., lecz także określenie semantyki, np.
wyróżnienie tekstów pisanych w innych językach (wraz z
określeniem jakie to języki). Pozwala to przede wszystkim
na zdefiniowanie i wyróżnienie wszelkich nazw własnych i
stanowi zasadniczą zaletę SGML;
• 3. umożliwia też znakowania odsyłaczy hipertekstowych
(referential markup) tak wewnątrz dokumentu, jak i z
innymi dokumentami lub obiektami: graficznymi,
dźwiękowymi i wszystkimi rodzaju danymi zapisanymi w
formie cyfrowej.
XML
eXtensible Markup Language
• 1998 r. - World Wide Web Consortium - W3C
• XSL (eXtensible Stylesheet Language)
• Jest to metajęzyk mający wspólna gramatyka i
jednolita metodologia opartą na SGML. Za pomocą
tego metajęzyka można stworzyć uniwersalny
format dla dokumentów mających strukturę i
zawierających dane - można opisać nie tylko dane,
ale i ich strukturę (metadane). W odróżnieniu od
języka HTML, który pozwala tylko na formatowanie
tekstu, XML pozwala opisać to, co faktycznie
zawiera informacja tekstowa.
XML
• eXtensible oznacza, że jest on rozszerzalny; można
doń dodawać nowe elementy czyli przetwarzać
dokumenty zapisane w dowolnym formacie. XML
pozwala rozwiązać problemy wymiany informacji
między niekompatybilnymi systemami
informatycznymi. Język ten dostarcza składni do
konstruowania komunikatów możliwych do
zrozumienia przez dowolne aplikacje. Daje on
możliwość tworzenia słowników - zbioru
znaczników (tag) określających strukturę
dokumentu.
Wyróżnia się dwa typy dokumentów XML
1. Właściwie sformatowany (well-formated). Ten typ
nie wymaga w ogóle DTD i jest idealny dla celów
komercyjnych - choć tu nie określa się znaczenia
tych znaczników i mogą powstawać problemy z
synonimami.
2. Poprawny (valid), który musi zawierać DTD
dlatego aby nie stwarzać sytuacji
niejednoznacznych jest konieczna standaryzacja
różnych specyficznych typów dokumentów
osiągana za pomocą definicji typu dokumentu
(Document Type Definition - DTD). DTD to
schemat XML wiążący znaczniki ze strukturą.
TEI - Text Encoding Initiative
http://www.uic.edu:80/orgs/tei
1987
Standaryzacja formatu danych podjęta przez Association for
Computers and the Humanities - przygotowanie szczegółowych
wytycznych kodowania tekstów literackich i językoznawczych.
(fundusze m. in.: DG XIII, Mellon Foundation)
1989
Chicago: 15 osobowy zespół (US i Europa)
1990
P1 - 300 str. dokumentacji; szeroko publikowany, 15 komisji
1993
100 naukowców - Wskazówki TEI (P3) - TEI DTD (1300 stron):
– SGML
– adnotowanie deskryptywne
– język opisu danych + format wymiany danych tekstowych
TEI - Text Encoding Initiative
• TEI ponad 400 podstawowych elementów (cech) oraz
zestawy atrybutów
• DTD opisuje gramatykę wzajemnych powiązań między
modułami; 3 typy znaczników:
– podstawowe (core), w każdej wersji DTD (nagłówek TEI)
– bazowy, specyficzny dla odpowiedniego rodzaju tekstu (proza,
poezja, dramat....)
– dodatkowy, dla specyficznego kąta, zainteresowań.
• LITERATURA:
– R. T. Prinke, Fontes ex Machina, Komputerowa
analiza źródeł historycznych, Poznań 2000, s.
120-191.