MIGRATION - Universität zu Köln

Download Report

Transcript MIGRATION - Universität zu Köln

MIGRATION
als Präservationsverfahren
Universität zu Köln
WS 2011/12
Dozent: Prof. Dr. Manfred Thaller
AM2 (Hauptseminar): Digitale Langzeitarchivierung
Referentin: Bianca Batel
08.12.2011
Digitale Archive
Zustand der Bestände
• breites Spektrum an Datei Formaten
• bis zum Archiverunszeitpunkt viele veraltet
oder kurz vor Unlesbarkeit (für Software und
Hardware
Digitale Archive
Faktoren für Überalterung
• viele Formatspezifikationen sind spezifischer
Software zugehörig  Veralten der Software
 Veralten des Formats
• Software oft urheberrechtlich geschützt  bei
Einführung neuer Versionen werden die alten
Formate nicht immer unterstützt
• unbeliebte/unbenutze Formate 
Abschaffung der Kompatibilität mit Software
Formate für digitale Langzeitarchivierung
Voraussetzungen
• detaillierte technische Informationen über
Datei Formate benötigt
• gegeben bei offenen Spezifikationen 
Unabhängigkeit von bestimmter Software
• internationale Standards
Formate für digitale Langzeitarchivierung
Kriterien
•
•
•
•
•
•
•
Disclosure
Adoption
Transparency
Self-documentation
External dependencies
Impact of patents
Technical Production machanisms
Wichtige Properties
für digitale Langzeitarchivierung
• Bewahrung der Zugänglichkeit & Bedeutung
• Bewahrung der Authentizität und Integrität
• 5 Kategorisierungspunkte (inSPECT):
- Inhalt
- Kontext (Metadaten)
- Erscheinungsbild (z. B. Layout, Farbe)
- Verhalten ( z. B. Interaktion, Funktionalität)
- Struktur ( z. B. Seiteneinteilung, Absätze)
Archiverungsmethoden
Kriterien der richtigen Strategie
• Realisierbarkeit  Fähigkeit von Hardware &
Software die Methode zu implementieren
• Nachhaltigkeit  muss auch in der Zukunft
angewandt werden können
• Nützlichkeit  angebrachte Grenzen von
Schwierigkeit und Kosten
• Angemessenheit  für alle digitalen Objekte
eines Typs einsetzbar, erreichen des
Archivierungsziels
Migration vs. Emulation
Beste Chancen, zumindest teilweise digitale
Langzeitarchivierung zu garantieren
Emulation  Inhalt wird sowohl im eigentlichen
Format repräsentiert als auch gespeichert
Migration  Inhalt wird in einem aktuellen
Format wiedergegeben
Migration
Zwei Arten von Migration
• Umstieg der wesentlichen Teile eines
Systems/Hardware auf ein anderes 
Systemmigration
• Transfer von Daten aus einer
Umgebung in eine andere
 Datenmigration
Migration
Wichtige Punkte
• Bewahrung des vollen Informationsinhalts
(Content Data Object und Representation
Information)
• vollständige Umschreibung durch Metadaten
• Umkehrung von Migration  Sicherstellung
das keine Daten verloren gehen
• Entscheidung über hinnehmbaren Verlust
Migration
Migration
Zusammenfassung:
• Reduzierung der Anzahl Formate die ein
Archiv instand halten muss
• Verwendung geeigneter Formate
• wichtige Properties müssen erhalten bleiben
Zeitpunkt der Migration
• stabile, sich nicht ändernde Codebasis
verwenden
• genügend Erfahrungswerte, ggf. abwarten bis
entsprechendes Know-How vorliegt
Vier Variationen der Datenmigration
• Backwards- Kompatibilität
• Migration in Standard Formate „on ingest“
• Migration in neue neuere/Standard Formate
„on obsolence“
• Migration „on request“
Migration
bei Backwards- Kompatibilität
•
•
•
•
bei kommerzieller Software
alte Version mit neuer Software geöffnet
in neuem Format gespeichert
bis -Bedrohung einer Überalterung
-bessere, backwards- kompatible Version
• keine Langzeitlösung für dieses Format
Backwards- Kompatibilität
Probleme
• Update Zwang aus kommerzieller Sicht, nicht
zur Langzeitarchivierung
• Verlust oder Veränderung von bedeutenden
Properties
• Backwards- Kompatibilität limitiert auf wenige
Generationen
• kontinuierlicher Erwerb von neuer Software
Migration
in Standard Formate „on ingest“
• „Nomalisation“, „bei Aufnahme"
• Objekt eines Typs werden in ein einziges
Format konvertiert
• Entscheidungsfaktor: beste Voraussetzungen
für die Erhaltung Properties
• Kontrolle von Kosten & Komplexität
• Erhaltung des Bitstreams wenn Konvertierung
nicht möglich ist
Migration
Probleme
• Inhalt ist nicht in ursprünglicher Form erhalten
• wertvolle Information könnte verloren gehen
• verschiebt das Migrationsproblem, aber löst
es nicht: die Ausgesuchten Formate werden
auch überholt
Migration
in neuere/Standard Formate „on obsolence“
• bei Überalterung
• Erhaltung der Daten in ihren Ursprünglichen
Formaten
• Warnung der technologischen
Überwachungseinrichtungen bei
Überalterungen eines Formats
• alle betroffenen Formate konvertiert
Migration
in neuere/Standard Formate „on obsolence“
• Migrations- Optionen:
- Konvertierung in einen logischen Nachfolger/
höhere Version (Backwards- Kompatibiliät)
- Konvertierung eines Formats in ein
äquivalentes offenes Format
- Konvertierung zu einer insgesamt kleineren
Anzahl an Formaten (Normalisation)
Migration
Probleme
• Tools sind zwar entwickelt, aber noch nicht in
Langzeitarchivierungssysteme integriert
• ähnliche Probleme wie bei BackwardsKompatibilität und Normalisation
Migration
„on request“
Migration
„on request“
•
•
•
•
•
Migration auf Anfrage
CAMiLEON Projekt
ursprünglicher bitstream bleibt erhalten
eigentlich für Emulatoren entwickelt
ein Tool für jede Klasse an Daten Formaten
Migration
Migration
Vorteile & Nutzen
• Code der ein bestimmtes Datei Format einliest
und interpretiert muss nur einmal
implementiert werden
• ein Migrationsschritt  mehr Genauigkeit
• Authentizitätsprobleme minimiert
• „Baukasten“ Form  umkehrbare Migration
einfacher und günstiger
• massive Einsparungen bei großer Datenmenge
Migration
„on request“
Migration
Probleme
• Migration on request Tools müssen dennoch
immer wieder aktualisiert werden
• benötigte Einplanung des Zeitaufwandes bis
zur Migration
Migration
•
•
•
•
als geeignetes Präservationsverfahren
gebräuchliche Strategie der digitalen
Langzeitarchivierung
zuverlässiger Weg, die wichtigsten Properties
zu erhalten (besonders bei Seiten basierten
Dokumenten)
momentan noch keine großen Qualitativen
unterschieder zur Emulation bemerkbar
(„Chuckie Egg“ Beispiel)
überschaubare Kosten bei Migration on
request
Migration
Aufklärung über Schwierigkeiten
• Verlust von Formatierung oder „look and feel“ 
z. T. immer gegeben
• schnelle Weiterentwicklung  ständiger
Aktualisierung kann nicht aus dem Weg gegangen
werden, bei Migration on Request wird der
Aufwand jedoch minimiert
• IPR (Intellectual Property Rights)  nicht so
gravierend wie bei Emulation
• seltene Formate  Kostenaufteilung
verschiedenerer Institutionen
Migration
Schlussfolgerung I
5 Kategorisierungspunkte für Properties
• Inhalt ✔
• Kontext ✔
• Erscheinungsbild ~
• Verhalten ✔
• Struktur ✔
Migration
Schlussfolgerung II
Kriterien der richtigen (Archivierungs)Strategie
• Realisierbarkeit ✔
• Nachhaltigkeit ✔
• Nützlichkeit ✔
• Angemessenheit ✔
Quellen
•
•
•
•
•
•
•
•
http://www.dlib.org/dlib/january05/rosenthal/01rosenthal.html
http://blog.case.edu/digitalpreservation/2010/11/29/week_5_migration_and_emulation_to
ols
http://www.paradigm.ac.uk/workbook/preservation-strategies/selecting-migration.html
http://www.webarchive.org.uk/wayback/archive/20050410120000/http://www.leeds.ac.uk/
cedars/pubconf/papers/projectReports/CedarsProjectReportToMar01.pdf
http://worldcat.org/arcviewer/1/OCC/2007/08/08/0000070513/viewer/file1628.html#featur
e1
http://www.webarchive.org.uk/wayback/archive/20080408134837/http://www.si.umich.edu
/CAMILEON/reports/migreq.pdf
http://www4.in.tum.de/lehre/seminare/hs/WS0506/mvs/files/Ausarbeitung_Erdle.pdf
http://www.oclc.org/research/activities/past/rlg/digpresstudy/final-report.pdf