pdf_Köllmann - Historisch

Download Report

Transcript pdf_Köllmann - Historisch

PDF und PDF/A
Universität zu Köln
Historisch Kulturwissenschaftliche Informationsverarbeitung
WS 2011/2012
Digitale Langzeitarchivierung
Dozent: M.Thaller
verfasst von: Jana Köllmann
Inhalt
1.Das Adobe Grafikmodell
2. Das Dateiformat PDF
3. Wege zur PDF
4. Grenzen von PDF
5. Tagged PDF
6. Warum PDF/A?
7. Wege zur Archiv-PDF
8. Welche Datenformate sind archivtauglich?
9. Was tun mit „alten“ Archivformaten?
10. Quellen
Das Adobe Grafikmodell



Bildet Grundlage der Kerntechnologie von PDF
Zusätzlich Grundlage für Modelle anderer
Softwareentwickler
Modell ist gerätunabhängig
→ ohne Bezug auf Eigenschaften des Geräts →
Graphiken werden in abstrakter Beschreibung
gespeichert und von Acrobat wieder hergestellt

Basiert auf Berechnung von Vektorgraphiken
Eigenschaften der Basiselemente

Vektorgraphiken: alle Elemente, die aus Linien und
Kurven gebildet werden können

Text: Untermenge der Vektorgraphik

Rastergraphiken: Rechteckiges Fläche mit Pixeln
Warum Text nicht als Vektorgraphik
speichern?


Verarbeitungsgeschwindigkeit zu gering, da
jeder Buchstabe immer wieder berechnet
werden müsste
Hoher Anspruch an Ausgabegenauigkeit, da
Menschliches Auge sehr sensibel
Zusatzfunktionen

Farbseparation

Farbverläufe

Maskierung von Bildern

Transparenz und Alphakanal
Zusatzfunktionen

Farbverläufe
Technische Eigenschaften


Kompression: Einzelne Objekte der Datei
werden selektiv komprimiert, da nicht jede
Kompression für jeden Datentyp sinnvoll
Wiederverwendbare Grafikmodelle:
Durch einmalige Speicherung und
Wiederverwendung von Grafiken kann die
Dateigröße optimiert werden
Schriften in Acrobat

Schriften könnenin PDF eingebettet werden
→ stehen auch Benutzern zu Verfügung wenn sie
nicht auf dem Rechner installiert sind


Fontdeskriptor: beschreibt die wichtigsten
Strukturen einer Schrift (z.B. Serifen, Ober/Unterlänge)
Mit diesen Angaben kann Acrobat eine
Ersatzschrift generieren
Das Dateiformat PDF
Das Dateiformat PDF 2
Bedeutung der Pfade
Wege zur PDF


Acrobat Distiller: Umwandlung von PostScript
zu PDF
Acrobat PDFWriter:
- Druckertreiber für Windows und Mac
- Einschränkungen zu Distiller (kann z.B. kein
PostScript verarbeiten)
- meist schlechte Qualität, da mit Bitmap-Fassung
der Graphik gearbeitet wird
Wege zur PDF

Acrobat Web Capture:
- Konvertierung von Webseiten zu PDF
- Wandelt HTML zu PDF um mit internen Mitteln
der Software

Konvertieren von Bilddateien: in Acrobat über
das „Datei“-Menü möglich, hat jedoch viele
Nachteile
Wege zur PDF

Konvertierung gescannter Seiten mit Acrobat
Paper Capture:
- ist für Umwandlung gedruckter Dokumente
zuständig
- Software versucht Gescanntes als Text zu
erkennen und umzuwandeln
Direkte Erzeugung mit
Anwenderprogrammen



Immer mehr Software unterstützt die
Exportmodeule für PDF
Oft ist nicht der komplette Funktionsumfang von
PDF unterstützt
In vielen Programmen läuft die Konvertierung
versteckt über Distiller
Grenzen von PDF



Text aus PDF selten weiterverwendbar
Weiterverwendung durch fehlende
Strukturinformationen zusätzlich erschwert
Inhalt eines PDF-Dokuments schwer für
Sehbehinderte zugänglich, da Screenreader sie
nicht verarbeiten können
Unicode




Internationales Codesystem
Langfristig wird für jedes bestehende
Schriftzeichen ein digitaler Code festgelegt
Ziel ist die unterschiedliche und inkompatible
Kodierungen aus verschiedenen Ländern zu
beseitigen
Mittlerweile sind 109.242 Zeichen aus 93
Schriftsystemen genormt
Tagged PDF




Kündigt an Probleme der PDF zu lösen
Screenraeder sollen Text Problemlos auslesen
können
zuverlässige Konvertierung von PDF in andere
Dateiformate
Dynamische Umformatierung am Bildschirm
Tagged PDF liegt vor, wenn:...




Dokument enthält PDF-Strukturbaum
Bedeutungen aller Zeichen sind bekannt und
Unicode-Zuordnung
Dokumentinhalte sind nach Wichtigkeit
geordnet
Lesereihenfolge ist dokumentiert
Warum PDF/A?



Erforderliche Schriften MÜSSEN eingebettet
werden
Einige PDF Elemente beeinträchtigen die
Beständigkeit (z.B. Ebenen, interaktive
Elemente)
PDF-Dokument das bestimmte Anforderungen
der DLZA erfüllt
Informationen zu PDF/A


Erster Standard besteht seit 2005, zugrunde
liegt PFD-Version 1.4
Zweiter Standard aufgrund von Version 1.7
besteht seit Frühjahr 2011
Spezifiziert zwei Übereinstimmungsgrade für
Version 1: PDF/A_1a, PDF/A_1b
Spezifiziert drei Übereinstimmungsgrade für
Version 2: PDF/A_2a, PDF/A_2b, PDF/A_2u
PDF/A_1b



Betrifft die visuelle Integrität
Jede PDF/A_1a-Datei entspricht auch dem
nicht so strengen Standard der PDF/A_1b-Datei
Referenzen auf Resorsen ausserhalb des
Dokuments sind nicht erlaubt

Transparenz darf nicht verwendet werden

Eindeutige Farbdarstellung

Verschlüsselung ist untersagt
PDF/A_1a




Bezieht sich auf semantische Korrektheit und
Struktur
Struktur basiert auf Tagged PDF
Schriftzeichen müssen Unicode-Entsprecchung
haben
Lesbar durch den Screenreader
Wege zur Archiv-PDF

PDF/A aus Dateien oder Daten:
- Über Export durch Ursprungsprogramme,
Distiller oder PDF Konverter
- auch Programme zur „Massenabvertigung“
erhältlich

Gescannte Papiervorlage zu PDF/A
- Text wird durch OCR durchsuchbar gemacht
- Durch das Scannen mit Acrobat Professional
umwandelbar (ab Version 8)
Wege zur PDF/A

PDF/A aus PDF:
- Acrobat 8 Professional erledigt dies
- kann ausserdem prüfen ob zugesannte Datei
wirklich PDF/A und nicht PDF ist
- weitere zahlreiche andere Software ist in der
Lage zu konvertieren
Wer kann von PDF/A profitieren?



Emails als PDF/A um den Umstieg zwischen
Mailkonten zu erleichtern
Online PDFs alternativ als PDF/A speichern
Pläne, kartographische Werke,
Konstruktionszeichnungen, da sie oft über Jahrzehnte
aufbewahrt werden müssen

Signierte digitale Verträge

Sichere Farbe in Bilddokumenten

Druckvorlagen

Barrierefreie PDF-Dateien
Welche Dateiformate sind
archivtauglich?
Was tun mit „alten“ Archivformaten?


Beliebt zur Archivierung waren bei Bildern
bisher vor allem JPEG oder TIFF-G4
Man kann permanent oder temporär
umwandeln:
permanent: besonders bei überschaubaren
Datenmengen von Vorteil
temporär: bei vielen Daten sinnvoll, Daten
können bei Aufruf „on the fly“ umgewandelt
werden
Quellen



Merz, Thomas; Drümmer, Olaf: Die PostScript& PDF-Bibel, dpunkt Verlag, 2. Auflage, 2002.
http://de.wikipedia.org/wiki/Unicode
http://www.callassoftware.com/callas/doku.php/
de:pdfakompakt:start

http://unicode.org/

http://de.wikipedia.org/wiki/PDF/A

http://www.einfach-fuer-alle.de/artikel/pdfbarrierefrei-umsetzen/