Langtidslagring av elektroniske dokumenter - HiOA

Download Report

Transcript Langtidslagring av elektroniske dokumenter - HiOA

Langtidslagring av elektroniske
dokumenter
For Høgskolen i Oslo, avdeling JBI
Martin Bould
Rådgiver, avdeling for elektronisk arkiv
1
Forskjellen mellom arkivmateriale og
biblioteksmateriale
 Arkiv består unike eksemplarer av dokumenter som
blir til som ledd i utøvelsen av en virksomhet. Et arkiv
kan bestå av trykte eksemplarer av dokumentet
 Dokumentet er pr definisjon ikke mangfoldiggjort
eller publisert.
 Det håndskrevne bokmanuset – versus den trykte
boken
 Stortingsmeldingen – forarbeidene rånotater og
underlagsmateriale
2
Lagringsmedier
 Elektronisk arkivmateriale som avleveres eller
overføres til Riksarkivet skal normalt overføres på
CD-R plater.
 Reglene sier i dag at det skal være 2 kopier og at
platene skal være standard 74 minutter 650 MB
(dette kan endres) CD-R plater kopieres hvert femte
år.
 Vi kan etter avtale også godta båndformater så lenge
det er lesbart med utstyret vårt.
 Lagringsmedier er ikke viktig – alternative strategier
vil være lagringsnettverk…..
3
Hva er et elektronisk arkiv?
 Et arkiv er en samling informasjon som er mottatt
eller skapt av et organ eller en person/familie som
ledd i utøvelsen av en aktivitet/virksomhet.
 Informasjonen må bestå av tilstrekkelig innhold,
form, struktur og kontekst til at den kan
dokumentere at aktiviteten har funnet sted.
 Informasjonen kan være på et hvilket som helst
format og lagret på et hvilket som helst medium
(papir, tegning, foto, film, harddisk, magnetbånd osv.)
 Informasjonen i et elektronisk arkiv er produsert
ved hjelp av IT-verktøyer og lagret i et binært
format på elektroniske medier.
4
Eksempler på elektroniske arkiver
 De aller fleste administrative IT-systemer hos en
arkivskaper er i følge definisjonen elektroniske
arkiver. Dette kan for eksempel være:
 Internadministrative systemer:
- Journal- og arkivsystemer, dvs. systemer som styrer
arkivering og gjenfinning av saksdokumenter.
- Andre: Regnskapssystemer, Lønns- og personalsystemer.
 Fagsystemer, dvs. systemer som ivaretar det
spesielle fagområdet til den enkelte virksomhet:
- Svært mange fagsystemer i offentlig forvaltning er
saksbehandlings- eller klientsystemer.
- Grunnlagsregistre, dvs. registre som inneholder nøkkelinformasjon til bruk i saksbehandligen. Mange av disse er
felles for en hel etat eller for hele forvaltningen.
5
Strategier for bevaring av
elektronisk informasjon
 Teknologibevaringsstrategien: Vi bevarer både
maskiner, programmer og data i orginalformat.
-
Urealistisk, depotene ville ende opp som tekniske museer.
 Emuleringsstrategien: Vi bevarer programmer og data i
originalformat. Egne programmer som emulerer
(etterligner) operativsystemet på den opprinnelige
maskinvaren må da utvikles (jf. Jeff Rothenburg).
- Slike programmer finnes ikke i dag.
 Migrasjonsstrategien: Vi bevarer bare data som er
konvertert til et standardisert format. Dette format
kan leses av programmer og maskinvare også i framtiden.
- Vi må stadig konvertere (migrere) til nye formater etter hvert
som teknologien utvikler seg.
6
Hva skal bevares – funksjonalitet
eller transaksjoner?
 Er det viktig å bevare funksjonaliteten i det opprinnelige
systemet?
- Ved langtidslagring skal vi ikke lenger registrere eller oppdatere
informasjon i systemet. Det viktigste er at vi fortsatt kan søke i
informasjonen.
 David Bearman hevder at vi ikke bevarer arkiver med
bevisverdi dersom målet med langtidslagring er å
opprettholde (muligheten) for opprinnelig funksjonalitet.
 Det er transaksjonene som er det egentlige arkivet. Men
hva er transaksjoner?
- I et personalsystem kan dette være f.eks. når du ble ansatt,
forfremmet, pensjonert, de enkelte lønssutbetalingene osv.).
7
Logiske og fysiske enheter
 Logiske enheter inneholder informasjon som naturlig
eller arkivmessig hører sammen.
- F.eks. saksdokumenter - saker - emner - serier - arkiver.
 Fysiske enheter kan man se og ta på.
- F.eks. papirark - omslag - mapper - arkivbokser.
 Ved papirbaserte arkiver er det ofte sammenfall mellom
de logiske og fysiske enhetene.
- F.eks. kan en sak bestå av papirark lagt inn i et omslag. Ett emne
(etter arkivkoden) består av omslag lagt inn i en mappe.
 Ved elektroniske arkiver finnes det ingen slik tilknytning
til fysiske enheter. Elektroniske arkiver er kun logiske
(”virtuelle”).
8
Hva er et (elektronisk) dokument?
 Et dokument er den minste enheten i et arkiv.
- Engelsk arkivterminologi skiller mellom record og document.
Norsk oversettelse: Arkivdokument, saksdokument.
 I elektroniske systemer kan dokumenter lagres som
enkeltfiler (f.eks. i Word- eller PDF-format).
 Men dokumenter kan også lagres i databaseformat.
- Fremstår som et dokument på skjermen, men er lagret som
mange forskjellige felter i en database.
 Hvordan skal vi langtidslagre dokumenter som er
lagret i en databaseform?
 Består egentlig ”rene” databasesystemer av
dokumenter i det hele tatt?
9
Dokumenter og metadata
 Arkiver (engelsk: records) består av følgende
integrerterte komponenter:
-
Innhold (selve ”teksten”)
Form (layout, fonter, skriftstørrelse, innrykk osv.)
Struktur (den indre orden)
Kontekst (forholdet til omgivelsene)
 Innholdet og formen er først og fremst knyttet til
selve dokumentene.
 Struktur og kontekst kalles ofte metadata.
- I et elektronisk arkiv- og dokumenthåndteringssystem (som
f.eks. er basert på Noark-4) er metadata ofte den
informasjonen som er lagret i selve databasen (”journalen”).
10
Langtidslagring av elektronisk informasjon
 IT-systemer kan ikke langtidslagres.
- Dagens programvare ikke vil være kjørbar på framtidens
datamaskiner.
 Vi kan bare langtidslagre et uttrekk av dataene.
- Dette uttrekket kan utgjøre all informasjon (innhold) som er
lagret i systemet i form av tabeller eller dokumentfiler. Men
vanligvis vil det dreie seg om et utvalg data (f.eks. hovedtabellene eller eldre, uaktuell data som skal saneres).
 Informasjon som er bundet til selve programvaren kan
ikke langtidslagres.
- Måten form, struktur og kontekst presenteres for brukerne
på, er for en stor del avhengig av programvaren, og vil dermed
ikke kunne bli bevart.
11
Forskjellige typer uttrekk
 Tabelluttrekk: én tabell eksporteres til én fil.
- Dette er den vanlige formen for avlevering. Dersom databasen
har en komplisert oppbygning med mange tabeller blir
tilgjengeliggjøring svært problematisk.
 Dokumenter: ett dokument eksporteres til én fil.
- Disse er enkle å håndtere hver for seg. Men antallet filer vil
ofte bli svært stort. Dokumenter må alltid avleveres sammen
med tilhørende databaseuttrekk (som da utgjør metadata).
 Forenklede databaseuttrekk: informasjon fra flere
tabeller blir eksportert til én eller noen få filer.
- Kan gjøres i form av joins av tabeller eller være spesialdefinert.
Slike uttrekk blir langt enklere å tilgjengeliggjøre.
 Rapporter: én rapport skrives ut til én fil.
- Filene tas ut i ”utskriftsformat” og er dermed umiddelbart
tilgjengelig.
12
Rutiner for å håndtere avleveringer
 Allerede når et system designes og programmeres bør
det legges opp til rutiner for produksjon av
avleveringsuttrekk.
 Et system som stadig oppdateres og overskrives, kan
f.eks. produsere et avleveringsuttrekk hvert år. Viser
status på et gitt tidspunkt (”årgangsnitt”).
 Overskrevet informasjon kan overføres til egne
historiske logger, som det gjøres uttrekk av.
 Dersom eldre poster etter hvert blir uaktuelle, kan
det med jevne mellomrom oppstå behov for å sanere
databasen. Avleveringsuttrekket består da av disse
sanerte dataene.
13
Dokumentasjon (tekniske metadata)
 Informasjon om form, struktur og kontekst i det
opprinnelige systemet kan delvis opprettholdes ved at
det avleveres dokumentasjon eller tekniske
metadata i tillegg til selve datauttrekket.
 Den viktigste dokumentasjonen er innholds- og
strukturbeskrivelsen av uttrekket. Dette må
dokumenteres detaljert og helt nøyaktig.
 I tillegg må også selve IT-systemet dokumenteres,
f.eks. i form av en datamodell. Den administrative
sammenhengen, hovedrutinene i systemet, utveksling
av data med andre systemer osv. bør også beskrives.
- Denne dokumentasjonen kan f.eks. finnes i system- og
driftshåndbøker, samt i brukerhåndbøkene.
14
Arkivformater for uttrekk fra databaser
Datauttrekk fra databaser og registre kan langtidslagres som tekstfiler (ASCII-kode) hvor poster og
felter er strukturert på følgende måte:
 Fast format
- Fast felt og postlengde. Vanligvis ikke noe postskilletegn.
 ”Kommaseparert” format
- Feltene skilles med et spesialtegn (f.eks. semikolon).
Postskilletegn er oftest linjeskift.
 ”Tagget” format (SGML eller XML)
-
Skal foreløpig bare brukes ved avleveringer fra Noark-4.
15
Arkivformater for dokumenter
 Ren tekst - ISO 8859-1: 1998, Latin-1, eventuelt ISO 8859-4:





1998, Latin-4 for samiske tegn
TIFF – Tag Image File Format, versjon 6 (Aldus/Adobe, 1992)
PNG – Portable Network Graphics
XML – Extensible Markup Language og subset-formatet XHTML
PDF – Portable Document Format. (PDF-A fra 2005)
For lyd- og video-sekvenser aksepteres følgende formater:
 For digital lyd: MP3 (ISO 11172-3)
 For digital video: MPEG2 (ISO 13818-2)
16
Avlevering fra Noark-systemer
 Informasjon fra journal-databasen (tabellene):
- Avleveres som tekstfiler i XML-format, strukturen i
databasens tabeller opprettholdes med ”tagger”.
- Hver tabell skal eksporteres til en egen fil.
- En egen fil (NOARK.IH) inneholder overordnede opplysninger
om tabellene som er avlevert.
 De elektroniske dokumentene:
- Avleveres i ett av de fire arkivformatene. Hvert dokument
skal avleveres som en egen fil.
- Fra tabellene skal de være en referanse (link) til dokumentene
vha. dokumentenes filnavn (ISO 9660).
 Elektroniske rapporter (utskrifter):
- Avleveres også i XML-format.
- Saks- og dokumentoversikt.
- Kronologisk journal.
17