Langtidslagring av elektroniske dokumenter - HiOA
Download
Report
Transcript Langtidslagring av elektroniske dokumenter - HiOA
Langtidslagring av elektroniske
dokumenter
For Høgskolen i Oslo, avdeling JBI
Martin Bould
Rådgiver, avdeling for elektronisk arkiv
1
Forskjellen mellom arkivmateriale og
biblioteksmateriale
Arkiv består unike eksemplarer av dokumenter som
blir til som ledd i utøvelsen av en virksomhet. Et arkiv
kan bestå av trykte eksemplarer av dokumentet
Dokumentet er pr definisjon ikke mangfoldiggjort
eller publisert.
Det håndskrevne bokmanuset – versus den trykte
boken
Stortingsmeldingen – forarbeidene rånotater og
underlagsmateriale
2
Lagringsmedier
Elektronisk arkivmateriale som avleveres eller
overføres til Riksarkivet skal normalt overføres på
CD-R plater.
Reglene sier i dag at det skal være 2 kopier og at
platene skal være standard 74 minutter 650 MB
(dette kan endres) CD-R plater kopieres hvert femte
år.
Vi kan etter avtale også godta båndformater så lenge
det er lesbart med utstyret vårt.
Lagringsmedier er ikke viktig – alternative strategier
vil være lagringsnettverk…..
3
Hva er et elektronisk arkiv?
Et arkiv er en samling informasjon som er mottatt
eller skapt av et organ eller en person/familie som
ledd i utøvelsen av en aktivitet/virksomhet.
Informasjonen må bestå av tilstrekkelig innhold,
form, struktur og kontekst til at den kan
dokumentere at aktiviteten har funnet sted.
Informasjonen kan være på et hvilket som helst
format og lagret på et hvilket som helst medium
(papir, tegning, foto, film, harddisk, magnetbånd osv.)
Informasjonen i et elektronisk arkiv er produsert
ved hjelp av IT-verktøyer og lagret i et binært
format på elektroniske medier.
4
Eksempler på elektroniske arkiver
De aller fleste administrative IT-systemer hos en
arkivskaper er i følge definisjonen elektroniske
arkiver. Dette kan for eksempel være:
Internadministrative systemer:
- Journal- og arkivsystemer, dvs. systemer som styrer
arkivering og gjenfinning av saksdokumenter.
- Andre: Regnskapssystemer, Lønns- og personalsystemer.
Fagsystemer, dvs. systemer som ivaretar det
spesielle fagområdet til den enkelte virksomhet:
- Svært mange fagsystemer i offentlig forvaltning er
saksbehandlings- eller klientsystemer.
- Grunnlagsregistre, dvs. registre som inneholder nøkkelinformasjon til bruk i saksbehandligen. Mange av disse er
felles for en hel etat eller for hele forvaltningen.
5
Strategier for bevaring av
elektronisk informasjon
Teknologibevaringsstrategien: Vi bevarer både
maskiner, programmer og data i orginalformat.
-
Urealistisk, depotene ville ende opp som tekniske museer.
Emuleringsstrategien: Vi bevarer programmer og data i
originalformat. Egne programmer som emulerer
(etterligner) operativsystemet på den opprinnelige
maskinvaren må da utvikles (jf. Jeff Rothenburg).
- Slike programmer finnes ikke i dag.
Migrasjonsstrategien: Vi bevarer bare data som er
konvertert til et standardisert format. Dette format
kan leses av programmer og maskinvare også i framtiden.
- Vi må stadig konvertere (migrere) til nye formater etter hvert
som teknologien utvikler seg.
6
Hva skal bevares – funksjonalitet
eller transaksjoner?
Er det viktig å bevare funksjonaliteten i det opprinnelige
systemet?
- Ved langtidslagring skal vi ikke lenger registrere eller oppdatere
informasjon i systemet. Det viktigste er at vi fortsatt kan søke i
informasjonen.
David Bearman hevder at vi ikke bevarer arkiver med
bevisverdi dersom målet med langtidslagring er å
opprettholde (muligheten) for opprinnelig funksjonalitet.
Det er transaksjonene som er det egentlige arkivet. Men
hva er transaksjoner?
- I et personalsystem kan dette være f.eks. når du ble ansatt,
forfremmet, pensjonert, de enkelte lønssutbetalingene osv.).
7
Logiske og fysiske enheter
Logiske enheter inneholder informasjon som naturlig
eller arkivmessig hører sammen.
- F.eks. saksdokumenter - saker - emner - serier - arkiver.
Fysiske enheter kan man se og ta på.
- F.eks. papirark - omslag - mapper - arkivbokser.
Ved papirbaserte arkiver er det ofte sammenfall mellom
de logiske og fysiske enhetene.
- F.eks. kan en sak bestå av papirark lagt inn i et omslag. Ett emne
(etter arkivkoden) består av omslag lagt inn i en mappe.
Ved elektroniske arkiver finnes det ingen slik tilknytning
til fysiske enheter. Elektroniske arkiver er kun logiske
(”virtuelle”).
8
Hva er et (elektronisk) dokument?
Et dokument er den minste enheten i et arkiv.
- Engelsk arkivterminologi skiller mellom record og document.
Norsk oversettelse: Arkivdokument, saksdokument.
I elektroniske systemer kan dokumenter lagres som
enkeltfiler (f.eks. i Word- eller PDF-format).
Men dokumenter kan også lagres i databaseformat.
- Fremstår som et dokument på skjermen, men er lagret som
mange forskjellige felter i en database.
Hvordan skal vi langtidslagre dokumenter som er
lagret i en databaseform?
Består egentlig ”rene” databasesystemer av
dokumenter i det hele tatt?
9
Dokumenter og metadata
Arkiver (engelsk: records) består av følgende
integrerterte komponenter:
-
Innhold (selve ”teksten”)
Form (layout, fonter, skriftstørrelse, innrykk osv.)
Struktur (den indre orden)
Kontekst (forholdet til omgivelsene)
Innholdet og formen er først og fremst knyttet til
selve dokumentene.
Struktur og kontekst kalles ofte metadata.
- I et elektronisk arkiv- og dokumenthåndteringssystem (som
f.eks. er basert på Noark-4) er metadata ofte den
informasjonen som er lagret i selve databasen (”journalen”).
10
Langtidslagring av elektronisk informasjon
IT-systemer kan ikke langtidslagres.
- Dagens programvare ikke vil være kjørbar på framtidens
datamaskiner.
Vi kan bare langtidslagre et uttrekk av dataene.
- Dette uttrekket kan utgjøre all informasjon (innhold) som er
lagret i systemet i form av tabeller eller dokumentfiler. Men
vanligvis vil det dreie seg om et utvalg data (f.eks. hovedtabellene eller eldre, uaktuell data som skal saneres).
Informasjon som er bundet til selve programvaren kan
ikke langtidslagres.
- Måten form, struktur og kontekst presenteres for brukerne
på, er for en stor del avhengig av programvaren, og vil dermed
ikke kunne bli bevart.
11
Forskjellige typer uttrekk
Tabelluttrekk: én tabell eksporteres til én fil.
- Dette er den vanlige formen for avlevering. Dersom databasen
har en komplisert oppbygning med mange tabeller blir
tilgjengeliggjøring svært problematisk.
Dokumenter: ett dokument eksporteres til én fil.
- Disse er enkle å håndtere hver for seg. Men antallet filer vil
ofte bli svært stort. Dokumenter må alltid avleveres sammen
med tilhørende databaseuttrekk (som da utgjør metadata).
Forenklede databaseuttrekk: informasjon fra flere
tabeller blir eksportert til én eller noen få filer.
- Kan gjøres i form av joins av tabeller eller være spesialdefinert.
Slike uttrekk blir langt enklere å tilgjengeliggjøre.
Rapporter: én rapport skrives ut til én fil.
- Filene tas ut i ”utskriftsformat” og er dermed umiddelbart
tilgjengelig.
12
Rutiner for å håndtere avleveringer
Allerede når et system designes og programmeres bør
det legges opp til rutiner for produksjon av
avleveringsuttrekk.
Et system som stadig oppdateres og overskrives, kan
f.eks. produsere et avleveringsuttrekk hvert år. Viser
status på et gitt tidspunkt (”årgangsnitt”).
Overskrevet informasjon kan overføres til egne
historiske logger, som det gjøres uttrekk av.
Dersom eldre poster etter hvert blir uaktuelle, kan
det med jevne mellomrom oppstå behov for å sanere
databasen. Avleveringsuttrekket består da av disse
sanerte dataene.
13
Dokumentasjon (tekniske metadata)
Informasjon om form, struktur og kontekst i det
opprinnelige systemet kan delvis opprettholdes ved at
det avleveres dokumentasjon eller tekniske
metadata i tillegg til selve datauttrekket.
Den viktigste dokumentasjonen er innholds- og
strukturbeskrivelsen av uttrekket. Dette må
dokumenteres detaljert og helt nøyaktig.
I tillegg må også selve IT-systemet dokumenteres,
f.eks. i form av en datamodell. Den administrative
sammenhengen, hovedrutinene i systemet, utveksling
av data med andre systemer osv. bør også beskrives.
- Denne dokumentasjonen kan f.eks. finnes i system- og
driftshåndbøker, samt i brukerhåndbøkene.
14
Arkivformater for uttrekk fra databaser
Datauttrekk fra databaser og registre kan langtidslagres som tekstfiler (ASCII-kode) hvor poster og
felter er strukturert på følgende måte:
Fast format
- Fast felt og postlengde. Vanligvis ikke noe postskilletegn.
”Kommaseparert” format
- Feltene skilles med et spesialtegn (f.eks. semikolon).
Postskilletegn er oftest linjeskift.
”Tagget” format (SGML eller XML)
-
Skal foreløpig bare brukes ved avleveringer fra Noark-4.
15
Arkivformater for dokumenter
Ren tekst - ISO 8859-1: 1998, Latin-1, eventuelt ISO 8859-4:
1998, Latin-4 for samiske tegn
TIFF – Tag Image File Format, versjon 6 (Aldus/Adobe, 1992)
PNG – Portable Network Graphics
XML – Extensible Markup Language og subset-formatet XHTML
PDF – Portable Document Format. (PDF-A fra 2005)
For lyd- og video-sekvenser aksepteres følgende formater:
For digital lyd: MP3 (ISO 11172-3)
For digital video: MPEG2 (ISO 13818-2)
16
Avlevering fra Noark-systemer
Informasjon fra journal-databasen (tabellene):
- Avleveres som tekstfiler i XML-format, strukturen i
databasens tabeller opprettholdes med ”tagger”.
- Hver tabell skal eksporteres til en egen fil.
- En egen fil (NOARK.IH) inneholder overordnede opplysninger
om tabellene som er avlevert.
De elektroniske dokumentene:
- Avleveres i ett av de fire arkivformatene. Hvert dokument
skal avleveres som en egen fil.
- Fra tabellene skal de være en referanse (link) til dokumentene
vha. dokumentenes filnavn (ISO 9660).
Elektroniske rapporter (utskrifter):
- Avleveres også i XML-format.
- Saks- og dokumentoversikt.
- Kronologisk journal.
17