menu

arrow_back Hvordan bør et depot håndtere store uttrekk på over 1 TB?

av
(423 poeng) 1 3 11
i Elektroniske arkiver
244 visninger
0 stemmer

Dagens produksjon av digitalt skapt arkivmateriale i kommunal og statlig sekter skjer i hovedsak i
- Saksarkiv
- Fagsystem

Med fullelektronisk saksbehandling, så blir størrelsen på ved periodisering eller ved avslutning av systemet av økende størrelse, og for mange no over 1 TB.
Jeg har notert meg fra tidligere at arkivverket hadde en grense på 1 TB størrelse på uttrekk som statlig sektor leverte inn.

Hvordan bør et statlig eller kommunalt depot håndtere store uttrekk på over 1 TB?
- Kan vi med dagens løsninger motta så store som helst uttrekk, f. eks. mange TB?
- Eller er teknologien på mottak, validering, bevaring og formidling dårlig egnet til å håndtere så store uttrekk samlet?
- Bør vi da sørge for at vi får mindre uttrekk ved å ikke ta flere arkivdeler i samme uttrekk?
- Eller på andre møte begrense innhold med å avgrense på grupper av årstall eller andre inndelinger av materialet?
- Og i så fall hvordan er dette mulig, å arkivskaper/leverandør sin side eller transformasjoner/migrering i depot?

2 Svar

Akseptert svar
2 stemmer
 
Akseptert svar

Begrensningen på 1 TB, fra teknisk forskrift §5-29 punkt 2, ble satt grunnet begrensninger i lagringsløsningen som ble valgt. Tape-kassetter [uten komprimering] var på 1 TB, og man satte av 1 kassett til hver arkivpakke som ble bevart, for å ikke måtte hente opp flere kassetter ved vedlikehold.

Senere ble den faktisk økt til 4 TB, men forskriften fulgte ikke raskt etter. Nok en grunn til å holde den mindre teknologi-avhengig..

av
(117 poeng) 1 1 5
akseptert av
Akseptert svar
1 stemme

Setter veldig stor pris på informasjonen som Jørgen gir i sitt svar.

Jeg kan jo skyte inn at vi har valgt å angripe dette med to hovedtiltak:

1. Datafangst

Vi ber om at datafangsten deles opp i flere deponeringspakker (i serie), som deretter overføres samlet i en overføringspakke
(Dette er fra hukommelsen, så det kan være noen mangler eller småfeil her. Samtidig kan det være punkter her som ikke gjelder for alle leveranser.).

Med tilleggene som kom i Arkade5 2.10, så har vi fått muligheten til å angi pakkenummer og overføringstype på hver deponeringspakke. Dette gir oss muligheten til å begrense størrelsen per pakke med stor fleksibilitet.

Database/Metadatapakke
NEW med pakkenummer 1.0 eller VERSION med pakkenummer N+1.0
Datafangstens hovedgrunnlag. Oftest trukket ut av en databaseteknologi med verktøy som Full Convert (Spectral Core) eller DBPTK. Vi aksepterer også datadumper (SQLite, csv, JSON eller XML).
Vi anbefaler her noen forhåndsregler:
- Dersom datafangsten produserer XML, JSON eller andre tekstformater og disse filene er større enn 250MB per fil, så bør det vurderes om disse kan deles opp etter arkivdel eller annen oppdelingsstrategi.
- Vi anbefaler å legge ved en tilleggspakke som inneholder en SQLite databasedump for både sak/objekt- og fagsystemer. Spesielt i tilfeller hvor materialet lagres til SIARD.

Fillager/Dokumenter
SUPPLEMENT med pakkenummer 1.1/1.2 eller SUPPLEMENT med pakkenummer N+1.1/N+1.2 for VERSION
Her anbefaler vi litt forskjellige løsninger, avhengig av noen faktorer:
- Dersom størrelsen på fillageret er under 25GB kan det legges ved i egen mappe i pakke N.0, dersom fillageret er større en 25GB, skal det opprettes en pakke N.1/N.2 etter følgende anvisning:
- Dersom datafangsten kun produserte arkivformater, skal disse legges i egen pakke N.1.
- Dersom datafangsten produserte originalformater, som ønskes konvertert til forskriftsmessige formater, skal originalformatene legges i N.1 og konverteringer i N.2. Dette gjelder også hvor produsenten ikke kan vise til fullstendig rapport hvor konverterte filer er sjekket for datatap, korrupsjon eller andre tekniske avvik.

Videre stiller vi krav til at SIARD eller andre databaseleveranser skal oversendes med binære data trekt ut av databasestrukturen jf. §5-12 e og f i Forskrift om utfyllende tekniske og arkivfaglige bestemmelser om behandling av offentlige arkiver.

Dokumentasjon
SUPPLEMENT med pakkenummer 1.3 eller SUPPLEMENT med pakkenummer N+1.3 for VERSION
Teknisk dokumentasjon som omfatter både oppsett, drift og vedlikehold av originalsystem. Denne pakken skal også inneholde en mappe som dokumenterer oppstart, planlegging og utføring av datafangsten - som skal omfatte blant annet informasjon om strukturelle- eller innholdsmessige avvik, krypteringer eller korrupsjon og hvilke tiltak eller vedtak som er aksjonert på disse. Annen dokumentasjon, slik som onboarding, tjenesteavtaler og evt. anskaffelsesvedtak kan vedlegges i denne pakken.

Loggdata
SUPPLEMENT med pakkenummer 1.4 eller SUPPLEMENT med pakkenummer N+1.4 for VERSION
Logger fra produksjonsmiljø som vedrører innholdet (f.eks. oppslag, oppføring, oppdatering, endring og sletting). Det kreves her at disse loggene er riktig referert i grunnlagsdatabasen. dersom disse foreligger (er de dokumentert og innebygd i databasen kan det være hensiktsmessig å trekke dem ut for å gjøre databasen mindre). Autentiserings- eller systemlogger kan også vedlegges i denne pakken. Det forutsettes at innholdet i denne pakken er godt dokumentert.

Beskrivelser
SUPPLEMENT med pakkenummer 1.5 eller SUPPLEMENT med pakkenummer N+1.5 for VERSION
Beskrivelser av databaserelasjoner, klassediagrammer og annen informasjon som kan bidra til å øke kvaliteten på innholdet i fremtiden. Det skal samtidig foreligge beskrivelser som indikerer forskjell på systemtabeller og brukergenerert innhold i grunnlagsdatabasen. Dokumentasjon som beskriver andre relasjoner (f.eks. fil- eller aktør-relasjoner, tilgangstabeller, brukertabeller eller andre administrative detaljer) skal også legges i denne pakken. Har det vært tilgangsstyring i et system skal det medfølge konkret informasjon som gjør det mulig å avgrense innholdet.

Malsett
SUPPLEMENT med pakkenummer 1.6 eller SUPPLEMENT med pakkenummer N+1.6 for VERSION
Om originalsystemet kunne produsere utskrivbare dokumenter, skal malene som er benyttet for slike utskrifter legges ved. Det kan være maler for f.eks. karakterutskrifter, utgående brev eller vedtak.

Denne strategien sikrer oss mot å måtte håndtere enorme pakker flere ganger dersom første leveranse blir avvist. Vi kan da be om å få tilsendt kun de pakkene som krever korreksjon. Disse pakkene merkes så med REPLACEMENT og gis samme pakkenummer som opprinnelig pakke, anført med bokstav N.N(a-z), f.eks. dersom pakke 1.3 har mangler som ikke er i henhold til avtalen, så skal en korreksjon sendes med overføringstype REPLACEMENT og pakkenummer 1.3a for første korreksjon, 1.3b for eventuell andre korreksjon og så videre.

Samtidig opprettholder vi uforanderlighet ved at vi alltid lagrer original pakkeserie i 5.3.2 løsning med integritetstesting på årlig basis. Vi kuraterer arkivpakken for forsendelser som er av samme proveniens; når nye perioder blir oversendt, innlemmes disse i arkivpakken. Vi bruker i hovedsak METS for å binde pakkene, men har også laget et internt manifest som følger arkivpakkene med en egen metadatastruktur som er spesielt utviklet for å tilfredstille våre bevaringsbehov.

2. Periodisering

Vi deltar i prosjektmøtene som leder opp til datafangst og anbefaler at det gjennomføres det vi kaller syntetiske periodeskiller eller at arkivene deles opp i mindre deler dersom det er mange store arkivdeler.
- For objektarkiver ber vi om at inaktive objekter deles inn i femårsperioder etter inaktivitetsdato.
- For fagsystemer kan det være hensiktsmessig å evaluere materialet grundig, for å se hvordan det eventuelt kan deles opp. Her er vi uansett mye mer fleksible.

Vi tar kun imot arkivmateriale som er eldre en 8-10 år (avhengig av eierens perdiodiseringsregime.). For yngre perioder, anbefaler vi at eieren ordner med historisk tilgang hos nåværende leverandør. Vi har også bistått med arkivplan og BK som beskriver et periodiseringsregime med gjennomgang og kvalitetssikring - men dette er ikke publisert til alle eierene våre ennå.

Vi forsøker også å påvirke inn i anskaffelsesprosessen slik at disse og mange andre tiltak blir spesifisert i tjenesteavtalene. Vi kan ikke gjøre så mye med det som var, men vi forsøker å hjelpe med det som kommer.

Håper dette inspirerer andre.

av
(380 poeng) 1 2 13
redigert av

Velkommen!

Søk etter svar, still spørsmål og bidra med kunnskap sammen med norges felleskap på felter som arkiv, konservering og formidling. Alle er velkomne som medlemmer! Her er terskelen for å spørre veldig lav.


Kunngjøringer :

Artikkelmodulen vil snart bli tilgjengelig!