ESA og Kontor 2000 har begge en dokumentstruktur der dokumentene, på grunn av datidens teknologi, ble splittet opp i 32 kB biter. Altså inntil 32 kB størrelse på BLOB-element pr. rad lagret i dokument-tabellene.
Viktige momenter mht. ditt spørsmål
- ESA kan ha hvilke som helst filformater lagret i BLOBs, så at et eksempel har Word Perfect-filer er sådan irrelvant for andre instanser av systemet
- En PRONOM filanalyse av de oppsplittede BLOB'ene gir dårlig resultat, du vil da kanskje få treff på de radene med BLOKKNR 1, samt kanskje også den siste med blokknr = n. Alle andre vil vise som binære filer sannsynligivs
- Man må altså sette sammen dokumenter til hele filer for at PRONOM analyse skal gi mening
Vi har laget en C#-kode for å ta utgangspunkt i et SIARD-uttrekk av ESA/Kontor 2000, der vi erstatter radene BLOKKNR 1-n med en rad (altså blokknr 1), der da FILESIZE er hvor stor antalle slicer totalt sett var 1-n satt sammen til en fil. Denne koden er ikke rett fram klar til deling, så vi må finpusse litt på den før vi formelt kan dele i GitHub (men vi kan dele litt mer uformelt om noen vil vite logikken).
Detaljer om fil og rader for tabeller med dokumentfiler
- Hver enkelt rad til en fil har samme FILID i tabellene for dokumenter.
- Så vil delene av filen ha BLOKKNR = 1 til n for n antall slicer av 32 kB der alle unntatt siste = 32 kB i størrelse, og den siste så langt fila rekker til EOF.
- FILESIZE er da altså 32 kB for alle n untatt siste
- FIL er BLOB rådata binært
Dokument-tabeller
- DGDOKLAGER0 .. DGDOKLAGERn
- POSTKASSE
name type typeOriginal nullable
FILID VARCHAR(40) VARCHAR2(40) USANN
BLOKKNR DECIMAL(38) NUMBER(38) SANN
FILSIZE DECIMAL(38) NUMBER(38) SANN
FIL BLOB LONG RAW SANN