menu

arrow_back Hvilket format lagrer du metadataene i? (avstemming)

av
(11 poeng) 1
i SIG:Formater
725 visninger
1 stemme

Hei.

Lurer på hva som er mest utbredt der ute for strukturert lagring av "metadata". I tillegg til det konkrete formatet, håper jeg å høre mer om spesialisering, som valg av tegn-separator eller flat struktur mot trestruktur.

Eksempel:
- Lastet opp i database
- SIARD sin struktur per xml på tabell-rad-felt
- Noark 5 sin nøstede struktur
- Spesielle tegn fordi et felt inneholder kompleks tekst
- Andre formater; Proprietære formater som excel-regneark, binære formater som Apache Parquet eller lignende

Valg:
Fastlengde
Tegn-separert [komma, tab o.l.]
XML, JSON o.l.
Database
Annet

2 Svar

Akseptert svar
1 stemme

Ikke noe enkelt entydig svar

  1. Noe befinner seg i database (ASTA eller Primus)
  2. Noe påføres filene bevisst (embeded som IPTC, XMP etc)
  3. Noe legges inn i fotoware løsning som er en kombinasjon av database og embeded med kobling (referanser) tilbake til ASTA eller Primus
av
(42 poeng) 1 1 6

2 Kommentarer

0
Er det først og fremst snakk om selvdokumenterte dokumenter / mediefiler,  eller har dere strukturerte data lagret som refererte ressurser i FotoWare? Brukes noen av systemene til mer enn "denne filen finnes", som å lese informasjon fra selve filen (statistikk, oppslag eller lignende)?
0
Beklager sent svar, tydeligvis ikke altfor ofte her inne:

Selvdokumenterende

Vi referer ikke til resurser i fotoweb men har f.eks en egenkomponert referanse (arkivsignatur) til ASTA som kan dekodes til stien i asta. Hvor mer katalog informasjon finnes. Hadde håpet at Stiftelsen ASTA og Arkivverket (og andre?) hadde jobbet tettere om løsninger slik museumssektoren gjør med KulturNav slik at Digitalarkivet, ASTA, Arkivportalen, Wikiwpedia, lokalhistoriewiki, fotoweb etc sømløst hang bedre sammen (og automatisk kunne kobles)
Akseptert svar
0 stemmer

Vi sitter med samme opplevelse som det Rolf beskriver, en kombinasjon av eksterne metadata (koblinger), interne metadata (programvare/verktøy) og embedded (f.eks XMP).

Jeg vet dette er en mulig digresjon, men en tanke jeg har hatt lenge rundt denne problemstillingen, er hvordan vi kan gjøre dette mer tilgjengelig for endemottaker. Hvordan kan vi samtidig effektivisere behandling og ordning? SIARD består av uspesifiserte binærfiler med referanser i XML, sammen med evt. tabelldata. Det er en kjennsgjerning at denne modellen tar mye tid og krever veldig mye maskinvarekraft (ikke minst minne) for å jobbe med, enkeltprosesser i produksjonslinjen kan ta flere dager, noen ganger flere uker. XML kan være rask når det først er lastet i minnet, men når vi nå begynner å se arkivpakker som nærmer seg maksgrensen på 1TB (§5-29 andre ledd) så kan dette ta flere dager å laste inn om man i det hele tatt har maskinvare som kan håndtere det. Dette gjelder for metadata, men også for selve grunnlaget. Prosessen med formatanalyse er også ganske tidkrevende, og i mange tilfeller veldig unødvendig, siden denne informasjonen som regel ligger i databasen ved siden av kolonnen med blobben.

Vi ser på muligheten for å konvertere METS og SIARD til sqlite for å omgå disse problemene. Vi bruker fortsatt DIAS som referansestruktur, men har valgt å lagre metadata og logger i /packageinfo.sqlite med egne tabeller for forskjellige typer arkivspesifikke metadata og aktiviteter. Så lagres tabelldata i content/database.sqlite med filreferanser og metadatareferanser i /content/metadata.sqlite. Utvunnede dokumenter i lagres så i /content/documents.

Dette gjelder nok ikke i alle tilfeller, og jeg vil tro det er mange meninger om gyldigheten ved det jeg sier, men vi har i allefall merket en markant (og ganske drastisk) nedgang i behandlingstid når vi jobber med sqlite på disk fremfor minne, ikke fordi selve prosessen er raskere, men fordi aksess og søk er ufattelig mye raskere og bekvemmelig.

av
(380 poeng) 1 2 13

1 kommentar

0
Ikke tvil om at database er bedre tilrettelagt enn xml-filer for spørringer, in-memory eller hendelsesbasert. Tilsvarende vil det være en god ide med ulike databaser tilgjengelig via datavarehus, mens øyeblikksbilder som skal bevares, tas ut til stort-men-tregt lagringsområde. Lite som slår indekser.

Men interessant tilnærming!

Velkommen!

Søk etter svar, still spørsmål og bidra med kunnskap sammen med norges felleskap på felter som arkiv, konservering og formidling. Alle er velkomne som medlemmer! Her er terskelen for å spørre veldig lav.


Kunngjøringer :

Artikkelmodulen vil snart bli tilgjengelig!