menu

arrow_back Hvordan validere deponerte uttrekk i csv format (tegnseparerte filer) ?

av
(423 poeng) 1 3 11
i Elektroniske arkiver
redigert av
198 visninger
0 stemmer

Det kan av og til komme inn filer i csv format (tegnseparerte filer) som innlevert deponering fra arkivskaper til depot.
Eller blir produsert som en de av produksjonslinje i depot.

Spørsmål
1. Hvordan kan depot validere csv filer?
2. Kan det valideres hver rad og kolonne verdi sin felt datatype opp mot en metadata definiasjon?
3. Kan det valideres på business logic nivå, dvs f. eks. analysere at en fødelsdato er reell, eller andre område eller formbegrensninger utover hva en tradsjonell databaserepresentasjon av feltet er (dette er direkte sammenlignbar med SIARD-validering på SIARD-spec nivå versus innholdverdi analyse av feltenes verdier)
4. Kan det lages analyse av antall forekomster og statistikk på datagrunnlaget? (hvor mange av ulike felter har verdi og alt fra max, min, gjennomsnitt og annen statistikk)?
5. Hvilke verktøy kan brukes (Arkade 5? The V File Viewer kan vise meget store filer også, men ikke validere? Andre verktøy?)

Legger til
- csv filer kan lastes opp til f. eks. MySQL og så kjøre SQL valideringer, men det forusetter jo at csv filen er gyldig mot tabellens felter (må opprettet tabell med korrekte kolonner før import av csv)
- Kanskje CSV validator fra The Natinal Arhchives kan brukes?
- Spectral Core Full Convert støtter csv formatet både i Source og Target, så da vil jo migrering av csv fil bli validering under migrering og loggfil lages med resultater av denne valideringen

1 svar

Akseptert svar
0 stemmer

Arkade kan gjøre 1-3 og deler av 4.

I en addml-fil kan du spesifiere antall poster/rader med informasjon i csv-filen, relasjon til andre filer, kolonnetittel-nivå (Ifor å unngå valideringsfeil), minste og største lengde, unikhet for verdi i kolonne, om felt kan mangle verdi, kode-bruk i felt (verdi / forklaring), korrekt tegnsett, post- og feltskille (system-avhengig og løsning-avhengig), anførselstegn (egendefinert eller standard csv), lesing av spesielle tegn-verdier (om noen har brukt et tastatur-oppsett med annen verdi for æøå), feltformat (Arkade følger Arkivverkets profil med string, integer, decimal, date, boolean, link), tekstjustering med fyll-tegn og angivelse av null-verdier.
Støttede prosesser finnes her, hvor det meste fra punkt 2 til 4 kontrolleres, med fokus på lesbarhet og definisjon. Det er ikke støtte for statistikk som gjennomsnitt, kun behandling av verdi (minste/største, korteste/lengste, mangler, antall forekomster og mangler definisjon).
Det er støtte for feltformat, enten i form av forhåndsdefinerte koder (fødselsnummer - fnr/organisasjonsnummer - org/kontonummer - knr), ellerdefinert form (nn.nn for å definere punktum som desimaltegn, n.nnn for å definere som tusenskille, nnE+exp for eksponentielle verdier, år-måned-dag potensielt med time-minutt-sekund med eller uten millisekund og tidssone - dd.MM.yyyyTHH:mm:sszzz, bolske verdier - J/N).

Konkrete eksempler på validering med Arkade 5 og addml gjøres ved ytterligere interesse.

av
(117 poeng) 1 1 5

Velkommen!

Søk etter svar, still spørsmål og bidra med kunnskap sammen med norges felleskap på felter som arkiv, konservering og formidling. Alle er velkomne som medlemmer! Her er terskelen for å spørre veldig lav.


Kunngjøringer :

Artikkelmodulen vil snart bli tilgjengelig!