menu

arrow_back Hvilke verktøy kan vi bruke for å validere pdfa i store uttrekk uten krasj midt i testen?

av
(423 poeng) 1 3 11
i Programvare
redigert av
184 visninger
0 stemmer

Depot mottar store samlinger av avsluttede systemer, der alle dokumenter i prinsippet skal være i godkjent arkivformat ihht. arkivlov med forskrift.

I praksis opplever depot utfordringer med å validere pdfa i store uttrekk uten krasj midt i testene
1. Hvilke verktøy kan brukes uten krasj (da med hvilken innstilling for å opppnå dette)?
2. Hva kan årsakene til krasj være?

Lister opp noen verktøy

veraPDF
- v1.23.2 En stabil god versjon (en av de første versjon som håndterte PDF'er med avviket at innholdet var større en pekeren på innhold sa det var?)
- v1.24.1 Siste gjeldende versjon pr. 08.03.2024, fungerer også brukbart (erfarer krasj på store uttrekk og noen spesielle tilfeller takler ikke noen zip-filer)

Arkade 5
- v2.11.1 Har verktøy med pdfa-validering som er en veraPDF-versjon (uten at jeg ser hvilken versjon som er brukt og ingen logger lages heller)

Lister opp noen mulige årsaker
- Meget store uttrekk 300 GB++, i alle fall 1 TB og større, kan gi problemer for verktøyet som ikke er skalert for det?
- Meget store pdfa eller andre filer som verktøyet prøver å valdere kan gi problemer for verktøyet som får minne- eller andre problemer av individuell filstørrelse på dokumentfilen som valideres (ikke relatert til total pakkestørrelse)
- Noen filformater eller varianter av filformater som utløser uønsket output som fører til krasj (i vårt eksempel noen zip-filer ga krasj)
- Java minne overflow (F. eks. må veraPDF settes opp eller startes med kokrete/andre parametre? En test som kjører no har 4 455 GB Java minne kjørende for veraPDF.)

1 kommentar

0
Arkade rapporterer om tredjepart-bibliotek i bun av Systemdokumentasjon (https://docs.arkade.arkivverket.no/no/latest/Systemdokumentasjon.html).

Ville det vært en forbedring å skalere opp overhead (håndtere logging og formatering) og gjøre kall mot validator pér fil, mot lengre prossesering. Eller beholde flertråd- funksjonalitet som kan spare gode prosenter i tidsbruk, selv om det kan bli "hit-and-miss" i enkelt-tilfeller?

1 svar

Akseptert svar
0 stemmer

Jeg spurte ChatGPT.

Spørsmål 1:
Hvorfor krasjer veraPDF når vi kjører pdfa validering av mapper som også inneholder zip filer?

Chat GPT 3.5 svar:

veraPDF er primært designet for å validere enkeltstående PDF/A-filer, ikke mapper som inneholder zip-filer eller andre filtyper. Når du prøver å validere en mappe som inneholder zip-filer, kan veraPDF oppleve feil eller uventet atferd fordi den ikke er konstruert for å håndtere slike typer inndata direkte.

Når du gir en mappe som inneholder zip-filer til veraPDF, er det sannsynlig at veraPDF ikke gjenkjenner formatet eller strukturen til inndataene, noe som kan føre til krasj eller feilmeldinger. veraPDF forventer PDF/A-filer som inndata for validering, og den er ikke konstruert for å håndtere nestede zip-filer eller mapper som inneholder zip-filer som standard.

For å løse dette problemet, kan du først trekke ut PDF/A-filene fra zip-arkivene innenfor mappen, og deretter validere dem individuelt ved hjelp av veraPDF. Alternativt, hvis zip-filene inneholder PDF/A-filer, kan du skrive et skript eller bruke et verktøy for å trekke ut PDF/A-filene automatisk og deretter validere dem med veraPDF.

I oppsummering, krasjing av veraPDF når du forsøker å validere mapper som inneholder zip-filer, skyldes sannsynligvis at den ikke er designet for å håndtere slike inndata. For å unngå disse krasjene, må du forebehandle inndataene for å trekke ut PDF/A-filene eller justere arbeidsflyten din for å imøtekomme veraPDFs krav til inndata.

Spørsmål 2:
Har veraPDF minneproblemer i java?

Chat GPT 3.5 svar:

Ja, som med mange Java-applikasjoner, kan veraPDF oppleve minnerelaterte problemer avhengig av størrelsen på PDF-filene den behandler og minneinnstillingene som er konfigurert for Java Virtual Machine (JVM).

Hvis veraPDF brukes til å behandle store PDF-filer eller en stor mengde PDF-filer samtidig, kan det oppstå minnelekkasjer eller uttømming av minne hvis JVM ikke har tilstrekkelig minne tildelt til den. Dette kan føre til ytelsesproblemer eller til og med krasj av applikasjonen.

For å løse eller minimere slike minneproblemer, kan du justere minneinnstillingene til JVM ved å bruke parametere som -Xmx og -Xms for å angi henholdsvis maksimalt og startminne for heapen. For eksempel:

java -Xmx2g -Xms512m -jar verapdf.jar [ytterligere parametere]

Dette vil tildele 2 GB maksimalt minne og 512 MB startminne til JVM. Juster disse verdiene etter behov basert på størrelsen og kompleksiteten til PDF-filene du jobber med og den tilgjengelige systemressursen.

Det er også anbefalt å overvåke minnebruken til JVM under utførelsen av veraPDF ved hjelp av verktøy som VisualVM eller JConsole for å identifisere og håndtere eventuelle minnerelaterte problemer.

Spørsmål 3:
Hva er årsaken til verapdf feilmelding "Invalid CEN header (bad entry name)"?

Chat GPT 3.5 svar:

Feilmeldingen "Invalid CEN header (bad entry name)" i veraPDF indikerer vanligvis et problem med en fil som er inkludert i en ZIP-arkivfil innleiret i PDF-dokumentet. Denne feilen oppstår når navnet på en fil i ZIP-arkivet ikke er gyldig i henhold til ZIP-spesifikasjonen.

Det er flere potensielle årsaker til denne feilen:

  1. Ugyldig filnavn: Navnet på en fil i ZIP-arkivet kan inneholde tegn eller sekvenser som ikke er tillatt ifølge ZIP-spesifikasjonen. Dette kan inkludere spesialtegn, styringskoder eller tegn som er reservert for spesielle formål.

  2. Feilkonvertering: Det kan være problemer med konverteringen av filnavn til riktig tegnsett eller kodestandard. Dette kan føre til at filnavnene blir feilfortolket eller ikke kan gjenkjennes korrekt av veraPDF.

  3. Korrupt ZIP-fil: ZIP-arkivfilen som inneholder den aktuelle filen, kan være korrupt eller skadet. Dette kan føre til ugyldige eller uleselige filnavn, noe som resulterer i feilen.

  4. Feil plassering eller format: Filen som forårsaker feilen, kan være plassert feil i ZIP-arkivet, eller det kan være feil med arkivets struktur eller formatering.

For å løse denne feilen, kan du prøve følgende tiltak:

  • Sjekk filnavnene og sørg for at de overholder ZIP-spesifikasjonen og ikke inneholder ugyldige tegn eller sekvenser.
  • Kontroller integriteten til ZIP-arkivet og sørg for at det ikke er korrupt eller skadet.
  • Forsøk å ekstrahere filen manuelt fra ZIP-arkivet og inspiser filnavnet for eventuelle ugyldige tegn eller problemer.
  • Verifiser at ZIP-arkivet er riktig plassert og strukturert innenfor PDF-dokumentet.
  • Hvis feilen vedvarer, kan det være lurt å rapportere problemet til veraPDF-utviklingsteamet, slik at de kan undersøke nærmere og eventuelt utbedre eventuelle feil eller begrensninger i programvaren.
av
(423 poeng) 1 3 11
redigert av

Velkommen!

Søk etter svar, still spørsmål og bidra med kunnskap sammen med norges felleskap på felter som arkiv, konservering og formidling. Alle er velkomne som medlemmer! Her er terskelen for å spørre veldig lav.


Kunngjøringer :

Artikkelmodulen vil snart bli tilgjengelig!