Hvordan kan vi bruke KDRS Innsyn - Piql Insight søk for indeksering og intelliget analyse av datakvalitet?
Utgangspunkt er KDRS Innsyn - Piql Insight utviklet av KDRS med støtte fra Arkivverkets utviklingsmidler
- KDRS Innsyn - Piql Insight v1.0.0 mot Noark 5
- Siste versjon Piql Insight v1.1.0 med støtte for flere formater og funksjonalitet
- Siste beta Piql Insight v1.2.0 beta3
Eksempel her tar utgangspunkt i importert Noark 5 v3.1 arkivstruktur.xml
Piql Insight gir opsjon etter import uttrekket eks
- "37703 vedlegg funnet (totalt 12135 MB). Skal de gjøre søkbare?"
- Svarte JA her og får da totalt 37198 .txt filer i en undermappe "\vedlegg"
- De fleste dokumenter ser ut til å ha fin tekst
- En del dokumenter har kryptiske tegn
- En del dokumenter er åpenbart nestet tom for innhold
- En del dokumenter er helt tomme = 0 kB
Spørsmål
1. Hvilke verktøy kan vi bruke i Depot for validering og dokumentasjon av datakvalitet på tekstlig innhold av disse .txt filene? Her er intelligent datanalyse interessant, i stedet for at vi bare må ta stikkprøver å se manuelt et utvalg av indeksfilene!
2. Hvilke kriterier bruker Piql Insight på indeksering fra filer som finnes i uttrekket inn mot indeksering? Tar man kun PDF/A filer, alle PDF filer, andre utvalg av filformater, basert på filendelse eller analyse av filtypen eller tas alle filer som finnes tilgjengelig?
KDRS Innsyn - Piql Insight