Author Archives: admin

Aktiviteter på www.sno.no

Jobben er gjort med bearbeidelse av alle PDF filene og oppbygningen av ny database basert på data vi hadde og OCR data fra filene. Vi har ikke møtt noen utfordringer av betydning under veis, alt gikk egentlig greiere enn vi trodde.

Vi ligger på over 2000 økter pr måned med over 8000 side visninger. 4:13 i gjennomsnittlig øktvarighet. 70% er nye besøkene siste måned og 75% av trafikken er fra Norge.

Vi har forbedringspotensial. Med oppgraderingen er flere tusen nye dokumenter tilgjengelig etter OCR behandlingen. Det er der vi ikke har noen tittel på dokumentet. Her er det behov for bidrag fra brukerne. Dette kommer under normalt vedlikehold og det samme med en mindre serie dokumenter fra nyere arkiver som ligger klar for integrering.

Hva gjør vi framover?

Har SNO gjort jobben eller skal vi se om det er andre arkiver som kan inngå. Alt vedrørende Norge i perioden 1940 – 1945, opptakten til og historien etter denne perioden hører med. Hva mener Dere, brukerne?  Er det noen som kan ofre noen minutter på tilbakemelding? lasse@tur.no

Da er jobben gjort

Alt av dokumenter og avisa “Folk og Land” er nå lagt inn i databasen.

Dokumentene finner du her: www.sno.no

Det er noen mindre avvik, en årgang med aviser som mangler, feil i noen dokumentfiler. Dette er ting som hører inn under mer normalt vedlikehold.

 

OCR behandling av dokumentene

OCR står for Optical character recognition

Dette er en rask digital prosess som idag gjør en rimelig grei jobb. Nyere dokumenter har ofte en gjenkjenningsrate opp mot 85%. Det som ikke gjenkjennes er tegninger, “rare” bokstaver, “rare” ord, utydelige bokstaver i teksten osv. Her har vi en lien del av OCR resultatet fra dokument 100146:

l
ske aktstykker>: ti’ll.get.6 rettigheter.
«Presidentskapet vil gj¸re Dem og 3) Heller ikke hans oplysnlng om at
offentligheten kjem med f¸lgende: han ved Il offentliggj¸re disse doku1)
Overl¿ge Scharffenberg har ikke menlter håper å tvinge frem en videre
s¸kt og ikke fått presidentskapets til-offentliggj¸relse av lignende dokumenlatelse
til å offentliggj¸re de hemme-ter, kan berettigede hans handlemåte.
lige dokumenter han har tatt inn 1 4> Overl¿gen må v¿re klar over a

Det ser kanskje ikke overbevisende ut! Men i hele dokumenter fanges mye nøkkelinformasjon opp. Et søk på :

“+Legionen +Nesodden” gir et treff basert på OCR: dokument: 114734

En fin kombinasjon da jeg var kjent med en fra Legionen som etter krigen bosatte seg på Nesodden.

sno.no trenger din hjep

En hel del dokumenter har nå kommet opp fra det store mørket. De er søkbare i OCR delen, men tekst feltet “Tittel” er blankt.  Håper noen kan bidra med å sende meg noen linjer en gang i blant. Dokumentnummer og tekst, så får vi orden på det også. Send dette til lasse@tur.no så skal jeg få det inn så fort jeg kan.

blanke

Arkivet – sno.no

Nå nærmer vi oss slutten på oppdateringen. Vi har nå benyttet alt av tidligere data. I tillegg er alt OCR lest. Noen filer er ubegripelig selv for OCR lesing. Håndskrift, tegninger, bilder er og kan være uforståelig for et slikt system.

Nå må en manuell jobb gjøres og jeg trenger hjelp. Kan noen av Dere ta tak i dette. I Søkefeltet er det et Idnr, dette er selve dokumentnummeret. Ved å søke på dette vil dokumentet komme opp. Om dokumentet er forståelig lage en kort tekst 10-20 ord. Dette skal inn i feltet Tittel. For å få gjort det må Idnr og tittel (teksten) sendes med på mail: lasse@tur.no Da skal vi få det inn etterhvert. De som har lyst til. å prøve kan jo sende meg en mail og få tildelt noen dokumenter.

115865