Monthly Archives: July 2014
www.sno.no
NS Årbok 1944
Da er jobben gjort
Alt av dokumenter og avisa “Folk og Land” er nå lagt inn i databasen.
Dokumentene finner du her: www.sno.no
Det er noen mindre avvik, en årgang med aviser som mangler, feil i noen dokumentfiler. Dette er ting som hører inn under mer normalt vedlikehold.
OCR behandling av dokumentene
OCR står for Optical character recognition
Dette er en rask digital prosess som idag gjør en rimelig grei jobb. Nyere dokumenter har ofte en gjenkjenningsrate opp mot 85%. Det som ikke gjenkjennes er tegninger, “rare” bokstaver, “rare” ord, utydelige bokstaver i teksten osv. Her har vi en lien del av OCR resultatet fra dokument 100146:
l
ske aktstykker>: ti’ll.get.6 rettigheter.
«Presidentskapet vil gj¸re Dem og 3) Heller ikke hans oplysnlng om at
offentligheten kjem med f¸lgende: han ved Il offentliggj¸re disse doku1)
Overl¿ge Scharffenberg har ikke menlter håper å tvinge frem en videre
s¸kt og ikke fått presidentskapets til-offentliggj¸relse av lignende dokumenlatelse
til å offentliggj¸re de hemme-ter, kan berettigede hans handlemåte.
lige dokumenter han har tatt inn 1 4> Overl¿gen må v¿re klar over a
Det ser kanskje ikke overbevisende ut! Men i hele dokumenter fanges mye nøkkelinformasjon opp. Et søk på :
“+Legionen +Nesodden” gir et treff basert på OCR: dokument: 114734
En fin kombinasjon da jeg var kjent med en fra Legionen som etter krigen bosatte seg på Nesodden.
Legionen, støttropp Berg
Støttropp Berg Puh… nye detaljer. fra side 25
Ah.. En ny dagbok fra Legionstiden
Denne har ikke jeg sett før: http://www.sno.no/files/documents/110019.pdf
sno.no trenger din hjep
En hel del dokumenter har nå kommet opp fra det store mørket. De er søkbare i OCR delen, men tekst feltet “Tittel” er blankt. Håper noen kan bidra med å sende meg noen linjer en gang i blant. Dokumentnummer og tekst, så får vi orden på det også. Send dette til lasse@tur.no så skal jeg få det inn så fort jeg kan.
Arkivet – sno.no
Nå nærmer vi oss slutten på oppdateringen. Vi har nå benyttet alt av tidligere data. I tillegg er alt OCR lest. Noen filer er ubegripelig selv for OCR lesing. Håndskrift, tegninger, bilder er og kan være uforståelig for et slikt system.
Nå må en manuell jobb gjøres og jeg trenger hjelp. Kan noen av Dere ta tak i dette. I Søkefeltet er det et Idnr, dette er selve dokumentnummeret. Ved å søke på dette vil dokumentet komme opp. Om dokumentet er forståelig lage en kort tekst 10-20 ord. Dette skal inn i feltet Tittel. For å få gjort det må Idnr og tittel (teksten) sendes med på mail: lasse@tur.no Da skal vi få det inn etterhvert. De som har lyst til. å prøve kan jo sende meg en mail og få tildelt noen dokumenter.
Bedre søkefunksjoner
Søkefunksjonene inkluderer nå også feltet “Forfatter”. Som med eksempelet her: +OLAV +INGEMAR +TUFF Det er nå muligheret til å søke seg fram til nær sagt alt av informasjon i arkivet www.sno.no