OCR behandling av dokumentene

OCR står for Optical character recognition

Dette er en rask digital prosess som idag gjør en rimelig grei jobb. Nyere dokumenter har ofte en gjenkjenningsrate opp mot 85%. Det som ikke gjenkjennes er tegninger, “rare” bokstaver, “rare” ord, utydelige bokstaver i teksten osv. Her har vi en lien del av OCR resultatet fra dokument 100146:

l
ske aktstykker>: ti’ll.get.6 rettigheter.
«Presidentskapet vil gj¸re Dem og 3) Heller ikke hans oplysnlng om at
offentligheten kjem med f¸lgende: han ved Il offentliggj¸re disse doku1)
Overl¿ge Scharffenberg har ikke menlter håper å tvinge frem en videre
s¸kt og ikke fått presidentskapets til-offentliggj¸relse av lignende dokumenlatelse
til å offentliggj¸re de hemme-ter, kan berettigede hans handlemåte.
lige dokumenter han har tatt inn 1 4> Overl¿gen må v¿re klar over a

Det ser kanskje ikke overbevisende ut! Men i hele dokumenter fanges mye nøkkelinformasjon opp. Et søk på :

“+Legionen +Nesodden” gir et treff basert på OCR: dokument: 114734

En fin kombinasjon da jeg var kjent med en fra Legionen som etter krigen bosatte seg på Nesodden.