Kulturo: Nasjonalbiblioteket går digitalt

efikkan · 5. juni 2008

Jeg har litt samme inntrykk som AtW av OCR-løsninger. Det må være manuell kontroll etterpå, og resultatet er ikke serlig imponerende. Håndskrift hadde vært forstålig at det kan være vanskelig, men trykte sider burde 99,99% av ordene bli korrekte.

Men jeg har likevel sansen for de scannerene som der jeg kan mate inn en stabel med ark og få den ut som PDF.

Simen1 · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

De fleste nettsteder har systemer for å unngå at en bot logger seg inn. Enten det er tall og bokstaver som er delvis skjult, utvisket eller kamuflert eller metoder som å skille fra hverandre x antall bilder med katt fra hund eller mann fra dame. En lignende kontroll kunne vært gjort automatisk av leserne ved å presentere et bilde av et par ord med tekst fra nasjonalbibliotekets bøker og be brukeren skrive det ned for å logge inn. OCR-systemet bruker selvsagt de ordene som har lavest treffsannsynlighet.

jorgis · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

De fleste nettsteder har systemer for å unngå at en bot logger seg inn. Enten det er tall og bokstaver som er delvis skjult, utvisket eller kamuflert eller metoder som å skille fra hverandre x antall bilder med katt fra hund eller mann fra dame. En lignende kontroll kunne vært gjort automatisk av leserne ved å presentere et bilde av et par ord med tekst fra nasjonalbibliotekets bøker og be brukeren skrive det ned for å logge inn. OCR-systemet bruker selvsagt de ordene som har lavest treffsannsynlighet.

Du mener reCAPTCHA? Been there, done that, men det blir i så fall noe som bare vil oversette enkeltord og aldri gi det helt store volumet. Jeg tror en løsning à la launchpad ville funket bedre.

Redak Tøren · 6. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

Dem bruker nok OCR til å indeksere og gi pekere til de aktuelle bildene søkeren skal presentere. Men teksten bør vel være tilgjengelig som et alternativ?

For øvrig er en godt kalibrert OCR (Regner med at dem har mange skriv i samme format) bort imot feilfri.

Logg inn

Kulturo: Nasjonalbiblioteket går digitalt

Anbefalte innlegg

efikkan

Lenke til kommentar

Videoannonse

Simen1

Lenke til kommentar

jorgis

Lenke til kommentar

Redak Tøren

Lenke til kommentar

Hvem er aktive 0 medlemmer