Gå til innhold

Kulturo: Nasjonalbiblioteket går digitalt


Anbefalte innlegg

Videoannonse
Annonse
Som en løsning på dette skal hele arkivet digitaliseres, og biblioteket har de siste 18 månedene jobbet med å legge alt over på data.

Arbeidet har pågått i en årrekke. Omtrent fra 2000 så vidt jeg kan huske. Den gangen var saken oppe i media fordi en rekke gamle filmruller sto i fare for å gå tapt på grunn av alderdom. TV-serien halvsju ble trukket frem i media som ett av de verkene som trolig ville gå tapt. (Fjernsynsarkivet ligger hos Nasjonalbiblioteket og det er de som digitaliserer det)

Lenke til kommentar

At de digitaliserer samlingene sine er noe vi visste, det hadde vært langt mer interessant å få vite mer om hvordan, og spesielt hvilke formater de har valgt til å lagre ulike medietyper best mulig. Dette er jo data som gjerne skal kunne lagres i hundrevis av år, så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger. :)

Lenke til kommentar

Det er et fantastisk arbeid dem gjør her. Og det med en visjon som må være alle visjoners mor.

 

så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger. :)

Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden.

Endret av atomtissetasen
Lenke til kommentar
Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden.

 

Du husker vel at NRK gjorde det geniale sjakktrekk å digitalisere sin samling til det vidunderlige WMV-formatet? :) Greit nok at NRK oppbevarer litt mindre data enn Nasjonalbiblioteket, men det er likevel en avgjørelse som kommer til å bli veldig trøblete for dem i fremtiden.

Lenke til kommentar

Jeg tror det er hovedsaklig arkivet til NRK som tar plass og det er neppe lagret i WMA. Det er nok lagret i et eller annet råformat selv om det vi får se er nedkrympede WMA-filer tilpasset nettbruk.

 

Tekster er nok lagret i PDF eller noe sånt som takler både tekst og bilder og gjør teksten søkbar.

 

Musikk er nok lagret i et eller annet tapsløst format selv om det komprimeres ned til mp3 før vi får tak i det.

 

Ellers så har man arkivene fra alle aviser og tidsskrifter som sikkert tar litt plass.

Lenke til kommentar
Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare.

 

Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt.

 

AtW

Lenke til kommentar
Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare.

 

Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt.

 

AtW

 

Det gjøres begge deler:

"For å gjøre det mulig å søke i fulltekst kjøres alle digitaliserte bøker gjennom en OCR-prosess. I ordinær produksjon gjøres denne prosessen helautomatisk, og det gjøres ingen manuell kvalitets-kontroll eller oppretting. Teksten som fremkommer ved OCR-behandlingen, indekseres i vår søkemotor sammen med metadata. Ved søketreff i teksten gis man tilgang til den siden i boka der teksten ble funnet og kan bla videre derfra."

 

"Det digitaliseres for tiden 2 000–3 000 bøker hver måned i Nasjonalbiblioteket. Med dette volumet er det ikke gjennomførbart å gjøre manuell etterkontroll av OCR-behandling og strukturbehandling."

 

Se: Digitalisering av bøker i NB – metodikk og erfaringer

 

Alle bøker man har flere eksemplarer av "slaktes". Dvs de kuttes opp og mates i en skanner omtrent som ark i en arkmater. Det er snakk om så store volumer, at det ville være umulig å skanne alt for hånd.

Endret av KalleKanin
Lenke til kommentar

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. :)

Lenke til kommentar

Jeg fikk inntrykket av at OCR kun er i bruk for å gi søkemulighet i dokumentene. Og til det er det helt sikkert tilfredstillende nok.

 

Det jeg lurer på er hvordan Nasjonalbiblioteket forholder seg til arkivering av moderne media i digital form. Alt(?) av aviser og bøker i dag lages ved hjelp av digitale verktøy og burde dermed være tilgjenglig i et passende digitalt format. Sammarbeider Nasjonalbilioteket uttover i verdikjeden for å arkivere slikt, eller overlates det til hver enkelt?

Lenke til kommentar
KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. :)

 

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

 

AtW

Lenke til kommentar
KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. :)

 

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

 

AtW

 

Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann.

Lenke til kommentar
Nasjonalbiblioteket holder på å lagre all norsk musikk, film og tekst gjennom tidene på data.
Det er da allerede "data", som betyr informasjon, men nå skal de lagres digitalt. Såpass faglig nivå må vi kunne forvente på denne nettsiden.

 

 

OCR brukes ikke bare til å søke gjennom bøkene. Det er også en stor fordel hvis bøker kan komprimeres i større grad (tekst tar mindre plass enn bilder).

 

Jeg er litt spent på hvor mange digitale eksemplar som blir lagret.

Lenke til kommentar
KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere. :)

 

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

 

AtW

 

Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann.

Jeg skjønner ikke engang at man skal trenge en lærescan for å gjøre det greit på vanlige dokumenter. Et reelt eksempel er å skrive et dokument i word med standard font, lage en PDF av det, kjøre OCR på PDFen (ikke engang scannet, men fila fra "print to pdf), selv da er raten horribel. Jeg er kanskje kravstor, men jeg mener slikt er noe selv en billig OCR-sak burde klare lett.

 

AtW

Lenke til kommentar
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...