Kulturo: Nasjonalbiblioteket går digitalt

Bakke · 5. juni 2008

Nasjonalbiblioteket holder på å lagre all norsk musikk, film og tekst gjennom tidene på data. Målet er at alt skal bli tilgjengelig på nettet.

Les mer

Tordenflesk · 5. juni 2008

Hvor mye av dette er "public domain"?

Simen1 · 5. juni 2008

Som en løsning på dette skal hele arkivet digitaliseres, og biblioteket har de siste 18 månedene jobbet med å legge alt over på data.

Arbeidet har pågått i en årrekke. Omtrent fra 2000 så vidt jeg kan huske. Den gangen var saken oppe i media fordi en rekke gamle filmruller sto i fare for å gå tapt på grunn av alderdom. TV-serien halvsju ble trukket frem i media som ett av de verkene som trolig ville gå tapt. (Fjernsynsarkivet ligger hos Nasjonalbiblioteket og det er de som digitaliserer det)

toblix · 5. juni 2008

Går Nasjonalbiblioteket digitalt? Kom igjen...

jorgis · 5. juni 2008

At de digitaliserer samlingene sine er noe vi visste, det hadde vært langt mer interessant å få vite mer om hvordan, og spesielt hvilke formater de har valgt til å lagre ulike medietyper best mulig. Dette er jo data som gjerne skal kunne lagres i hundrevis av år, så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger.

Redak Tøren · 5. juni 2008

Det er et fantastisk arbeid dem gjør her. Og det med en visjon som må være alle visjoners mor.

så det hadde vært spennende å se om de har vært lure nok til å styre unna proprietære løsninger.

Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden.

Endret 5. juni 2008 av atomtissetasen

jorgis · 5. juni 2008

Selvføgelig styrer dem unna det. Hva tror du? Ingen hadde satt igang med et så stort arbeid uten å sikre seg at det vil være lesbart for alle systemer og for fremtiden.

Du husker vel at NRK gjorde det geniale sjakktrekk å digitalisere sin samling til det vidunderlige WMV-formatet? Greit nok at NRK oppbevarer litt mindre data enn Nasjonalbiblioteket, men det er likevel en avgjørelse som kommer til å bli veldig trøblete for dem i fremtiden.

jonnor · 5. juni 2008

Ligger vel i binære .doc dokumenter på en Exchange tjener... Neida Her er Ibsen digitalisert: http://www.nb.no/utlevering/contentview.js...9df20d93f4d7c3a

Fruktkake · 5. juni 2008

Bestemte de ikke at alt offentlig skulle være i OOorg?

Simen1 · 5. juni 2008

Jo, det stemmer.

Regjeringen: Åpne dokumentstandarder blir obligatoriske i staten

endrebjo · 5. juni 2008

Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare.

Simen1 · 5. juni 2008

Jeg tror det er hovedsaklig arkivet til NRK som tar plass og det er neppe lagret i WMA. Det er nok lagret i et eller annet råformat selv om det vi får se er nedkrympede WMA-filer tilpasset nettbruk.

Tekster er nok lagret i PDF eller noe sånt som takler både tekst og bilder og gjør teksten søkbar.

Musikk er nok lagret i et eller annet tapsløst format selv om det komprimeres ned til mp3 før vi får tak i det.

Ellers så har man arkivene fra alle aviser og tidsskrifter som sikkert tar litt plass.

ATWindsor · 5. juni 2008

Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare.

Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt.

AtW

KalleKanin · 5. juni 2008

Jeg syntes i utgangspunktet at 50 petabyte hørtes mye ut, men hvis de digitaliserer det ved å scanne alt inn som høyoppløste bilder, så skjønner jeg bedre hvorfor de trenger så mye. Men da blir ikke tekstene søkbare.

Jeg vil kanskje gjette man gjør begge deler på endel verk? På gamle ting kan det jo være like interessant å se hvordan ting er trykket/skrevet som teksten i seg selv ville jeg tro, uten at jeg har så god peiling på slikt.

AtW

Det gjøres begge deler:

"For å gjøre det mulig å søke i fulltekst kjøres alle digitaliserte bøker gjennom en OCR-prosess. I ordinær produksjon gjøres denne prosessen helautomatisk, og det gjøres ingen manuell kvalitets-kontroll eller oppretting. Teksten som fremkommer ved OCR-behandlingen, indekseres i vår søkemotor sammen med metadata. Ved søketreff i teksten gis man tilgang til den siden i boka der teksten ble funnet og kan bla videre derfra."

"Det digitaliseres for tiden 2 000–3 000 bøker hver måned i Nasjonalbiblioteket. Med dette volumet er det ikke gjennomførbart å gjøre manuell etterkontroll av OCR-behandling og strukturbehandling."

Se: Digitalisering av bøker i NB – metodikk og erfaringer

Alle bøker man har flere eksemplarer av "slaktes". Dvs de kuttes opp og mates i en skanner omtrent som ark i en arkmater. Det er snakk om så store volumer, at det ville være umulig å skanne alt for hånd.

Endret 5. juni 2008 av KalleKanin

jorgis · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

jonnor · 5. juni 2008

Jeg fikk inntrykket av at OCR kun er i bruk for å gi søkemulighet i dokumentene. Og til det er det helt sikkert tilfredstillende nok.

Det jeg lurer på er hvordan Nasjonalbiblioteket forholder seg til arkivering av moderne media i digital form. Alt(?) av aviser og bøker i dag lages ved hjelp av digitale verktøy og burde dermed være tilgjenglig i et passende digitalt format. Sammarbeider Nasjonalbilioteket uttover i verdikjeden for å arkivere slikt, eller overlates det til hver enkelt?

ATWindsor · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

AtW

Bolson · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

AtW

Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann.

efikkan · 5. juni 2008

Nasjonalbiblioteket holder på å lagre all norsk musikk, film og tekst gjennom tidene på data.

Det er da allerede "data", som betyr informasjon, men nå skal de lagres digitalt. Såpass faglig nivå må vi kunne forvente på denne nettsiden.

OCR brukes ikke bare til å søke gjennom bøkene. Det er også en stor fordel hvis bøker kan komprimeres i større grad (tekst tar mindre plass enn bilder).

Jeg er litt spent på hvor mange digitale eksemplar som blir lagret.

ATWindsor · 5. juni 2008

KalleKanin: Kvaliteten må jo bli så-som-så om det ikke kjøres manuell kontroll av OCR-resultater. Er dette noe de tenker å påbegynne etter det første digitaliseringsarbeidet er gjort, eller er dette noe de regner som "akseptabel" kvalitetstap i OCR-prosessen? De kunne jo vurdert å få det ut i et wiki-/launchpad-lignende format, der brukerne kan se originalbildet, og etterkontrollere selv. Om brukerne får karma eller bonuser (ikke penger) for arbeidet, vil det plutselig kunne bli attraktivt for mange brukere.

OCR som jeg har prøvd fungerer overraskende dårlig ihvertfall, selv inscannede printede sider har horribel gjennkjennelsesrate. Hvorfor det er så dårlig har jeg aldri helt skjønt, hvorfor de ikke som et mimum sjekker det opp mot ordbøker for å finne mest sannsynlige alternativ er merkelig.

AtW

Proffesjonelle OCR løsninger som man garantert bruker her er koblet mot ordlister. Egen erfaring med slike "dyre" programmer er faktisk meget bra hitrate etter man har kjørt noen lærescann.

Jeg skjønner ikke engang at man skal trenge en lærescan for å gjøre det greit på vanlige dokumenter. Et reelt eksempel er å skrive et dokument i word med standard font, lage en PDF av det, kjøre OCR på PDFen (ikke engang scannet, men fila fra "print to pdf), selv da er raten horribel. Jeg er kanskje kravstor, men jeg mener slikt er noe selv en billig OCR-sak burde klare lett.

AtW

Kulturo: Nasjonalbiblioteket går digitalt

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Hvem er aktive 0 medlemmer