Google gir ut OCR-programvare

kilogram · 5. september 2006

Google har lagt ut tekstgjenkjenningsprogramvaren Tesseract på Sourceforge. Tesseract var lenge en av de aller beste tekstgjenkjenningsmotorene på markedet.

Les mer

38 080 · 5. september 2006

Har selv prøvd OmniPage versjon 8 og 11. Disse versjonene av Omnipage synes jeg er omtrent helt ubrukelig, og hvis det skulle være brukelig til noe så er det GARANTERT ikke særlig anvendelig.

Savner en ordentlig tekstgjenkjenningsprogramvare. Får håpe "folk med som har vett på ting" skraper sammen en ordentlig programvare når vi nå har fått litt grunnlag levert ut fra Google. En må jo bare "ta av seg hatten" for det Google.com gjør for oss databrukere.

Canute · 5. september 2006

kan automatisk konvertere teksten på et innlest bilde til vanlig tekst. (...) åpen-kildekodeprosjekt på SourceForge.

Hva med slike sider som krever at du skriver inn det som står i et bilde for å for eksempel registrere seg?

efikkan · 5. september 2006

Det ser ut som Google har gjort noe bra igjen. Mer gratis programvare og åpen kildekode er bare positivt, selv om programvaren kanskje ikke er den beste.

Manuel · 5. september 2006

kan automatisk konvertere teksten på et innlest bilde til vanlig tekst. (...) åpen-kildekodeprosjekt på SourceForge.

Hva med slike sider som krever at du skriver inn det som står i et bilde for å for eksempel registrere seg?

6808700[/snapback]

Det vil ikke fungere med mindre OCR-programvaren vet hvilke former som tilsvarer de ulike bokstavene og tegnene. Det er ikke snakk om intelligens her...

Det ser ut som Google har gjort noe bra igjen. Mer gratis programvare og åpen kildekode er bare positivt, selv om programvaren kanskje ikke er den beste.

6808730[/snapback]

Selvsagt gjør de ikke dette bare fordi de er snille. Tross alt driver de forretning. Det de oppnår ved å gi ut "gratis" programvare er å etablere navnet "google" og ikke minst få ryktet som den "snille programvareutvikleren som er kul og åpen". Når de i tillegg får folk til å arbeide for seg gratis - og frivillig, så er dette slettes ikke en dårlig "deal" for Google.

Endret 5. september 2006 av Manuel

Defekt · 5. september 2006

Det ser ut som Google har gjort noe bra igjen. Mer gratis programvare og åpen kildekode er bare positivt, selv om programvaren kanskje ikke er den beste.

6808730[/snapback]

Selvsagt gjør de ikke dette bare fordi de er snille. Tross alt driver de forretning. Det de oppnår ved å gi ut "gratis" programvare er å etablere navnet "google" og ikke minst få ryktet som den "snille programvareutvikleren som er kul og åpen". Når de i tillegg får folk til å arbeide for seg gratis - og frivillig, så er dette slettes ikke en dårlig "deal" for Google.

6808957[/snapback]

Endrer jo ikke det faktum at Google har gjort noe bra og at mer gratis programvare og åpenkilde bare er positivt?

ATWindsor · 5. september 2006

Har selv prøvd OmniPage versjon 8 og 11. Disse versjonene av Omnipage synes jeg er omtrent helt ubrukelig, og hvis det skulle være brukelig til noe så er det GARANTERT ikke særlig anvendelig.

Savner en ordentlig tekstgjenkjenningsprogramvare. Får håpe "folk med som har vett på ting" skraper sammen en ordentlig programvare når vi nå har fått litt grunnlag levert ut fra Google. En må jo bare "ta av seg hatten" for det Google.com gjør for oss databrukere.

6808550[/snapback]

Selv om man alltid skulle ønske at det var bedre når det er dårligere enn perfekt (og forsåvidt kan undre seg over at det ikke er lettere å gjenkjenne trykt tekst), så synes jeg det er endel bedre enn ubrukelig, det går ganske mye fortere å bruke OCR og deretter rette, enn å skrive inn alt manuelt (ihvertfall for meg)

AtW

Endret 5. september 2006 av ATWindsor

Manuel · 5. september 2006

Selvsagt gjør de ikke dette bare fordi de er snille. Tross alt driver de forretning. Det de oppnår ved å gi ut "gratis" programvare er å etablere navnet "google" og ikke minst få ryktet som den "snille programvareutvikleren som er kul og åpen". Når de i tillegg får folk til å arbeide for seg gratis - og frivillig, så er dette slettes ikke en dårlig "deal" for Google.

6808957[/snapback]

Endrer jo ikke det faktum at Google har gjort noe bra og at mer gratis programvare og åpenkilde bare er positivt?

6809221[/snapback]

Nei. Det er bra for oss og bra for dem.

modin · 5. september 2006

Dette er jo selvsagt helt genialt, av Google da de kan bruke et Open Source miljøet til å utvikle et tekstgjennkjenningsprogram som de igjen kan bruke til å scanne inn bøker til Google books. Hvis OpenSpource folkene setter igang med å utvikle Tesseract motoren vil det neppe gå veldig lang tid før denne er på nivå med de beste OCR programmen på markedet i dag. Da slipper google å kjøpe dyre linsenser for OCR programmer for å skanne inn bøker, regner med at produsenten av OCR programmer vil ha en sum per bok som blir gjort tilgjengelig ved hjelp av deres program. Desuten er nok mange produsenter av OCR programmer skeptisk til å involvere seg i et prosjekt som google books hvor man ikke er helt klar på det juridiske.

ps. Vi må slutte å tenke slik at det som er bra for et selskap er dårlig for oss. Finnes nok av eksempler på at det som lønner seg for forbrukerne også lønner seg for selskapene. Det er denne effekten selskaper som google og Apple forsøker å utnytte da de benytter seg av Open Source miljøet til å utvikle programmer for dem. Det er jo genialt at man lar Open Source folk bygge opp kjernen i programmene sine, så legger man på ekstra funksjoner og brukervennlighet etterpå som ikke er opensource, slik at man hindrer at andre aktører stjeler det ferdige produktet.

Endret 5. september 2006 av modin

ATWindsor · 5. september 2006

ps. Vi må slutte å tenke slik at det som er bra for et selskap er dårlig for oss. Finnes nok av eksempler på at det som lønner seg for forbrukerne også lønner seg for selskapene. Det er denne effekten selskaper som google og Apple forsøker å utnytte da de benytter seg av Open Source miljøet til å utvikle programmer for dem. Det er jo genialt at man lar Open Source folk bygge opp kjernen i programmene sine, så legger man på ekstra funksjoner og brukervennlighet etterpå som ikke er opensource, slik at man hindrer at andre aktører stjeler det ferdige produktet.

6809766[/snapback]

Det er jo ikke så mye vits å tenke det motsatte heller, bedrifter gjør stort sett de tror er best for seg selv, så får vi heller være glad når det tilfeldigvis er bra for oss også.

AtW

modin · 5. september 2006

Det er jo ikke så mye vits å tenke det motsatte heller, bedrifter gjør stort sett de tror er best for seg selv, så får vi heller være glad når det tilfeldigvis er bra for oss også.

AtW

6809828[/snapback]

Sosialister lager gjerne teorier om at det er en konflikt mellom arbeid og kapital, og mellom produsent og konsument. Jeg vil si at dette svært sjelden stemmer, i hvertfall i dagens samfunn. Sanheten er at langt oftere har brukere, og produsent eller arbeidsgiver og arbeidstaker felles interesser. Feks her med Google hvor google bruker datamiljøet til å utvikle et program for seg som de skal bruke til google books. Mot at datamiljøet får bruke dette programmet gratis. Dette gir bare fordeler for begge parter, de eneste som ikke drar fordel av dette er andre produsenter av OCR som kan miste markedsandeler.

Det finnes tusen eksempler på dette, så nå må man få slutt på myten om slemme kapitalistiske selskaper som bare vil kundene sine det værste. Ethvert selskap er selvsagt tjent med å ha fornøyde kunder.

ps. Jeg vet selsvsagt at bedriftene gjør det som er best for dem selv. Mitt poeng er ikke at de ikke gjør det, men snarere det at i mange tilfeller er de samme tingene som er best for bedriften også best for oss. De finnes situasjoner i økonomien hvor en forandring fører til at alle parter får det bedre. Det kan feks. være at produsentene øker overskuddet samtidig som at kundene får bedre og billligere produkter.

Endret 5. september 2006 av modin

tigerdyr · 6. september 2006

Det vil ikke fungere med mindre OCR-programvaren vet hvilke former som tilsvarer de ulike bokstavene og tegnene. Det er ikke snakk om intelligens her...

Sjovt du skal nevne det, for tekstgjenkending er en av kroneksemplerne for algoritmer innen kunstig intelligens. Såkaldte neurale nett brukes for å emulere en hjerne - de trenes opp til å kunne gjenkjenne input de aldrig har set før og da er der nettopp snakk om intelligens.

Vindstille · 6. september 2006

Elsker måten Google gjør ting på. Goolge bør være et forbilde for selskaper.

w00pla · 6. september 2006

Det vil ikke fungere med mindre OCR-programvaren vet hvilke former som tilsvarer de ulike bokstavene og tegnene. Det er ikke snakk om intelligens her...

Sjovt du skal nevne det, for tekstgjenkending er en av kroneksemplerne for algoritmer innen kunstig intelligens. Såkaldte neurale nett brukes for å emulere en hjerne - de trenes opp til å kunne gjenkjenne input de aldrig har set før og da er der nettopp snakk om intelligens.

6812657[/snapback]

Tenk deg en neural-net prosessor! Piloter som aldri blir trøtte, som aldri gjør feil. Biler som kjører av seg selv og ikke minst - enda en Terminator film :w00t:

Men seriøst: OCR er jo genialt når det funker. En lærer vi hadde i fjor gjorde det med en eldre c++ bok. Ikke helt genialt akkurat, syntaxene fikk litt feil. For eksempel ble alle l-ene 1-tall i stedet for. Men ellers funker det jo ofte bra.

38 080 · 6. september 2006

Omnipage er muligens greie nok på bokstavgjenkjenning generellt i forhold til en del andre. Dette er ikke selvmotsigende mot min tidligere post, fordi jeg ikke gikk inn på detaljer. Kanskje dette blir litt Off-topic å gå slik i detalj. Omnipage produktet blir jo profilert i salgskanaler og sånn ganske flittig, og må på den måten ansees som et av de bedre kjente produktene for folk flest (ihvertall navnet).

Noen krav jeg stiller til en slik programvare:

- Når et tegn blir analysert feil så må det kunne rettes opp i. Stikkord: Læremodus.

- Så brukervennlig som mulig, men også de avanserte funksjonene må være lette å finne og bruke

- At det takler alle typer materiale: Tidsskrifter, bøker med mer.

- At det takler analysering av siden ordentlig, slik at inndeling av bilder og tekst blir riktig.

- Så er det sikkert flere jeg kunne kommet med om jeg hadde hatt en mer vellykket erfaring med slik programvare. Noe jeg ikke har fordi jeg valgte å dumpe det inntil videre.

- At programmet skal kunne skape en effektiv hverdag for brukeren.

- Kundeoppfølging er også meget viktig. Når jeg klaget til ScanSoft på produktene fikk jeg ikke noe gehør for min kritikk av produktet. Det minste de kunne tilbudt var en gratis oppgradering til nyeste versjon når de lager et så lite brukervennlig produkt. Det er ikke sikkert jeg ville blitt særlig mer fornøyd med nyeste versjon heller, men ScanSoft gjorde ingenting for meg. Da har jeg betalt for 2 lisenser av versjoner med ganske stor spredning i versjonsnummer.

Det eneste jeg kan anbefale til dere andre er å be om å få demonstrert produktet om mulig før kjøp av "katta i sekken". Produktet i de nevnte versjonene kan IKKE anbefales. En venn testet også versjon 14 eller hva det er kommet til, han ble heller ikke særlig imponert over brukervennligheten.

Mangler med nevnte Omnipage versjoner:

- For lite brukervennlig innlæringsmodus

- Meget dårlig gjenkjenning av sidelayout

- Savner at du selv kan tegne opp over innskanningen hvor bildene ligger og hvor teksten ligger, slik at programmet kan levere sluttlayout slik du ønsker uten for mye plunder i etterkant

Det var det viktigste jeg kom på i farten. Det er lenge siden jeg så på programmet sist gang nå. Og det blir Garantert lenge til jeg aksepterer dette produktet.

#Innlegget redigert av moderator ihht. forumets retningslinjer (#8)#

Endret 7. september 2006 av Dotten

Logg inn

Google gir ut OCR-programvare

Anbefalte innlegg

kilogram

Lenke til kommentar

Videoannonse

G

Lenke til kommentar

Canute

Lenke til kommentar

efikkan

Lenke til kommentar

Manuel

Lenke til kommentar

Defekt

Lenke til kommentar

ATWindsor

Lenke til kommentar

Manuel

Lenke til kommentar

modin

Lenke til kommentar

ATWindsor

Lenke til kommentar

modin

Lenke til kommentar

tigerdyr

Lenke til kommentar

Vindstille

Lenke til kommentar

w00pla

Lenke til kommentar

G

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer