Gå til innhold

Anbefalte innlegg

Skrevet

Hei, driver på med et lite prosjekt i python som inngår en del fillesing. Det er ingen problemer med å for eksempel ta:

 

print 'æøå'

 

i scriptet mitt, men når eg leser inn filer følger ikkje dei tegna med, noen som har en forklaring på det?

Videoannonse
Annonse
Skrevet

Usikker, vanlig .txt fil med dictionaries, hvordan kan jeg sjekke? :)

 

Så du vet ikke hva du leser inn? Så fint...

 

(Men file-verktøyet kan jo brukes til slikt i *nix-verden. F.eks.)

Skrevet

Om du ikke finner ut av det, er det noe hemmelige greier? Hvis ikke kan du bare legge den ut sånn at vi kan sjekke for deg.

Skrevet

http://pastebin.com/61F5N3RL

Her er kodene, informasjonen blir hentet fra linken i kodene. På forhånd takk ;)

 

Ok, så kildefilen er i cp1252 (*why* would you do **THAT**?!), mens du får (ikke uventet) data kodet i utf-8. Så langt, så vel. Men hva spesifikt er problemet? "tegna følger ikke med" gir simpeltheten ikke mening ("od -c" sier at de gjør det, og det ville vært fryktelig merkelig om å hente et dokument over http skulle medføre noe annet). Etter å ha fått dataene i utf-8, kan du enten bearbede dem videre som unicode-objekter i Python internt (og da må du decode() dem (beklager språkblandingen) fra en strøm i utf-8 til unicode-objekter), eller beholde dataene som strings (altså str), men da må du huske på at for å få noen tegn kodet i utf-8 som ikke finnes i cp1252 (og det er jaggu meg mange), vil du måtte ta visse grep.

 

Hva rent konkret er det du mener er feil?

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...