Gå til innhold

Anbefalte innlegg

Videoannonse
Annonse
Skrevet

Hvilken ASCII? Og snakker du egentlig om tegnsett nå? (ASCII er et av mange tegnsett)

Når det er sagt så kan det hende at ett tegn i tegnesett X vil bli ett annet tegn i tegnsett Y. Noe som kan føre til rare feil som virker logiske.

Skrevet (endret)

Med både tegnsettene Windows-1252 og ISO 8859-1 har tegnet Ø ASCII-koden tallkoden 216 og tegnet Ö ASCII-koden tallkoden 214.

 

Edit: Det blir feil å si "ASCII-koden" da ASCII er definert for verdiene 0-127 (7 bit). De aller fleste tegnsett følger ASCII for tallkodene 0-127.

Endret av jonny
Skrevet

For å svare på en litt annen måte.

Hvert tegn har et unikt nummer i tegnsettet det er laget i. De fleste tegnsett tar utgangspunkt i ASCII tegnsettet, så "abc" blir fortsatt "abc" hvis du oversetter direkte fra ASCII til f.eks UTF8.

 

Tegnsett har også ingenting med språk å gjøre. Et tegnsett kan godt være laget med et språk i tankene, men tegnsettet i seg selv har ingen kjennskap til dette språket. Så et tegnsett vet ikke om du vil "se teksten på svensk" eller "se teksten på norsk".

Det finnes noen tegnsett som "extended ASCII" som inneholder tegn som æøå. Og de dekker for det meste europeiske tegn.
Som du kanskje skjønner får dette store problemer når maskiner på tvers av verdensdeler snakker sammen. F.eks hvis en nettlesere på en japansk pc skal vise en side fra russland så er det neppe russisk som dukker opp.

Det er derfor vi har UTF8. UTF8 inneholder alle tegnene for alle språkene. Skandinaviske, russiske, kinesiske, arabiske, etc..

 

Men tilbake til spørsmålet: O, Ø og Ö deler aldri samme nummer i et tegnsett.

Skrevet

Hei.

Er det forskjell på svensk Ö, O med tøddler ¨ og norsk Ø når det gjelder ascii verdi? Altså hva oppfatter pc´n?

Hvordan hadde du klart å skrive begge i samme innlegg hvis det ikke var forskjell?

  • 3 uker senere...
Skrevet (endret)

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

Endret av Djn
Skrevet

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

 

Jeg lo:-)

Skrevet

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Man bruker uansett ikke to forskjellige tegnsett i samme melding.

 

Skrevet (endret)

 

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Man bruker uansett ikke to forskjellige tegnsett i samme melding.

 

 

 

Tjah, det finnes absolutt standarder hvor man kan signalisere (inline) et bytte mellom forskjellige tegnsett- men det er typisk mellom bokstaver og tegn/tall, ikke språkvarianter*. Dessuten er det vel lite utenom telex som har brukt sånt i moderne tid. **

 

Hvis vi skal være ordentlig pirkete - som helt klart er veien å gå: Det at vi kan vise ø og ö i samme post betyr - gitt at det ikke byttes inline - at det finnes minst ett tegnsett hvor de ikke overlapper. Det betyr ikke at det nødvendigvis er sant for alle tegnsett ***. Sammenlign med tastatur-scancodes, hvor ø og ö har samme tallverdi på et normalt tastatur, og hva man får opp avhenger av tastaturlayouten det blir oversatt av. :green:

 

 

* Sånn bortsett fra f.eks. russisk Baudot som hadde en kyrillisk og en latinsk blokk, men det blir vel noe litt annet.

** Jeg arvet en 80talls-maskin som brukte en bestemt verdi for "resten av linjen skal bruke blokksymboler i stedet for vanlige tegn/tall/bokstaver", og en annen verdi for å bytte tilbake; selv da den var ny var det antageligvis litt pussig.

Det hadde kanskje også gått an å snekre sammen en email som brukte MIME til å ha forskjellige blokker i forskjellige tegnsett, men a) hvorfor og b) jeg tviler på at mange klienter hadde vist det riktig.

*** Selv om jeg altså ikke tror det finnes noen moteksempler, spesielt ikke fra moderne tid.

Endret av Djn
Skrevet

Bare for å være litt grei - det hadde ikke vært umulig at et eller annet par med gamle tegnsett hadde hatt æøå /  äöå på samme posisjoner avhengig av om man brukte den dansk/norske eller svensk/finske varianten; verre ting har absolutt skjedd.

 

Jeg tror ikke det faktisk har forekommet, men om jeg sier "aldri" graver sikkert en av dere frem et par 6-bits uppercase-only hullkort-baserte IBM-standarder fra 1951 implementert én gang av norsk regnesentral som en intern spøk.

ISO 646. Og flere andre tegnsett fra "gamle dager". Vintage computing rocks!

Skrevet

 

For å omformulere litt...

Er O med tøddler det samme som svenske Ö ?

 

 

Den delen av spørsmålet glemte vi visst å svare på. Svaret er ja.

 

Det er altså 3+3 tegn:

O + o

Ö + ö

Ø + ø

 

O med ¨ over er ikke et eget tegn.

 

Så er det sånn at ikke alle tegnsett inneholder Ö og/eller Ø. De som bare inneholder én av dem kan ha dem på samme plass, se innlegget over ditt.

 

Heldigvis har vi unicode, som alle bør bruke. Da enten UTF-8 eller UCS-2, avhengig av bruksområdet.

Skrevet (endret)

ISO 646. Og flere andre tegnsett fra "gamle dager". Vintage computing rocks!

 

 

Jeg er ikke enormt overrasket. Forsåvidt logisk at det er en 7-bits-standard; de har ikke akkurat plass til overs. :)

 

 

 

For å omformulere litt...

Er O med tøddler det samme som svenske Ö ?

 

 

Den delen av spørsmålet glemte vi visst å svare på. Svaret er ja.

 

Det er altså 3+3 tegn:

O + o

Ö + ö

Ø + ø

 

O med ¨ over er ikke et eget tegn.

 

Så er det sånn at ikke alle tegnsett inneholder Ö og/eller Ø. De som bare inneholder én av dem kan ha dem på samme plass, se innlegget over ditt.

 

Heldigvis har vi unicode, som alle bør bruke. Da enten UTF-8 eller UCS-2, avhengig av bruksområdet.

 

Ha, Unicode gjør det svaret litt mindre absolutt. :D

 

Ö kan lagres på to forskjellige måter i unicode - Precomposed og Decomposed. De betyr omtrent det det høres ut som:

Decomposed form av Ö er O¨ (004F 0308 , "Latin Capital Letter O" fulgt av "Combining Diaresis"), mens

Precomposed form av Ö er Ö (00D6, "Latin Capital Letter O with Diaresis").

 

(Men merk at Emancipate har helt rett - o med tødler er identisk med svensk ö. Dette er to måter å lagre det ene tegnet.)

 

De er ment å fungere helt identisk i alle sammenhenger (sortering, sammenligning, telling av antall tegn, utseende). Precomposed er best støttet og tar mindre plass, men det er ikke gitt at alle mulige kombinasjoner av grunntegn og tillegg faktisk finnes precomposed. Decomposed lar deg sette sammen hva som helst, om du virkelig trenger en n med aksent og ring (ń̊); historisk har ikke alle fonter og systemer klart å vise alle kombinasjoner riktig.

 

Jeg har også gått på noe grums med linux-filsystem hvor du kan klare å få to filer med samme navn (det ene decomposed og det andre precomposed) og ting går spennende galt derfra. Det er vanskelig å få til uten å lage filnavn fra kode som gjør veldig eksplisitte ting med unicode, heldigvis.

 

edit: Og jeg har med en gang et eksempel: n+aksent+ring fungerer i edit-feltet for meg, men i posten henger ringen etter i stedet for over.

Endret av Djn
  • Liker 1

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...