Unicode 101

Kirjoittaja: Judy Howell
Luomispäivä: 26 Heinäkuu 2021
Päivityspäivä: 4 Saattaa 2024
Anonim
Unicode 101
Video: Unicode 101

Sisältö



Ottaa mukaan:

Jos haluat, että sovelluksesi ovat todella globaaleja, niiden on kyettävä käsittelemään muita kieliä kuin Yhdysvaltain englantia. Unicode tarjoaa suhteellisen kivuttoman tavan tehdä se.

Jos et ole huomannut, siellä on koko maailma Yhdysvaltojen ulkopuolella. Valitettavasti edustaminen eri kielillä voi olla haastavaa ohjelmoijille. Unicode on yleinen edustamisstandardi, jonka avulla on helppoa tukea lähes mitä tahansa kieltä. Täällä voit myös katsoa Unicoden perusteet.

Mikä on Unicode?

Jos olet perehtynyt tietokoneeseen tallentamisen teknisiin yksityiskohtiin ja olet puhunut äidinkielenään englanniksi, olet todennäköisesti kuullut ASCII: stä, Yhdysvaltain tiedonvaihdon standardikoodista. ASCII kuvaa tavuja numeroiksi, kirjaimiksi, erilaisiksi symboleiksi ja ohjausmerkeiksi, jotka tekevät äänimerkin tietokoneen kaiuttimesta tai merkitsevät uuden rivin alkua. Se on ollut olemassa ikuisesti ja se toimii hienosti - jos pääkielesi on Yhdysvaltain englanti.


Monet tietokoneen käyttäjistä ympäri maailmaa puhuvat kuitenkin muita kieliä, joista monet ovat jopa lähellä englantia. Jos olet kehittäjä ja ohjelmistosi ei ota tätä huomioon, sinulla voi olla todellisia päänsärkyjä.

Ohjelmistosuunnittelija ja kirjoittaja Joel Spolsky kertoo, mitä voi tapahtua, jos ohjelmoijat eivät ole varovaisia ​​paikallisten suhteiden suhteen:

"Muutama vuosi sitten FogBUGZ: n beetatesteri mietti, pystyykö se käsittelemään saapuvia japaniksi. Japani? Heillä on japanin kieli? Minulla ei ollut aavistustakaan. Kun tarkastelin tarkkaan kaupallista ActiveX-ohjainta, jota käyimme MIME: n jäsentämiseen. , löysimme sen tekevän täsmälleen vääriä merkistöjä, joten meidän piti tosiasiassa kirjoittaa sankarillinen koodi kumotaksesi väärän muunnoksen, jonka se oli tehnyt, ja tehdä se oikein. Kun tarkastelin toista kaupallista kirjastoa, myös sillä oli täysin rikki merkkikoodin käyttöönotto. Olen ollut kirjeessä paketin kehittäjän kanssa ja hän ajatteli, että he eivät voisi tehdä asialle mitään. Kuten monet ohjelmoijat, hän vain toivoi, että sen kaikki räjähtää jotenkin. "Jos tiedät Unicodesta, voit rakentaa sovelluksia, jotka pystyvät toimimaan helposti muiden kielten kanssa. Unicode on kansainvälinen konsortio, joka pyrkii vapauttamaan todella universaalin hahmon, joka mahdollistaa todella universaalien ohjelmien kehittämisen. Tietotekniikan tutkija Donald E. Knuth nimitti sen parhaaksi työkaluksi, jonka tiedän auttaa ymmärtämään eri kulttuurien ihmisiä. "

Joten Unicodessa merkit esitetään "koodipisteinä" tavujen sijasta, jotka poistetaan siitä tavasta, jolla ne todella tallennetaan tietokoneelle. Unicode-standardi edustaa kirjaimia, numeroita, valuutasymboleja ja kirjoitussuuntaa (kieleille, jotka lukevat oikealta vasemmalle, kuten japanin, heprea ja arabian kieli).


Unicoden historia

Kuten aiemmin mainittiin, ASCII on ollut olemassa jo pitkään. Vaikka se kääntää merkit tavuiksi, se käyttää vain seitsemää bittiä kutakin tavua tavanomaisen kahdeksan sijasta. Samalla tietokoneiden leviäminen ympäri maailmaa teki tarpeellisiksi eri kielten edustamisen. ASCII: n laajentaminen ylimääräisellä bitillä vaikutti ilmeisimmältä ratkaisulta. Ongelmana oli, että jokainen yritys ja maa laajensi sitä eri tavalla, jolloin tietojen vaihtaminen eri kieliä käyttävien ihmisten kanssa oli lähes mahdotonta.

Jotkut Applen ja Xeroxin työntekijät päättivät 1980-luvun lopulla ryhtyä yhdessä ratkaisemaan ongelman ja kehittämään tavan edustaa kaikkia maan kieliä. Pian heidän joukossaan olivat Sun Microsystemsin ja IBM: n jäsenet muodostamaan Unicode-konsortion. Standardin ensimmäinen versio julkaistiin vuonna 1991, ja sitä on jatkuvasti parannettu. Lähes kaikki ohjelmat, jotka käsittelevät, ja käytännöllisesti katsoen kaikki nykyaikaiset käyttöjärjestelmät tukevat Unicodea.

UTF-8, UTF-16, UTF-32

Koska Unicode on nykyään kaikkialla läsnä, on melko helppoa lisätä tukea sovelluksellesi. Katso vain suosikkiohjelmointikielisi ohjeet.

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi


Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Unicodella on kolme makua:

  • UTF-8
  • UTF-16
  • UTF-32

Numerot viittaavat bittien määrään, johon merkit tallennetaan. Esimerkiksi UTF-8 tallentaa merkit kahdeksan bittisiin tavuihin. Se on myös taaksepäin yhteensopiva ASCII: n kanssa, ja sitä käytetään hyvin laajasti verkossa, koska se pystyy käsittelemään vieraita ja pysyy silti kompakttina. UTF-16 käyttää 16 bittiä merkkien tallentamiseen, ja tarjoaa hyvän tasapainon pienimuistin ja kyvyn käyttää merkkejä välillä. UTF-32 on ihanteellinen, kun sinun ei tarvitse huolehtia tallennustilasta.

Miksi Unicode?

Siksi he kutsuvat sitä Internetiksi. Se on tulossa melkein yleisesti saatavana. Ja jos olet kehittäjä, se kannattaa tavoittaa maailmanlaajuinen yleisö. Tämä tarkoittaa edustamista nykyaikaisella tavalla. Spolsky esittää sen tylsimmin:

"Kaikki sellaiset asiat, jotka ovat tavallisia = ASCII = merkkejä ovat kahdeksan bittiä, eivät ole vain vääriä, ne ovat toivottomasti vääriä, ja jos ohjelmoit yhä tällä tavalla, et ole paljon parempi kuin lääkäri, joka ei usko bakteereihin."

Unicode vs. ASCII

Koska ASCII on pelkkä vähimmäisvaatimus, jota tietokoneet tukevat, se ei tapahdu. Jos olet täysin varma siitä, että sovellustasi käytetään vain englanninkielisessä maailmassa, saatat päästä eroon siitä. Mutta vaikka monet ulkomaalaiset oppivat englantia muutenkin, sinun on silti parempi käyttää Unicodea, koska se on paljon joustavampi kuin ASCII. Et voi myöskään koskaan tietää, milloin käyttäjän kannattaa kirjoittaa eurosymboli tai merkkejä korostusmerkeillä.

Globaali standardi

Jos haluat, että sovelluksesi ovat todella globaaleja, niiden on kyettävä käsittelemään muita kieliä kuin Yhdysvaltain englantia. Onneksi Unicode tarjoaa suhteellisen kivuttoman tavan tehdä se. Miksi et aloittaisi ohjelmistosi globalisointia heti?