Informații articol
Codificarea caracterelor, litere, numere și simboluri pentru un computer
Pentru a afișa litere, numere și simboluri, un computer are nevoie de un „repertoriu” de caractere.
Pentru utilizarea practică, acest set de caractere este aranjat și numerotat într-o ordine specifică.
Acest repertoriu ordonat de caractere se numește set de caractere.
Pentru ca dispozitivele să recunoască în mod corect caracterele, ele sunt descrise și de un model de biți. Acesta se numește codificarea caracterelor.
Setul de caractere specifică deja o anumită secvență și numerotare.
Modelele de biți trebuie să fie atribuite numai caracterelor pentru a crea codarea acestora.
Codificarea caracterelor e relevantă pentru documentele HTML.
Acestea sunt întotdeauna stocate cu un tip specific de codare.
Aceasta permite o alocare unică de litere, numere și simboluri ale unui set de caractere.
Informațiile despre forma de codificare folosită pentru un fișier sunt trimise browserelor.
Acest proces are loc atunci când este deschis, astfel încât biții și octeții să poată fi interpretați corect.
Codificarea caracterelor declarate nu se potrivește cu cea utilizată efectiv?
Browserele nu pot afișa corect conținutul unui website, iar motoarele de căutare nu pot folosi astfel de pagini.
De ce sunt necesare diferite seturi de caractere
Selectarea unui set de caractere determină intervalul de caractere care poate fi utilizat pe o pagină.
Literele latine nu sunt o problemă, dar unele limbi necesită mai multe litere decât altele. Sau folosesc o serie de caractere ca punctele, marcajele, liniuțele, cercurile etc.
Acest lucru poate duce la probleme dacă e necesar un caracter ce nu poate fi reprezentat de codificarea selectată.
În acest caz, în codul HTML trebuie utilizată o parafrază simbolică (referința entității).
În timp ce utilizarea de referințe funcționează relativ bine, procesul necesită mai mulți octeți.
Astfel, poate complica marcarea iar utilizarea lor în codul HTML ar trebui să fie minimă.
Ce codificare ar trebui să alegeți?
Setul de caractere SUA-ASCII este suficient pentru un website în limba engleză.
Pentru alte limbi europene, cum ar fi germana, franceza sau spaniola, ISO 8859-1 funcționează foarte bine.
E motivul pentru care a devenit un standard de facto în Europa de Vest.
Seturi de caractere poloneze, cehe, chirilice sau grecești pot alege o versiune diferită de ISO 8859.
Chiar și codificarea caracterelor ebraice, arabe și orientale pe o pagină nu e o problemă.
Este important ca UTF-8 să fie selectat pentru codarea caracterelor.
Această prescurtare înseamnă UCS Transformation Format – 8 Bit.
UTF-8 a devenit cea mai frecvent utilizată codare de caractere.
Folosește tabelul de coduri al sistemului Unicode ce conține caracterele și elementele tuturor culturilor de fonturi cunoscute determinate de lingviști.
În Unicode, numerele caracterelor sunt reprezentate de un număr de doi octeți ca mărime.
În acest fel, în tabelul de cod pot fi plasate până la 65536 de caractere.
Din acest motiv, UTF-8 este setul de caractere cel mai des utilizat pe internet.
Practic, ar avea sens să folosiți întotdeauna UTF-8 în loc să tratați entități din codul HTML.
Din păcate, acest lucru nu este întotdeauna posibil, deoarece nu toți editorii acceptă UTF-8. În plus, unele browsere mai vechi nu înțeleg UTF-8.
Cu toate acestea, problema nu ar trebui să apară prea des în zilele noastre.
Cum să specificați codificarea caracterelor din document
Ce trebuie să faceți după ce ați ales o codificare?
Asigurați-vă că informațiile corecte sunt transmise browserelor și motoarelor de căutare.
În fiecare document HTML trebuie să specificați codificarea caracterelor utilizate.
Pentru aceasta puteți utiliza fie antetul HTTP, fie cod HTML.
Specificații în antetul HTTP
Paginile web sunt furnizate prin protocolul de transfer de hipertext (HTTP).
Navigatorii trimit o solicitare prin HTTP și serverele trimit un răspuns înapoi prin HTTP.
Acest răspuns este format din două părți: antetul HTTP și corpul, separate printr-o zonă liberă.
Anteturile conțin informații despre corp (conținut).
Corpul constă apoi din resursa solicitată, de obicei un document HTML.
Informații de codare pentru acest document sunt trimise de un server prin antetul tipului de conținut.
Specificații în codul HTML
Doriți să furnizați echivalentul HTTP în cod HTML?
Utilizați un element meta în secțiunea HEAD a documentului dvs.
Rețineți că fiecare antet HTTP suprascrie un element meta în cod HTML.
Motiv pentru care server-ul web trebuie configurat în mod corect.
Pentru XML ar trebui să specificați codificarea în antetul fișierului. XML acceptă numai UTF-8 și UTF-16, ceea ce simplifică mult selecția.
Codificarea caracterelor: concluzie
Alegerea unei codări de caractere adecvate este esențială.
Mai ales dacă doriți să vă asigurați că website-ul dvs. este afișat în mod corect.
Selectați un set de caractere care nu este potrivit pentru website-ul dvs., cum ar fi ISO 8859-1.
Acesta este folosit pe un website chinez. Va trebui să utilizați multe entități din codul HTML, ceea ce crește inutil dimensiunea fișierului.
Prin urmare, în general, ar trebui să utilizați UTF-8 pentru website-uri multilingve.
UTF-8 și seria ISO 8859 sunt acceptate de toate browserele web moderne.
Majoritatea browserelor acceptă și alte codări. Dar dacă este aleasă una neobișnuită?
Riscați ca vizitatorii, inclusiv motoarele de căutare, să nu poată citi conținutul dvs.
Articole similare