Unicode

SEO Cluj Wiki, vă prezintă informații despre "Unicode"

Informații articol

    Unicode, standardul internațional pentru codificarea caracterelor. Standardele Unicode acoperă mai multe formate de codare a caracterelor.

    Unicode, standardul internațional pentru codificarea caracterelor

    Unicode este un standard internațional pentru codificarea caracterelor.

    E formatul ce permite codificarea și afișarea corectă a caracterelor din majoritatea sistemelor internaționale.

    Aceeași tehnologie este folosită pentru standardizarea și codificarea simbolurilor și emoji-urilor.

    Standardele Unicode acoperă mai multe formate de codare a caracterelor, cum ar fi UTF-8, UTF-16 și UTF-32.

    Arhitectura Unicode

    Unicode permite codificarea și afișarea caracterelor sau simbolurilor. Atribuie fiecărui caracter propriul cod în acest format.

    La nivel fundamental, funcționează similar cu alte formate pentru codificarea caracterelor.

    Problema cu multitudinea de formate de codare e că majoritatea acoperă doar un subset de caractere.

    De exemplu, ASCII nu suportă caractere în afara alfabetului latin.

    În plus, numărul alocat pentru fiecare caracter ar fi diferit între formate.

    Se poate ajunge la afișarea de caractere complet diferite dacă formatul de codificare greșit a fost selectat.

    Unicode rezolvă aceste probleme prin includerea caracterelor din cât mai multe sisteme de scriere.

    În acest mod, i se atribuie fiecărui caracter în parte un număr unic.

    Unicode a devenit standardul industriei, la fel și codul atribuit simbolurilor.

    Planuri

    Unicode este împărțit în grupuri continue de blocuri de cod, cunoscute sub numele de planuri.

    Există 17 planuri de la 0-16 și sunt în continuare subdivizate în blocuri.

    Fiecare plan este, în general, destinat să conțină în el caractere foarte slab legate.

    De exemplu, Planul 0 este cunoscut sub denumirea de Planul multilingv de bază.

    Conține caractere pentru practic toate limbile moderne existente.

    Planul 1, Planul suplimentar multilingv, conține caractere din sisteme de scrieri istorice și dispărute.

    Deși au fost definite 17 planuri, nu toate au fost atribuite. Există un spațiu suficient pentru mai multe caractere.

    Articole recomandate:

    Consorțiul Unicode adaugă continuu tot mai multe simboluri, caractere și emoji-uri.

    Intenția este ca oamenii din toate limbile să poată folosi calculatoarele în sistemul lor nativ de scriere.

    Include și codul pentru utilizarea caracterelor din sistemele de scriere dispărute, ca hieroglifele egiptene.

    Se dorește a fi un sistem universal de codare a caracterelor cu un cod universal pentru fiecare simbol.

    Puncte de cod

    Punctele de cod sunt cea mai mică subdiviziune a caracterelor din Unicode, reprezentând un caracter.

    Punctele de cod sunt adrese din memorie care transmit calculatoarelor ce simboluri trebuie afișate.

    Unicode are 1.114.112 puncte de cod. Acestea funcționează bine pentru sistemele de scriere cu caractere discrete.

    Devine mai dificil să codificați sistemele de scriere care compun caractere folosind diferite sisteme.

    Unicode în practică

    Practic toate dispozitivele, de la desktop-uri la tablete, telefoane și software-uri majore acceptă acum Unicode.

    Înseamnă că orice simbol din Unicode poate fi utilizat la scrierea pe un dispozitiv modern.

    De cele mai multe ori, codarea caracterelor se realizează automat.

    Tastatura dvs. traduce tastele apăsate în simbolurile corecte.

    Dar cum scrieți simboluri care nu au un buton pe tastatură?

    Un caz obișnuit pentru acest lucru este modul de utilizare al emoji-urilor pe PC-uri cu tastatură fizică.

    Punctele de cod pot fi scrise folosind un formular de cod scurt. Încep cu „U+”, urmate de 4-5 caractere alfanumerice.

    În cadrul programelor acceptate, cum ar fi Microsoft Word, puteți să introduceți codul.

    Mai apoi, îl evidențiați și apăsați ‘Alt’ + ‘X’ pentru a-l converti în simbolul Unicode.

    Unicode este acum un standard acceptat pe scară largă.

    Însă, există și programe ce folosesc alte sisteme de codificare deci este posibil să nu funcționeze peste tot.

    Aspecte critice ale standardului Unicode

    Propunerea de codificare a tuturor sistemelor de scriere existente și extinse nu este una ușoară.

    Un punct critic vine din tratarea de către Unicode a caracterelor CJK (chineze, japoneze și coreene).

    Mai multe țări din Asia de Est au dezvoltat sisteme de scriere care au împrumutat caractere chineze într-un fel.

    Cu toate acestea, au introdus variații regionale atât în ​​forma, cât și în sensul lor.

    Unicode a propus inițial un sistem de „Unificare Han”.

    Caracterul chinezesc ar fi fost cel „standard” iar derivările erau considerate variații, nu caractere individuale.

    Aceste transformări au fost făcute în încercarea de a economisi spațiu.

    Codificarea tuturor caracterelor CJK ar fi însemnat cu ușurință peste 100.000 de caractere.

    Acest aspect a fost controversat din mai multe motive.

    Unele grupuri s-au opus subordonării caracterelor lor cu simboluri chineze.

    O altă problemă era că propunerea a fost făcută de companii și organizații din America de Nord, nu din Asia.

    De asemenea, o altă problemă era aceea că Unicode codifica doar caractere, nu și glife.

    Glifele sunt cea mai mică unitate de scriere, iar unele limbi creează caractere prin combinarea glifelor.

    Acest lucru face foarte dificil cititul și scrierea de texte istorice în versiunile mai vechi de limbi CJK.

    în Web Development Etichete: ASCIIcaracterecodificarea caractereloremojiUnicodeUTF-16UTF-32UTF-8
    A fost articol-ul de ajutor?

    Lasă un comentariu