Durante adatto, una codificazione quale F chavire complicato contegno cose quale “rivelare l’ottavo spirito di una lemma”

Durante adatto, una codificazione quale F chavire complicato contegno cose quale “rivelare l'ottavo spirito di una lemma”

Corrente tuttavia non e con l'aggiunta di genuino la dove sinon prende con stima il espressivita collettivo ad esempio UNICODE, ad esempio e l'argomento del estraneo riunione

1) La dose di F che razza di riguarda i primi 127 codepoint e abbastanza ancora compatta della Donna single australiana giornalista codifica U. Verso contro F e tranne compatta di U nella codificazione di qualunque i codepoint come richiedono piuttosto di paio byte (guarda accidente questa e la spazio riservata aborda maggior parte degli alfabeti orientali), quale infido un'inefficienza di circa il 30%.

3) F non contiene byte nulli, anche e giustificabile con la trascrizione ASCII: percio i file di elenco codificati mediante F possono avere luogo manipolati in equipaggiamento “tradizionali”.

5) Decodificare F e ancora macchinoso che interpretare U. Usando una regole ad esempio U posso invero logorare questa fondo chiaramente estraendo l'ottava “word” della sfilza (con una trascrizione verso byte uno, codesto sinon fa estraendo l'ottavo byte). Dato che anziche la codifica sopra tecnica e F, per poter rivelare il spirito essenziale devo avanti interpretare i byte della sfilza di accesso anche decodificarli furbo ad spingersi all'ottavo codepoint.

6) F contiene alcune sequenze di byte come sono vietate (quale: 110xyyzz-0qxxyyzz). Codesto beche facile chiarire mediante certezza che excretion sequenza contenente una presso-raggruppamento proibita non aneantit la codificazione F. Questa sembra una conformismo pero e il casualita di far risaltare come questa caratteristica non e condivisa da molte codifiche per byte unito ovverosia wide: sopra corretto, qualsiasi raggruppamento, anche casuale, di byte puo abitare interpretata che tipo di corretta verso una delle codifiche ISO-8859-x. Questa situazione fa brandello essenziale del argomentazione principale.

Esistono molte altre possibili codifiche multibyte di cui non parlero: sopra particolare esistono codifiche di segno “shift” luogo la apparizione di una appunto sequela di byte (upshift) cambia il accezione di qualsiasi i byte successivi scaltro affriola accoglienza di un'altra raggruppamento di byte definita (downshift) quale ripristina la codificazione avanti. Una vasta cognome di codifiche di attuale qualita e raggruppata nello standard ISO/IEC-2022, intitolato affriola norme di module lingue orientali.

Qua e conveniente dire che, a la prevalenza dei codici/codepage definiti dalle specifiche ISO, la regole e univocamente determinata. Codesto significa quale, qualora sinon e nella governo di comprensione che espressivita e consumato, sinon sa e che codificazione e stata utilizzata.

Unicode

Lo norma Unicode (chiarito dallo Unicode consortium) e fondamentalmente un'iniziativa il cui fine e la realizzazione di un catalogo unificato di ciascuno i alfabeto usati dall'umanita, comprendendo quelli delle lingue scritte contemporanee, lesquelles del iniziale, certi striscia immaginaria (Unicode parco un contemporaneamente di codepoint a l'alfabeto Klingon), di nuovo sopra abbastanza ambito a includere lingue non di nuovo codificate.

L'esistenza di indivisible elencazione di codesto varieta, e delle correlative codifiche, puo comportare – che – l'utilizzo di elenco multilingua senza contare dover ammettere addirittura migliorare codepage. Unicode alla fine sarebbe il linguaggio dei codici: nell'eventualita che fosse abituato in ogni parte porrebbe fine al “tematica essenziale” quale enunciato piu riguardo a, privato di come si dovesse rinunciare tenta esibizione di non molti temperamento..

Sorvolando sulla storia delle ondule versioni di Unicode, diro che lo canone codesto contiene 1 114 112 (indivis sacco centoquattordicimila centododici) codepoint, suddivisi con 17 piani, qualsivoglia composto di 65 536 codepoint, vale a dire 256 righe contenenti 256 codepoint ciascuna.

Il progetto 0, nominato dai primi 65536 codepoint, e nominato Basic Multilingual Plane (BMP) di nuovo contiene la maggior parte del programma di abbicci oggidi per metodo. A fermare la rovescio-coesistenza durante ASCII, e incluso che tipo di i primi 127 codepoint coincidano in quelli definiti dalle specifiche ASCII.

La piuttosto massimo espressione di UNICODE contiene gran brandello di tutte le lingue durante usanza ed del iniziale,i lui diacritici, simboli matematici, simboli musicali anche molte altre simbologie. Inoltre ancora di 10 piani non sono assegnati (piuttosto i codepoint durante essi contenuti non corrispondono ad alcun spirito) nemmeno e possibile che tipo di vengano assegnati in insecable seguente altro.

Shaunte R. Turpin

Leave a Reply

Your email address will not be published. Required fields are marked *