[es] - Unicode, UCS, UTF, BLA(H), TRU(C) ;)

-zombie-
Tomica Jovanovic
freelance programmer
ni.ac.yu

Član broj: 4128
Poruke: 3448
*.InfoSky.Net

Sajt: localhost

+5 Profil

Unicode, UCS, UTF, BLA(H), TRU(C) ;)

^{29.04.2003. u 01:40 - pre 256 meseci}

nije baš umetnost, ali mi se ovaj forum čini najprikladnijim za ovu temu..

elem, do skora sam baš prilično imao muka da svarim sve detalje oko Unicoda, UCS-a, UTF-a i ostalih opasnih stranih reči ;)

uglavnom, znao sam da Unicode uglavnom 16-bitni (osim kad nije ;), ali me bunilo to što je do danas registrovano skoro 100k karaktera.. i to je samo jedna od stvari koje mi nisu bile jasne.

no, posle prekjuče, kada sam pročitao jedan duži blog post (u formi kraćeg članka) čuvenog Tim-a Bray-a (xml, w3c, textuality, ...) sve mi se razbistrilo ;)

no, šalu na stranu, evo pa prosudite sami:

Citat:

Characters vs. Bytes

This is the first of a three-part essay on modern character string processing for computer programmers. Here I explain and illustrate the methods for storing Unicode characters in byte sequences in computers, and discuss their advantages and disadvantages. These methods have well-known names like UTF-8 and UTF-16 ...

http://tbray.org/ongoing/When/200x/2003/04/26/UTF

blogče :: unescaped beta^{^» ^{go-paste extenzija} ^» ^{reč dana: backup} ^» ^{bočne koalicije}}

Odgovor na temu

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..

+2 Profil

Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

^{30.04.2003. u 12:10 - pre 256 meseci}

O svemu tome se može vrlo precizno saznati na www.unicode.org a za praktičare su tu i dokumenti kao što je RFC 2279 (UTF-8 — Transformation of ISO 10646), i mnogi drugi.

Na Unicode.org stranici imate i veliki broj „tehničkih izveštaja“ (TR) koji opisuju konkretnu primenu Unikoda za određene stvari, a treba izdvojiti UCA (Unikod kolacioni algoritam, valjda TR10, mali deo implementacije sam pisao za onaj mysql-srpski dodatak), određivanje odnosa među znakovima (u kakvom su odnosu znaci Č i č, a u kakvom A i ćirilično A), postupak normalizacije (Ć prelazi u acute+C), itd.

Zapravo, sve je to vrlo jednostavno kada character označiš kao „znak“ (slova, cifre, i svi ostali znaci — znači ono što ima smisla za čoveka), a byte kao „bajt“.

Znači, moja preporuka je (ipak nezaobilazna) adresa: www.unicode.org

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.

Odgovor na temu

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..

+2 Profil

Re: Unicode, UCS, UTF, BLA(H), TRU(C) ;)

^{30.04.2003. u 12:11 - pre 256 meseci}

Uh, zaboravih da dodam i vezu ka RFC 2781 (UTF-16), za one koji to vole.

A pošto smo u temi za programiranje, sve za UTF-16 je za nas implementirao IBM u jednoj biblioteci otvorenog koda: ICU.

Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.

Odgovor na temu