[python] Problem s unicode.

superman feed na centrum.cz
Čtvrtek Duben 10 16:12:38 CEST 2008


> >Unicode je ideal pro prezentaci vsech znaku, ktery se musi nakonec prekodovat
> >do bytoveho retezce (taky nazyvan plainstring, bytestring...).
>
>   
V našich končinách to asi platí, ale ono není pravda, že Unicode dokáže 
reprezentovat všechny znaky používaných znakových sad. Zvláště v Asii 
velmi protestují proti používání Unicode - protože není s to 
reprezentovat znaky jejich národních znakových sad. Proto třeba autor 
Ruby (Japonec) nikdy nezavedl používání Unicode jakožto základní sady 
pro řetězce v Ruby. Problém je největší pitomost v sw inženýrství zvaná 
"šetření bajtíků stylem po nás potopa", jaká způsobilo problém třeba 
roku 2000, a tatáž pitomost zamotala Unicode natolik, že ten bordel je 
teď dost veliký. Takže pro asijské jazyky se převádějí znaky do Unicode 
přes proces zvaný "han unification", což je de facto "ztrátová 
komprese", která několik různých odlišných znaků mapuje na stejný jeden 
Unicode znak - ztrácí se tím tedy informace a není divu, že Asiaté si o 
Unicode myslí jen to nejhorší, a rozhodně Unicode nehodlají používat.

Takže v našich končinách asi nenarazíte, ale v případě mezinárodního 
programu byste se mohl rychle dostat do toho, že byste zásadně 
přeprogramovával, a už by Vás to nikdy v budoucnu nenapadlo takhle dělat.

Miloslav Ponkrác


Další informace o konferenci Python