[python] unicode

Pondělí Říjen 31 09:57:26 CET 2005

Martin Blazik píše v Po 31. 10. 2005 v 08:01 +0100:
> To neni tak uplne pravda s nepouzitim honkongske abecedy ;-) System, kde
> unicode potrebuji pouzivat v budoucnu bude muset umet arabsky a rusky,
> tak proc casem ne treba i cinsky ;-)

Vask ano! Dyt pisu ze bych ani neuvazoval o nejakem omezeni.

>  Jinak pevna delka znaku je dobra
> napriklad k tomu, ze bez parsovani celeho textu mohu skocit na konkretni
> pozici znaku treba i v souboru. Moje data konkretne nejsou nikterak
> velika a prehlednost vitezi nad rychlosti a usporou mista.

Tohle me uplne nepresvedcilo :-) Naprosto to chapu v pameti, ale v
souboru moc ne. To bych pouzil radeji nejaky index. A pokud ta data
nejsou velika, tak se zase daji nacist cela -- treba jako pythoni
objekt... a tak vselijak podobne.

> Prozkoumal jsem znovu celou situaci a jako nejvhodnejsi se mi jevi
> kodovani UCS-2. Dopsal jsem do pythonu pomoci modulu codecs potrebne
> konvertory a je to presne to co jsem potreboval.
> Ovsem rad bych se opet zeptal na to, k cemu je dobre ukladat unicode do
> vice jak 2 byte  a proc by se unicode do UCS-2 nemel vejit? Mel jsem za
> to, ze kazdy unicode znak je ulozen jako WORD (tedy 2 BYTE) a proto by
> na ulozeni 2 byte meli presne stacit ne?

Jak uz bylo receno, zaku je vice nez dva bajty.

> Ja jsem se naopak docetl, ze python uklada unicode znak interne na 2
> byte. Jak by tedy mohla existovat vetsi hodnota nez U+FFFF ?

Python lze zkompilovat jak s UCS-2, tak s UCS-4. Snad vsechny Linuxove
distribuce presly k tomu druhemu a doufam, ze se tak deje i jinde ;-)

Viz sys.maxunicode

-- 

ViNiL, ultimativní opravář komínů