[python] unicode

Martin Blazik martin.blazik na premiumsms.cz
Pondělí Říjen 31 08:01:15 CET 2005


To neni tak uplne pravda s nepouzitim honkongske abecedy ;-) System, kde
unicode potrebuji pouzivat v budoucnu bude muset umet arabsky a rusky,
tak proc casem ne treba i cinsky ;-) Jinak pevna delka znaku je dobra
napriklad k tomu, ze bez parsovani celeho textu mohu skocit na konkretni
pozici znaku treba i v souboru. Moje data konkretne nejsou nikterak
velika a prehlednost vitezi nad rychlosti a usporou mista.
Prozkoumal jsem znovu celou situaci a jako nejvhodnejsi se mi jevi
kodovani UCS-2. Dopsal jsem do pythonu pomoci modulu codecs potrebne
konvertory a je to presne to co jsem potreboval.
Ovsem rad bych se opet zeptal na to, k cemu je dobre ukladat unicode do
vice jak 2 byte  a proc by se unicode do UCS-2 nemel vejit? Mel jsem za
to, ze kazdy unicode znak je ulozen jako WORD (tedy 2 BYTE) a proto by
na ulozeni 2 byte meli presne stacit ne?
Ja jsem se naopak docetl, ze python uklada unicode znak interne na 2
byte. Jak by tedy mohla existovat vetsi hodnota nez U+FFFF ?

>>> len(u'\u1234')
1
>>> len(u'\u123456')
3


lachtan


ViNiL napsal(a):

>Pavel Reznicek píše v Ne 30. 10. 2005 v 15:42 +0100:
>  
>
>>Také existují 32-bitová kódování, ale s těmi zatím nemám zkušenosti. 
>>Také zabírají zase dvakrát tolik místa a existují hlavně kvůli nové 
>>indexové oblasti Unikódu nad 0xffff.
>>Takové znaky však nejspíše
>>nikdo z nás každý den nepíše.
>>    
>>
>
>I kdyz je to versovane, nelibi se mi tak docela takova uvaha. Pokud uz
>bych potreboval kodovani s pevnou delkou znaku -- ackoliv ted me opravdu
>nenapada k cemu :-) -- pouzil bych rozhodne UCS-4. Proste proto, ze do
>UCS-2 se aktualni unikod nevejde a uvaha o tom, jestli budu pouzivat
>honk-kongskou abecedu, ci nikoliv, neni IMHO relevantni.
>
>Jo, jina vec je ta, ze se mi ted behem 15 minut nepodarilo prijit na to,
>jak z pythonu to UCS-4 vytriskat -- ackoliv je s ctyrbajtovou
>reprezentaci unikodu zkompilovany. Nejaka napoveda od nekoho?
>
>
>  
>
>------------------------------------------------------------------------
>
>_______________________________________________
>Python mailing list
>Python na py.cz
>http://www.py.cz/mailman/listinfo/python
>



Další informace o konferenci Python