[python] [:lower:] apod.?

propanbutan propanbutan na gmx.net
Pátek Březen 31 13:27:53 CEST 2017


Alexandr Rosen <alexandr.rosen na ff.cuni.cz> wrote:
> 1. Jak udelat, aby v tom re_lower byly vsecky lowercase znaky z
> UTF-8? Tedy nejen ty z cp1250 nebo iso-8859-2, ale i iso-8859-1,
> iso-8859-5 (cyrilice), rectina, to by mozna uz stacilo... Spojit ty
> stringy a vyhodit duplicity? Nebo by to slo nejak jednodusejs?

spojit leda po prevedeni do unicode, pac ty hex-escaped znaky davaji
smysl jen pro dane kodovani. nebo projet celou unicode tabulku jako
vespod [1]

> 2. Jak udelat, abych vstupni soubor v utf-8 nacet opravdu jako utf8
> string?

v pythonu mate bud objekt typu str, vite v jakem je kodovani, a do
unicode reprezentace ho prevedete pomoci str.decode(obj, enc)

>>> 'řř'.decode('iso-8859-2')
u'\u0159\u0159'

nebo mate unicode, ktery pomoci unicode.encode prevedete do ceho
to jen pujde

>>> u'\0159\u0159'.encode('iso-8859-2')
'\xf8\xf8'
>>> 'řř'.encode('hex')
'f8f8'

vestaveny file cte a pise str, kdyz codecs.open [2] date kodovani,
muzete cist a psat unicode

[1] http://www.py.cz/pipermail/python/2008-January/007056.html
[2] http://docs.python.org/lib/module-codecs.html


Další informace o konferenci Python