<div dir="ltr"><div><div><div>Ahoj,<br><br></div>pokud chceš parsovat XML v Pythonu, doporučuji knihovnu lxml, která je asi tím nejrychlejším a nejvybavenějším nástrojem, jaký máš pro tento úkol k dispozici. XML, které chceš parsovat, by mělo být validní - tzn. být přesně podle specifikace, bez chyb, musí být well-formed. Další věc je kódování souboru - pokud je XML uloženo v utf-8, je vše v pořádku a mělo by se ti povést jej přečíst. Pokud je soubor v jiném kódování, MUSÍ mít na začátku hlavičku (XML deklaraci) s definovaným kódováním, např.<br>

<pre id="line1"><span class=""><?xml version="1.0" encoding="winodws-1250" ?><br></span></pre>Pokud tam hlavička není, předpokládá se UTF-8. Je-li v tomto nějaký rozkol, parser spadne na kolizních znacích.<br>

<br></div>Jestli máš nevalidní XML a stejně ho potřebuješ zparsovat, tak to je pak už trochu vyšší dívčí - nejjednodušeji to jde řešit asi tak, že místo XML parseru použiješ nějaký HTML parser, který je benevolentnější (byť, pozor, v detailech není s XML parserem úplně zaměnitelný), např. <a href="http://lxml.de/lxmlhtml.html">http://lxml.de/lxmlhtml.html</a><br>

<br></div><div>Více ti asi bez znalosti toho XML neporadím.<br></div><div><br></div>H<br><div><div><div><div><div><br></div></div></div></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">2013/7/15  <span dir="ltr"><<a href="mailto:michal.petrek@gmail.com" target="_blank">michal.petrek@gmail.com</a>></span><br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Zdravím.<br>
Píšu v pythonu parser XML. Při parsování některých XML však dojde k chybě:<br>
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 3270, column 529<br>
<br>
Dočetl jsem se že se může jednat o problém pokud XML obsahuje unicode znaky. Už jsem ale nenašel žádné informace jak tento problém efektivně řešit.<br>
<br>
Máte s tímto někdo zkušenosti ? Mohl by jste mi prosím někdo poradit jak bych toto mohl řešit?<br>
<br>
Pro parsování používám ElementTree, python 2.7<br>
<br>
Děkuji<br>
MP<br>
_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@py.cz">Python@py.cz</a><br>
<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>
</blockquote></div><br></div>