[python] Pomoc s pythonním RE

Honza Javorek jan.javorek na gmail.com
Neděle Leden 13 23:35:25 CET 2013


V čem je tvůj parser nový/lepší/inovativnější/rychlejší než cokoliv co je
třeba v tomto článku?
http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/

H


2013/1/13 Bystroushaak <bystrousak na kitakitsune.org>

> > Takze pokud chces smysluplny reseni, bylo by lepsi napsat jakej
> > problem skutecne resis
>
> No, to je právě to. Mám vlastní HTML parser
> (https://github.com/Bystroushaak/pyDHTMLParser), u kterého jsem nedávno
> zjistil podstatný bug - pokud je v javascript stringu na stránce vložené
> html, parser se úžasným stylem rozbije.
>
> Zatím jsem nepřišel na to jak to opravit, jediné co mě napadlo je že
> obsah <script></script> nahradím nějakým dostatečně náhodným stringem,
> přičemž si ho někam odložím.
>
> Až pak parser zpracuje zbytek DOMu, vrátím to do prázdného <script> tagu
> v postprocessingu.
>
>
> _______________________________________________
> Python mailing list
> Python na py.cz
> http://www.py.cz/mailman/listinfo/python
>
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://www.py.cz/pipermail/python/attachments/20130113/542234de/attachment.html>


Další informace o konferenci Python