<div dir="ltr"><div>V čem je tvůj parser nový/lepší/inovativnější/rychlejší než cokoliv co je třeba v tomto článku? <a href="http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/">http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/</a><br>


<br></div>H<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">2013/1/13 Bystroushaak <span dir="ltr"><<a href="mailto:bystrousak@kitakitsune.org" target="_blank">bystrousak@kitakitsune.org</a>></span><br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">> Takze pokud chces smysluplny reseni, bylo by lepsi napsat jakej<br>

> problem skutecne resis<br>

<br>

</div>No, to je právě to. Mám vlastní HTML parser<br>

(<a href="https://github.com/Bystroushaak/pyDHTMLParser" target="_blank">https://github.com/Bystroushaak/pyDHTMLParser</a>), u kterého jsem nedávno<br>

zjistil podstatný bug - pokud je v javascript stringu na stránce vložené<br>

html, parser se úžasným stylem rozbije.<br>

<br>

Zatím jsem nepřišel na to jak to opravit, jediné co mě napadlo je že<br>

obsah <script></script> nahradím nějakým dostatečně náhodným stringem,<br>

přičemž si ho někam odložím.<br>

<br>

Až pak parser zpracuje zbytek DOMu, vrátím to do prázdného <script> tagu<br>

v postprocessingu.<br>

<div class="HOEnZb"><div class="h5"><br>

<br>

_______________________________________________<br>

Python mailing list<br>

<a href="mailto:Python@py.cz">Python@py.cz</a><br>

<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>

</div></div></blockquote></div><br></div>