OT: ja sice chapu, ze na XML/HTML je potreba pouzivat zasobnikovy automat, ale IMHO existuje trivialni subset uloh, na ktery staci i regexpy... Samozrejme je potreba vedet co chci, a jaky to ma pripadne limity, ale nutne bych netvrdil, ze dostat subset dat z validniho XML/HTML umi jen nas vsemocny oblibenec :D<br>
<br><div class="gmail_quote">2013/1/12 Petr Messner <span dir="ltr"><<a href="mailto:petr.messner@gmail.com" target="_blank">petr.messner@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div>Parsovat HTML regulárním výrazem umí jen Chuck Norris. Pro nás ostatní tu jsou HTML parsery. </div><div><br></div><div>Zkuste třeba něco takového:</div><div><br></div><div>

<div>>>> lxml.html.fromstring("<p>foo</p><script>bar</script>").xpath("//script")[0].text</div><div>'bar'</div></div><div><br></div><div>Doporučená literatura:</div>


<a href="http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454" target="_blank">http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454</a><span class="HOEnZb"><font color="#888888"><br>


<div><br></div><div>PM</div><div><br></div></font></span></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><br><div class="gmail_quote">2013/1/12 Bystroushaak <span dir="ltr"><<a href="mailto:bystrousak@kitakitsune.org" target="_blank">bystrousak@kitakitsune.org</a>></span><br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Zdravím.<br>
<br>
Potřebuji pomoc s pythonním re modulem. Hraji si s tím už několik hodin<br>
a už jsem z toho v koncích.<br>
<br>
Mám script:<br>
<br>
-------------------------------------------------------------------------------<br>
import re<br>
<br>
data = """<tr><td class="newscap"><b style="font-size:13px">Downtime for<br>
Christmas</b><br>
                <br><small>by <script language="javascript">document.write('<a<br>
class=\"cap\"<br>
href=\"mailto:'+rot(5,'mvoogz@vrvmzizorjmf.jmb')+'\">'+rot(5,'mvoogz@vrvmzizorjmf.jmb')+'</a>')</script><noscript>rattle</noscript><br>
on 12/30/12 10:48</small></td></tr><br>
                <tr><td class="aware" colspan="2"><br>
                So, it appears the site was down for christmas. I could try to find<br>
out why, but I don't care enough. Went to <a<br>
href="<a href="https://events.ccc.de/congress/2012/wiki/Main_Page" target="_blank">https://events.ccc.de/congress/2012/wiki/Main_Page</a>">29c3</a>,<br>
didn't get much done, ate a lot of fast food. I'm old, fat, and boring<br>
now. However, I found out about <a<br>
href="<a href="http://www.hyperelliptic.org/tanja/newelliptic/newelliptic.html" target="_blank">http://www.hyperelliptic.org/tanja/newelliptic/newelliptic.html</a>">Edwards<br>
curves</a>, that shit is rad.<br>
                </td></tr>"""<br>
<br>
print re.sub(r'.*(<script.*>)(.*)(</script>).*',<br>
r"\n\n---\1\n---\2\n---\3", data)<br>
-------------------------------------------------------------------------------<br>
<br>
Který po spuštění vypíše:<br>
<br>
-------------------------------------------------------------------------------<br>
<tr><td class="newscap"><b style="font-size:13px">Downtime for Christmas</b><br>
<br>
<br>
---<script language="javascript">document.write('<a class="cap"<br>
href="mailto:'+rot(5,'mvoogz@vrvmzizorjmf.jmb')+'">'+rot(5,'mvoogz@vrvmzizorjmf.jmb')+'</a><br>
---')<br>
---</script><br>
                <tr><td class="aware" colspan="2"><br>
                So, it appears the site was down for christmas. I could try to find<br>
out why, but I don't care enough. Went to <a<br>
href="<a href="https://events.ccc.de/congress/2012/wiki/Main_Page" target="_blank">https://events.ccc.de/congress/2012/wiki/Main_Page</a>">29c3</a>,<br>
didn't get much done, ate a lot of fast food. I'm old, fat, and boring<br>
now. However, I found out about <a<br>
href="<a href="http://www.hyperelliptic.org/tanja/newelliptic/newelliptic.html" target="_blank">http://www.hyperelliptic.org/tanja/newelliptic/newelliptic.html</a>">Edwards<br>
curves</a>, that shit is rad.<br>
                </td></tr><br>
-------------------------------------------------------------------------------<br>
<br>
Mým cílem je mít ve skupině \1 tag <script>, tedy <script<br>
language="javascript">, v \2 pak tělo tagu. V současné podobě se mi<br>
oboje spojuje do \1.<br>
<br>
"Živá" ukázka: <a href="http://ideone.com/TfbmB1" target="_blank">http://ideone.com/TfbmB1</a><br>
<br>
Prosím o nakopnutí správným směrem.<br>
_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@py.cz" target="_blank">Python@py.cz</a><br>
<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>
</blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@py.cz">Python@py.cz</a><br>
<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br></blockquote></div><br><br clear="all"><br>-- <br>Rules of Optimization:<br>Rule 1: Don't do it.<br>Rule 2 (for experts only): Don't do it yet.