[python] SAX

tdc tdc na phreaker.net
Sobota Listopad 5 13:57:18 CET 2005


Nevim jak SAX (ten asi tezko), ale vim minimalne o dvou jinych kandidatech.

s = """
<html>
<body>
</html>
</body>
"""

1) balik twisted z http://twistedmatrix.com/

from twisted.web import microdom
x = microdom.parseString(s, beExtremelyLenient=1)
print x.toprettyxml()

2) modul BeautifulSoup z http://www.crummy.com/software/BeautifulSoup/

from BeautifulSoup import BeautifulSoup
x = BeautifulSoup(s)
print x.prettify()


Nevyhody u obou - nemusi to opravit vsechno a je to POMALE! Na opravu 
dat (napriklad z webu, kde o validite nemuzete rozhodnout sam) je to ok, 
ale zpracovavat takto vetsi dokumenty (natozpak vlastni) je plytvani 
strojovym casem. Pokud to XML generujete sam z nejakych vlastnich 
zdroju, nemel by snad byt problem si validni XML vygenerovat. V kazdem 
pripade tohle by mela byt opravdu posledni cesta, jak se ke spravnemu 
XML dostat.

tdc




Další informace o konferenci Python