[python] Python - taková skoro školní úloha

Radek Kanovsky rk na dat.cz
Úterý Červenec 30 16:16:05 CEST 2002


On Tue, Jul 30, 2002 at 03:42:30PM +0200, ViNiL wrote:

> > Jde to udelat velmi jednoduse vytvorenim DOM reprezentace HTML
> > dokumentu. Je to ale neefektivni a rychlejsi je pouzit nejaky SAX nebo
> > SGML parser, ale tohle zase funguje spolehlive i na ponekud nestandardni
> > HTML dokumenty a navic to ony "nestandardni" HTML dokumenty samo
> > znormalizuje. Tenhle postup vyzaduje mit nainstalovany modul PyXML.
> 
> To ale vyzaduje, ze ta stranka bude mit korektni HTML :-)

Prave ze ne. Ono si to poradi i s nestrukturovanymi tagy typu
``<b>aaaaa <i>iiiii</b> xxxxxxx</i>'' nebo s neukoncenymi tagy
``<body><p>aaaaa<p>bbbbbbbb<ul><li>ahoj'' apod. Mam ale pocit, ze ve
starsich verzich PyXML byl parser benevolentnejsi ke vstupu a nektere
testovaci HTML soubory mne ted uz nefunguji. Specialne ty, ktere jsou
vytvorene wordem a vypadaji na prvni pohled jako z jine planety.

> Ja osobne bych se priklanel k prostemu parsovani textu, tedy pres
> findy stringu nebo modul re. Uz jenom z duvodu rychlosti...

To zas jo. Pokud ovsem neni potreba delat nejake sofistikovanejsi
filtrovani nekterych nechtenych tagu, konverze apod.

Radek Kaňovský


Další informace o konferenci Python