Stažení a zpracování HTML stránky

Princip stažení je stejný jako v StazeniWeboveStranky. Například tedy takto:

  import urllib
  fp = urllib.urlopen('http://www.py.cz/PythonZaciname')
  data = fp.read()
  fp.close()

Webovou stránku ale stahujeme abychom z ní něco vydolovali. Například: "Najdi všechny odkazy" nebo "Najdi všechny odkazy třídy vnejsiOdkazy nebo "Najdi všechny odkazy jejichž url je "neco.cz" nebo "Najdi tabulku, která má tučně hlavičku, a ten text mi dej."

Odborně se tomu říká ''parsování'.

HTMLParser

Vestavěný modul HTMLParser je na to určen. Více se dozvíte v dokumentaci, uvedu zde jen malý praktický příklad. Vypíše všechny tagy 'a':

  import urllib, HTMLParser

  class MyHTMLParser(HTMLParser.HTMLParser):
      "Obalka kolem tridy HTMLParser"

      def __init__(self):
          """Inicializace a reset teto instance."""
          self.reset()
          self.all=[]

      def handle_starttag(self, tag, attrs):
          "Osetri startovaci tag"

          if tag=='a':
              self.all.append(attrs[0])

  if __name__=='__main__':

      # stazeni z Netu
      fp = urllib.urlopen('http://www.py.cz/StazeniSouboru')
      vstup = fp.read()
      fp.close()

      myJob=MyHTMLParser()
      myJob.feed(vstup)
      myJob.close()

      print myJob.all

BeautifulSoup

Tento modul, který je třeba stáhnout umožňuje mnohem intuitivnější a přímočarejší práci s rozkouskováním HTML kodu. A mnohem více. Podobný kód, jako je uveden výše. Vypípše všechny odkazy ze stránky (které můžete následně stáhnout nebo otevírat :-)):

  import urllib, BeautifulSoup

  fp = urllib.urlopen('http://www.py.cz/StazeniSouboru')
  data = fp.read()
  fp.close()

  soup=BeautifulSoup.BeautifulSoup(data)

  print soup('a')

Více na BeautifulSoup.

Existuje mnoho dalších

nebo specializovanějších modulů. Najdete je snad na wiki.python.org. Můžete sem pak přidat své zkušenosti.




subject:
  ( 112 subscribers )