[python] Re: načtení HTML stránky

Jan Novák jan.novak na topinfo.cz
Pátek Březen 21 17:15:19 CET 2003


Třeba takto:

A) použít modul httplib zhruba takto:

  import httplib
  url='www.seznam.cz'
  h=httplib.HTTP(url)
  h.putrequest('GET','/index.html')
  h.putheader('Accept','text/html')
  h.putheader('Accept','text/plain')
  h.putheader('Host',url)
  h.endheaders()
  errcode,errmsg,headers=h.getreply()
  f=h.getfile()
  stranka=f.read()
  f.close()
  print stranka

s načtenou stránkou jde dělat co je potřeba, třeba zjistit obrázky a také je
načíst atd.

B) nebo použít přímo modul urlib nebo urllib2
který práci s HTTP hlavičkami atd. zařídí sám
tyto moduly jsou nadstavbou nad httplib

  import urllib
  f=urllib.urlopen("http://www.py.cz")
  print f.read()


Honza Novák



Další informace o konferenci Python