[python] parsovanie tagov

Tomy novella tomasnovella na gmail.com
Pondělí Únor 11 12:04:22 CET 2008


preklep ;) ale aj tak to nefunguje ;(
posielam moj doterajsi skript:
-----
#!/usr/bin/python

import urllib,re,os

wwwroot = 'http://minnie.tuhs.org/UnixTree/V7/usr/src/cmd/'
def downloadFile(filename = "index.html"):
	print ' Stahujem subor: "'  + wwwroot+filename + ' " '
	fp = urllib.urlopen(wwwroot+filename)
	data = fp.read()
	fp.close()

	s=file(filename,'w')	
	s.write(data)
	s.close()

def parseAndDownload():
	reg = re.compile(r"href=(?P<url>[.a-z]+)\.html")
	file = open('index.html','r')
	for line in file.readlines():
		res = reg.search(line)
		if res == None:
			print "vzor nenajdeny "
		else:# v riadku s najdenym prikazom
			url = res.group('url') + ".html"
			downloadFile(url)
			cmdReg = re.compile(r"<pre>(?P<prikaz> .*)</pre>")
			cmdFile = open(url,"r")
			cmdRes = cmdReg.search(cmdFile.read())
			if cmdRes == None:
				print "Chyba!!! nenasiel sa kod v subore v prikazom !"
			else:
				print cmdRes.group('prikaz')
				
			

	file.close()

downloadFile()
parseAndDownload()
-----
ide o to, ze chcem stiahnut z tejto stranky vsetky prikazy a
vyparsovat ich zo suboru a (este nenakodene) premenovat na *prikaz*.c
;-)

problem je v tom, ze stale mi pise chybu, ze "nenasiel sa kod v subore
s prikazom" ;(
este by som sa offtopicacky spytal,ze ci je uplne jedno, ci pouzijem
prikaz file(filename,'w') alebo open(filename,'w'), alebo ci je nieco
ztade deprecated, lebo obe varianty funguju ;)


Další informace o konferenci Python