【发布时间】:2012-05-16 19:29:22
【问题描述】:
我想用python爬取网页,问题出在相对路径上,我有以下函数对网页中的url进行规范化和去相关化,我无法实现一部分去相关化功能。有任何想法吗? :
def normalizeURL(url):
if url.startswith('http')==False:
url = "http://"+url
if url.startswith('http://www.')==False:
url = url[:7]+"www."+url[7:]
return url
def deRelativizePath(url, path):
url = normalizeURL(url)
if path.startswith('http'):
return path
if path.startswith('/')==False:
if url.endswith('/'):
return url+path
else:
return url+"/"+path
else:
#this part is missing
问题是:我不知道如何获取主 url,它们可以有多种格式:
http://www.example.com
http://www.example.com/
http://www.sub.example.com
http://www.sub.example.com/
http://www.example.com/folder1/file1 #from this I should extract http://www.example.com/ then add path
...
【问题讨论】:
-
作为旁注,我建议阅读 PEP8 以符合编码风格的最佳实践。 python.org/dev/peps/pep-0008
-
太棒了,非常感谢你的编码风格
标签: python web-crawler web-scraping