【发布时间】:2014-06-26 11:36:06
【问题描述】:
我是一个 python 初学者,并且已经编写了一个代码来下载指定 url 中的所有链接。有没有更好的方法来做到这一点,下面的代码是否正确?
#!/usr/bin/python3
import re
import requests
def get_page(url):
r = requests.get(url)
print(r.status_code)
content = r.text
return content
if __name__ =="__main__":
url = 'http://developer.android.com'
content = get_page(url)
content_pattern = re.compile('<a href=(.*?)>.*?</a>')
result = re.findall(content_pattern, content)
for link in result:
with open('download.txt', 'wb') as fd:
for chunk in r.iter_content(chunk_size):
fd.write(chunk)
【问题讨论】:
-
代码 name__=="__main" 比较什么?这是什么意思?
-
意思是;如果这个文件是一个模块,用于导入到另一个文件或程序的入口
-
而且这段代码似乎是正确的,你要什么?
-
@myildirim 我如何指定 chunk_size ?
-
这段代码 sn-p 使用 requests 模块,你可以在它的文档中找到你搜索的内容python-requests.org/en/v0.14.2/api
标签: python python-3.x web-scraping