【发布时间】:2019-02-21 03:25:27
【问题描述】:
我无法从 Google Drive 文件夹下载完整的 HTML 代码,无法找到用于从该 Google 文件夹下载公共文件的 ID 代码。如果我打开该站点并通过 Mozilla Firefox 浏览器下载它,那么它全部在 HTML 代码中。 google drive 文件夹的链接在下面的示例代码中。一切都是未注册的谷歌用户。这些是公共文件和公共文件夹。
我知道通过下载的 Mozilla Firefox html 代码而不是通过 WGET 或 Python 抓取的文件具有以下名称:
piconwhite-220x132-freeSAT..........(文件名的剩余部分无关紧要)
这是我使用的 Python 算法示例,但没有什么明显的(urllib2 模块):
import urllib2
u_handle = urllib2.urlopen('https://drive.google.com/drive/folders/0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U')
htmlPage = u_handle.read()
with open('/tmp/test.html','w') as f:
f.write(htmlPage)
如果我使用网络浏览器下载 html 页面,则 html 文件大小约为 500kB,并且还包含上述文件以发现下载代码。如果我通过 wget 或者通过 Python urllib2 模块下载网页,下载的 html 代码大小只有 213kB,并且不包含上述文件。
顺便说一句,我尝试了几种 WGET 方法(通过 linux shell - 命令行),但情况相同 - 即总是从内容中下载具有一定数量最大文件的 HTML(不幸的是,并非所有文件都在那里)。
感谢您的所有建议。
附: 我不是一个优秀的网络开发人员,我正在寻找解决问题的方法。我是其他语言和其他平台的开发人员。
【问题讨论】:
标签: python html python-requests