如何将完整的 HTML Google Drive 文件夹页面下载到变量中？答案

【问题标题】：How to download a FULL HTML Google Drive folder page into a variable?如何将完整的 HTML Google Drive 文件夹页面下载到变量中？
【发布时间】：2019-02-21 03:25:27
【问题描述】：

我无法从 Google Drive 文件夹下载完整的 HTML 代码，无法找到用于从该 Google 文件夹下载公共文件的 ID 代码。如果我打开该站点并通过 Mozilla Firefox 浏览器下载它，那么它全部在 HTML 代码中。 google drive 文件夹的链接在下面的示例代码中。一切都是未注册的谷歌用户。这些是公共文件和公共文件夹。

我知道通过下载的 Mozilla Firefox html 代码而不是通过 WGET 或 Python 抓取的文件具有以下名称：

piconwhite-220x132-freeSAT..........（文件名的剩余部分无关紧要）

这是我使用的 Python 算法示例，但没有什么明显的（urllib2 模块）：

        import urllib2

        u_handle = urllib2.urlopen('https://drive.google.com/drive/folders/0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U')
        htmlPage = u_handle.read()

        with open('/tmp/test.html','w') as f:
            f.write(htmlPage)

如果我使用网络浏览器下载 html 页面，则 html 文件大小约为 500kB，并且还包含上述文件以发现下载代码。如果我通过 wget 或者通过 Python urllib2 模块下载网页，下载的 html 代码大小只有 213kB，并且不包含上述文件。

顺便说一句，我尝试了几种 WGET 方法（通过 linux shell - 命令行），但情况相同 - 即总是从内容中下载具有一定数量最大文件的 HTML（不幸的是，并非所有文件都在那里）。

感谢您的所有建议。

附：我不是一个优秀的网络开发人员，我正在寻找解决问题的方法。我是其他语言和其他平台的开发人员。

【问题讨论】：

标签： python html python-requests

【解决方案1】：

所以，我通过下载不同的 drive.google 网页作为目录/文件列表的缩短形式解决了我自己的问题。我使用这个新网址：

'https://drive.google.com/embeddedfolderview?id=0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U#list'

代替之前的网址：

'https://drive.google.com/drive/folders/0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U'

“列表”站点的源代码略有不同，但它有很多记录（drive.google 页面上有很多目录或文件）。这样我就可以看到所需 drive.google 网站上的所有文件或所有目录。

感谢大家帮助我或阅读我的问题。

【讨论】：