【问题标题】:How to download a FULL HTML Google Drive folder page into a variable?如何将完整的 HTML Google Drive 文件夹页面下载到变量中?
【发布时间】:2019-02-21 03:25:27
【问题描述】:

我无法从 Google Drive 文件夹下载完整的 HTML 代码,无法找到用于从该 Google 文件夹下载公共文件的 ID 代码。如果我打开该站点并通过 Mozilla Firefox 浏览器下载它,那么它全部在 HTML 代码中。 google drive 文件夹的链接在下面的示例代码中。一切都是未注册的谷歌用户。这些是公共文件和公共文件夹。

我知道通过下载的 Mozilla Firefox html 代码而不是通过 WGET 或 Python 抓取的文件具有以下名称:

piconwhite-220x132-freeSAT..........(文件名的剩余部分无关紧要)

这是我使用的 Python 算法示例,但没有什么明显的(urllib2 模块):

        import urllib2

        u_handle = urllib2.urlopen('https://drive.google.com/drive/folders/0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U')
        htmlPage = u_handle.read()

        with open('/tmp/test.html','w') as f:
            f.write(htmlPage)

如果我使用网络浏览器下载 html 页面,则 html 文件大小约为 500kB,并且还包含上述文件以发现下载代码。如果我通过 wget 或者通过 Python urllib2 模块下载网页,下载的 html 代码大小只有 213kB,并且不包含上述文件。

顺便说一句,我尝试了几种 WGET 方法(通过 linux shell - 命令行),但情况相同 - 即总是从内容中下载具有一定数量最大文件的 HTML(不幸的是,并非所有文件都在那里)。

感谢您的所有建议。

附: 我不是一个优秀的网络开发人员,我正在寻找解决问题的方法。我是其他语言和其他平台的开发人员。

【问题讨论】:

    标签: python html python-requests


    【解决方案1】:

    所以,我通过下载不同的 drive.google 网页作为目录/文件列表的缩短形式解决了我自己的问题。我使用这个新网址:

    'https://drive.google.com/embeddedfolderview?id=0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U#list'
    

    代替之前的网址:

    'https://drive.google.com/drive/folders/0Bwz6mBA7lUOKZi1nbGdlbzFDZ0U'
    

    “列表”站点的源代码略有不同,但它有很多记录(drive.google 页面上有很多目录或文件)。这样我就可以看到所需 drive.google 网站上的所有文件或所有目录。

    感谢大家帮助我或阅读我的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-05-12
      • 1970-01-01
      • 1970-01-01
      • 2013-05-27
      • 1970-01-01
      相关资源
      最近更新 更多