在 Python 2.7 中使用 urllib2 从 URL 下载任意数量的文件。相当于 urllib2 的“os.walk”？答案

【问题标题】：Downloading an arbitrary number of files from a URL with urllib2 in Python 2.7. Equivalent of "os.walk" for urllib2?在 Python 2.7 中使用 urllib2 从 URL 下载任意数量的文件。相当于 urllib2 的“os.walk”？
【发布时间】：2012-06-21 17:47:30
【问题描述】：

我想下载已知 URL 的特定目录中的所有文件。这些文件的名称不一定是已知的，但它们的名称都包含一个共同的关键字，并且具有相同的扩展名 (.xml)。

对于 urllib2 是否有等效的“os.walk”，这样我就可以简单地遍历目录中存在的任何文件并打开它们进行解析？

我在网上看到的唯一示例涉及一个已知名称的文件，其中包含目录中所有文件名的列表。我不想这样做...

其他可能相关的信息：这些文件位于 apache 服务器上，并且可以公开访问。

【问题讨论】：

联系网站所有者并询问他们是否愿意提供数据
这实际上是我的数据。我只是希望能够使用我的脚本自动将其拉下，而不必在每次更新时都更新目录中的文件列表......也许我还是必须这样做。

标签： python download urllib2 os.walk

【解决方案1】：

如果不知道文件名，这是不可能的 - 您必须随机尝试所有可能的名称，因为您知道具有此名称的文件是否存在的唯一方法是请求 url 并查看是否得到响应。但是您可以让 Apache 网络服务器为您生成目录索引（使用 mod_autoindex）并解析它以获取文件名。

【讨论】：