Python 是否适合自动化数据抓取？ [关闭]答案

【问题标题】：Is Python a suitable tool for automating data scraping? [closed]Python 是否适合自动化数据抓取？ [关闭]
【发布时间】：2017-01-15 16:40:05
【问题描述】：

我正在从事一个涉及大量数据的项目。本质上，在一些可以下载的 excel 文件网站上存在一个大型存储库。该站点有几个不同的过滤器列表，我有几个不同的参数要过滤，然后从中收集数据。总的来说，这个过程需要我下载超过 1,000 个 excel 文件并将它们复制并粘贴在一起。

Python 是否具有自动执行此过程的功能？基本上我所做的是设置过滤器 1 = A，过滤器 2 = B，过滤器 3 = C，下载文件，然后使用不同的参数重复并将文件复制和粘贴在一起。如果 Python 适合这个，任何人都可以指出一个好的教程或起点的方向吗？如果没有，什么语言更适合没有背景的人？

谢谢！

【问题讨论】：

这听起来很基于意见。公平地说，Python 几乎适用于所有事物，就像大多数通用语言一样。
这个社区适合回答这类问题吗？我担心：不。

标签： python excel scrape

【解决方案1】：

我个人更愿意为此使用 python。我会特别关注 Pandas 库，它是一个强大的数据分析库，它有一个数据框对象，可以像无头电子表格一样使用。我将它用于少量电子表格，而且速度非常快。也许看看这个人的网站以获得更多指导。 https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/

如果您的问题只是关于电子表格，而我的第一段实际上是关于在您下载文件后处理这些文件，但如果您对实际获取文件或“抓取”数据感兴趣，那么我不是 100%您可以查看有关 http 方面的请求库 - 如果有 Restful 做事方式，这可能是您可以使用的。或者，查看 scrapy https://scrapy.org 进行网页抓取。抱歉，如果我有部分误解。

【讨论】：