【问题标题】:Is Python a suitable tool for automating data scraping? [closed]Python 是否适合自动化数据抓取? [关闭]
【发布时间】:2017-01-15 16:40:05
【问题描述】:

我正在从事一个涉及大量数据的项目。本质上,在一些可以下载的 excel 文件网站上存在一个大型存储库。该站点有几个不同的过滤器列表,我有几个不同的参数要过滤,然后从中收集数据。总的来说,这个过程需要我下载超过 1,000 个 excel 文件并将它们复制并粘贴在一起。

Python 是否具有自动执行此过程的功能?基本上我所做的是设置过滤器 1 = A,过滤器 2 = B,过滤器 3 = C,下载文件,然后使用不同的参数重复并将文件复制和粘贴在一起。如果 Python 适合这个,任何人都可以指出一个好的教程或起点的方向吗?如果没有,什么语言更适合没有背景的人?

谢谢!

【问题讨论】:

  • 这听起来很基于意见。公平地说,Python 几乎适用于所有事物,就像大多数通用语言一样。
  • 这个社区适合回答这类问题吗?我担心:不。

标签: python excel scrape


【解决方案1】:

我个人更愿意为此使用 python。我会特别关注 Pandas 库,它是一个强大的数据分析库,它有一个数据框对象,可以像无头电子表格一样使用。我将它用于少量电子表格,而且速度非常快。也许看看这个人的网站以获得更多指导。 https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/

如果您的问题只是关于电子表格,而我的第一段实际上是关于在您下载文件后处理这些文件,但如果您对实际获取文件或“抓取”数据感兴趣,那么我不是 100%您可以查看有关 http 方面的请求库 - 如果有 Restful 做事方式,这可能是您可以使用的。或者,查看 scrapy https://scrapy.org 进行网页抓取。 抱歉,如果我有部分误解。

【讨论】:

    猜你喜欢
    • 2016-02-16
    • 1970-01-01
    • 2013-11-16
    • 1970-01-01
    • 1970-01-01
    • 2015-03-04
    • 1970-01-01
    • 1970-01-01
    • 2017-09-24
    相关资源
    最近更新 更多