【问题标题】:Increase web scraper efficiency提高网页抓取效率
【发布时间】:2018-12-11 07:58:00
【问题描述】:

我正在创建一个 java 应用程序来从特定的 XXX 网站抓取数据,并且我想将一组所需的数据存储到我的 MSSQL 数据库中。该数据集在 MSSQL 中大约有 100000+ 行。

我所做的是抓取数据,根据我的要求对其进行处理,然后将其存储在 DB 以及我的 ElasticSearch 集中。整个过程一次运行大约需要 2 天或更长时间。我使用 JSoup 来解析数据。

我想知道的是如何提高我的应用程序的效率,以便我可以在更短的时间内抓取并保存它。我有用于并行执行我的流程的执行器服务。

【问题讨论】:

    标签: java elasticsearch web-scraping web-crawler


    【解决方案1】:

    您可以依赖分布式网络爬虫技术,例如StormCrawler,而不是手工制作这样的应用程序。它甚至能够将页面索引到 ElasticSearch 实例中。

    如果您想存储其他信息,您可以轻松地为您的进程的 MSSQL 部分实现自定义 Bolt。但是,使用此框架需要设置 Apache Storm 集群环境,这可能需要一些时间和计算资源。这将大大加快您在上面描述的过程。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-07-06
      • 2011-02-21
      • 2018-02-21
      • 1970-01-01
      • 2016-08-25
      • 1970-01-01
      • 2015-10-23
      • 1970-01-01
      相关资源
      最近更新 更多