提高网页抓取效率答案

【问题标题】：Increase web scraper efficiency提高网页抓取效率
【发布时间】：2018-12-11 07:58:00
【问题描述】：

我正在创建一个 java 应用程序来从特定的 XXX 网站抓取数据，并且我想将一组所需的数据存储到我的 MSSQL 数据库中。该数据集在 MSSQL 中大约有 100000+ 行。

我所做的是抓取数据，根据我的要求对其进行处理，然后将其存储在 DB 以及我的 ElasticSearch 集中。整个过程一次运行大约需要 2 天或更长时间。我使用 JSoup 来解析数据。

我想知道的是如何提高我的应用程序的效率，以便我可以在更短的时间内抓取并保存它。我有用于并行执行我的流程的执行器服务。

【问题讨论】：

【解决方案1】：

您可以依赖分布式网络爬虫技术，例如StormCrawler，而不是手工制作这样的应用程序。它甚至能够将页面索引到 ElasticSearch 实例中。

如果您想存储其他信息，您可以轻松地为您的进程的 MSSQL 部分实现自定义 Bolt。但是，使用此框架需要设置 Apache Storm 集群环境，这可能需要一些时间和计算资源。这将大大加快您在上面描述的过程。

【讨论】：