【发布时间】:2018-12-11 07:58:00
【问题描述】:
我正在创建一个 java 应用程序来从特定的 XXX 网站抓取数据,并且我想将一组所需的数据存储到我的 MSSQL 数据库中。该数据集在 MSSQL 中大约有 100000+ 行。
我所做的是抓取数据,根据我的要求对其进行处理,然后将其存储在 DB 以及我的 ElasticSearch 集中。整个过程一次运行大约需要 2 天或更长时间。我使用 JSoup 来解析数据。
我想知道的是如何提高我的应用程序的效率,以便我可以在更短的时间内抓取并保存它。我有用于并行执行我的流程的执行器服务。
【问题讨论】:
标签: java elasticsearch web-scraping web-crawler