【问题标题】:HTML pages loading and showing them in .txt fileHTML 页面加载并在 .txt 文件中显示它们
【发布时间】:2016-12-12 16:47:35
【问题描述】:

我正在尝试在 java 中构建一个搜索引擎,其中我有一个文件夹“crawler”来存储下载,但是当我打开我的项目并单击该文件时,我的计算机卡住了,因为它试图加载所有 url 和文本从 html 页面 (100k+) 中解析并尝试在“crawler”文件夹中的 .txt 文件中显示它们。

如何防止在文件中加载和显示它们?

【问题讨论】:

    标签: java web-crawler html-parsing search-engine


    【解决方案1】:

    将数据文件存储在项目之外的某个地方。使用例如将位置存储到爬虫文件夹的属性文件。您应该只在项目中包含此类文件,如源代码。你会上传到 Git 或 SVN 的东西。不是您的应用程序操作的数据文件。如果您将此数据存储在数据库中,则不会将整个数据库包含在项目中,而只会包含用于创建表和视图的 SQL 文件。

    【讨论】:

      猜你喜欢
      • 2021-12-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-06-29
      • 1970-01-01
      • 1970-01-01
      • 2019-03-04
      相关资源
      最近更新 更多