HTML 页面加载并在 .txt 文件中显示它们

【问题标题】：HTML pages loading and showing them in .txt fileHTML 页面加载并在 .txt 文件中显示它们
【发布时间】：2016-12-12 16:47:35
【问题描述】：

我正在尝试在 java 中构建一个搜索引擎，其中我有一个文件夹“crawler”来存储下载，但是当我打开我的项目并单击该文件时，我的计算机卡住了，因为它试图加载所有 url 和文本从 html 页面 (100k+) 中解析并尝试在“crawler”文件夹中的 .txt 文件中显示它们。

如何防止在文件中加载和显示它们？

【问题讨论】：

【解决方案1】：

将数据文件存储在项目之外的某个地方。使用例如将位置存储到爬虫文件夹的属性文件。您应该只在项目中包含此类文件，如源代码。你会上传到 Git 或 SVN 的东西。不是您的应用程序操作的数据文件。如果您将此数据存储在数据库中，则不会将整个数据库包含在项目中，而只会包含用于创建表和视图的 SQL 文件。

【讨论】：