如何从网页中提取文本内容？ [关闭]答案

【问题标题】：How to extract textual contents from a web page? [closed]如何从网页中提取文本内容？ [关闭]
【发布时间】：2012-03-02 04:44:43
【问题描述】：

我正在用 java 开发一个应用程序，它可以从不同的网页获取文本信息并将其汇总到一个页面中。例如，假设我在不同的网页上有一条新闻，如印度教、印度时报、政治家等.现在我的应用程序应该从这些页面中的每个页面中提取重要点并将它们放在一起作为一个单独的新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者，我不明白在哪里开始吧。我已经阅读了研究论文，其中解释了噪声消除是构建此应用程序的第一步。

所以，如果给我一个新闻网页，第一步是从页面中提取主要新闻，不包括超链接、广告、无用图像等。我的问题是我该怎么做？请给我一些很好的教程来解释使用网络内容挖掘来实现这种应用程序。或者至少给我一些提示如何完成它？