【发布时间】:2013-02-25 22:32:46
【问题描述】:
我需要从<title> </title> 标签之间提取网页的标题。
还需要显示位于<body...> 和</body> 标记之间的所有文本,但在正文之外不显示任何内容。
我不希望返回任何尖括号或任何 html 数据。
【问题讨论】:
-
如果你学习的课程结构合理,那么你应该有基本的工具来解决这个问题。如果不是,那么请尊重教练,这是各种疯子。一方面,“显示位于
<body...>和</body>标记之间的所有文本,并且在正文之外没有任何内容” 所以,不像真正的网络浏览器,它更智能不止于此。 -
是的,我在我们关于 Streams 的章节中得到了这个任务。所以我认为他真的只是想确保我们知道如何操作输入流。它是 HTML 让我感到困惑,因为在查看了很多 HTML 之后,它们似乎有很大的不同。
-
检查JTidy library。它为我节省了大量的 HTML 解析时间。
标签: java html string extraction