【问题标题】:write Website Content into XML File in JAVA将网站内容写入 JAVA 中的 XML 文件
【发布时间】:2016-04-11 10:59:38
【问题描述】:

是否可以将所有网站内容转换为 XML 文件? 意味着如果我提供了网站 URL,那么它将使用 JAVA 将所有网站内容转换为 XML 文件。

如果我给出这个页面的 URL,那么这个页面的所有内容都将在 XML 文件中。

【问题讨论】:

  • 是的。如果这是一个不满意的答案,请花时间阅读stackoverflow.com/help/how-to-ask - 谢谢!
  • “网站 URL 到 XML 文件”是什么意思?您究竟想以何种方式将网站内容放入 XML 文件中,您能否扩展一下并描述您的问题?
  • @JonasCz 表示如果我给这个页面 URL stackoverflow.com/questions/36546808/… 那么这个页面的所有数据都将被下载到 XML 文件中。

标签: java xml web-content


【解决方案1】:

下载网站(仅静态内容)的一种非常简化的方法可能是

// read the website from this URL
URL urlIn = new URL("http://www.example.com/index.html");
// save the content as file "/tmp/example.out"
Path pathOut = Paths.get("/tmp/example.out");
// read and write the data
Files.copy(urlIn.openStream(), pathOut, StandardCopyOption.REPLACE_EXISTING);

【讨论】:

  • @SagarPatel 在这种情况下,您应该回答已经给出的 cmets 并提供一个示例。 1) 您想下载的网站是什么样的。 2) 对于这个示例 HTML 页面,XML 应该是怎样的。如果没有这些信息,几乎不可能猜出您想要实现的目标。
  • 1)。网站是任何不固定的。 2)。 XML格式也不是固定的,它将取决于网站。就像如果给出 Stackoverflow.com 的 URL 那么我的 xml 将成对的问题和答案。
  • @SagarPatel 所以你期待一些artificial intelligence 知道如何分离不同的网页内容。例如将stackoverflow.com 转换为requestanswers,将some.music.shop 转换为CD nametracks?我相信这是不可能的。期望网页提供一些RDF 数据。
  • 是的,你完全正确......我需要你描述格式的数据。
  • @SagarPatel 对于 StackOverflow,您可能会在这里查看 meta.stackexchange.com/questions/146481/…api.stackexchange.com。对于任何其他页面,您必须检查其他解决方案。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-06-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多