【问题标题】:Getting Updated HTML Source获取更新的 HTML 源代码
【发布时间】:2015-07-30 16:10:30
【问题描述】:

我正在尝试获取一个网站的HTML 源代码,该网站没有立即提供所有内容。 HTML 的重新加载是通过JavaScript 完成的。当我尝试连接到URL 并获取HTML 时,它不会包含所有内容。

这是我目前的代码:

import java.io.IOException;

import org.jsoup.Jsoup;

public class AudioLibrary
{
    public static void main(String[] arguments) throws IOException
    {
        String htmlSource = Jsoup
                .connect("https://www.youtube.com/audiolibrary/music").get()
                .html();
        System.out.println(htmlSource);
    }
}

如何确保JavaScript 在检索 HTML 源代码之前完成其工作?就我而言,这显然是来自YouTube Audio Library 的免费可下载音乐列表。

【问题讨论】:

    标签: javascript java html jsoup


    【解决方案1】:

    JavaScript 在浏览器中运行,因此您将获得的只是基本页面,可能包含 JavaScript 代码,但不是最终的、修改后的 HTML 页面,由 JavaScript 创建,因为您从不执行 JavaScript。

    您下载的基本上是一个文本文件 (HTML)。而已。如果您是浏览器,您现在将在页面中运行 JavaScript,然后该 JavaScript 将修改此 HTML。但是由于您不运行 JavaScript,因此没有任何内容被修改,您只能使用基本页面。

    【讨论】:

      猜你喜欢
      • 2013-04-06
      • 2011-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-01-21
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多