面临使用 Jsoup 提取 youtube 页面源的问题答案

【问题标题】：Facing issue to extract youtube page source using Jsoup面临使用 Jsoup 提取 youtube 页面源的问题
【发布时间】：2020-04-20 07:37:40
【问题描述】：

使用Jsoup，我可以提取最多的网站页面源代码（右键单击网页并选择“查看页面源代码”）。但是对于任何 youtube 视频页面，我都无法提取页面源它没有提供正确的页面源代码。尝试了以下男女同校但未能提取。

public class App {
  public static void main(String[] args) throws IOException {

    String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
    Document doc = Jsoup.connect(webUrl)
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
            .get();

    System.out.println(doc);

 }
}

任何人都可以有任何建议来解决这个问题？？？

我得到如下输出：

【问题讨论】：

连接超时了吗？你有错误吗？
没有。没有连接超时。并且没有错误。只是获取原始页面中没有的异常数据。
我刚刚在我的 IDE 中运行了您的代码，它与文档一起返回。看看我的粘贴箱。您能否将所有代码也粘贴到一个中并附加到您的问题中？您发布的图像很难准备好。 - pastebin.com/QqY2Lp69
我添加了我的完整代码。我得到以下输出。网址在这里 - pastebin.com/jRkiu3Mt
我也面临同样的问题..我在尝试获取 youtube 页面的元数据时得到空标题..@FunnyBoss

标签： jsoup webscarab

【解决方案1】：

您没有设置可能触发网站反抓取措施的用户代理。我将假设问题是您在运行此程序时连接超时。尝试使用以下用户代理，看看它是否适用于 connect()。

.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")

【讨论】：

我添加了，但仍然无法正常工作。我也更新了原始帖子中的输出。