【问题标题】:Facing issue to extract youtube page source using Jsoup面临使用 Jsoup 提取 youtube 页面源的问题
【发布时间】:2020-04-20 07:37:40
【问题描述】:

使用Jsoup,我可以提取最多的网站页面源代码(右键单击网页并选择“查看页面源代码”)。但是对于任何 youtube 视频页面,我都无法提取页面源它没有提供正确的页面源代码。尝试了以下男女同校但未能提取。

public class App {
  public static void main(String[] args) throws IOException {

    String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
    Document doc = Jsoup.connect(webUrl)
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
            .get();

    System.out.println(doc);

 }
}

任何人都可以有任何建议来解决这个问题???

我得到如下输出:

【问题讨论】:

  • 连接超时了吗?你有错误吗?
  • 没有。没有连接超时。并且没有错误。只是获取原始页面中没有的异常数据。
  • 我刚刚在我的 IDE 中运行了您的代码,它与文档一起返回。看看我的粘贴箱。您能否将所有代码也粘贴到一个中并附加到您的问题中?您发布的图像很难准备好。 - pastebin.com/QqY2Lp69
  • 我添加了我的完整代码。我得到以下输出。网址在这里 - pastebin.com/jRkiu3Mt
  • 我也面临同样的问题..我在尝试获取 youtube 页面的元数据时得到空标题..@FunnyBoss

标签: jsoup webscarab


【解决方案1】:

您没有设置可能触发网站反抓取措施的用户代理。我将假设问题是您在运行此程序时连接超时。尝试使用以下用户代理,看看它是否适用于 connect()。

.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")

【讨论】:

  • 我添加了,但仍然无法正常工作。我也更新了原始帖子中的输出。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-12-10
  • 2015-07-11
  • 1970-01-01
  • 2019-09-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多