【问题标题】:Jsoup not getting full htmlJsoup没有得到完整的html
【发布时间】:2015-08-20 15:24:01
【问题描述】:

我正在尝试 Jsoup 从 URL http://www.threadflip.com/shop/search/john%20hardy 解析 html

Jsoup 看起来只从该行获取数据

<![CDATA[ window.gon= ..............

有人知道为什么会这样吗?

Document doc = Jsoup.connect("http://www.threadflip.com/shop/search/john%20hardy").get();

【问题讨论】:

    标签: java jsoup


    【解决方案1】:

    您尝试解析的网站通过 AJAX 调用异步加载其大部分内容。 JSoup 不解释 Javascript,因此不像浏览器那样工作。看来商店是通过调用他们的api来填充的:

    http://www.threadflip.com/api/v3/items?attribution%5Bapp%5D=web&item_collection_id=&q=john+hardy&page=1&page_size=30
    

    所以也许您需要直接加载 API Url 才能阅读您想要的内容。请注意,响应是 JSON,而不是 HTML,因此 JSoup html 解析器在这里没有多大帮助。但是有很棒的 JSON 库可用。我使用 JSON-Simple。

    或者,您可以切换到Selenium webdriver,它实际上是远程控制一个真正的浏览器。从页面访问所有项目应该没有问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-04-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多