【问题标题】:Scraping Wolfram Alpha for h2 tag为 h2 标签抓取 Wolfram Alpha
【发布时间】:2017-08-02 21:30:30
【问题描述】:

我目前正在尝试使用https://www.wolframalpha.com/input/?i=AAPL+price 并访问包含文本“市场数据”的 h2 标记。

我正在使用 BeautifulSoup 通过查找所有 h2 标签并检查 h2.text 中的“市场数据”来执行此操作。

但是,问题是这个 url 文本的汤版本不包含任何 h2 标签。这与我单击“检查元素”并在 Chrome 中查找 h2s 时形成对比。为什么我做soup(url.text)时看不到h2s?这是否意味着它不是静态页面或其他东西?那我怎样才能刮掉这个h2标签呢?

【问题讨论】:

  • 抓取的数据似乎没有 ng-include 标签。有 ng-apps 和 ng-controllers,但我没有看到任何链接。

标签: html web-scraping beautifulsoup


【解决方案1】:

实际来源来自ng-include 标签 (documentation) 中链接的 URL。关于如何解释不是静态而是动态加载的angularJS源的详细答案,可以找到here

【讨论】:

  • 好的,我去看看文档。
  • @Essam 我还添加了解释如何使用 BeautifulSoap 进行此操作的链接,祝你好运
  • 所以我已经按照你的建议做了,但是呈现我感兴趣的部分的请求并没有真正的模式(它只是一个长数字的请求)。此外,该部分原来是 gif 而不是文本。 Selenium 是我目前唯一的选择吗?
猜你喜欢
  • 2016-06-14
  • 2019-01-21
  • 2015-12-20
  • 1970-01-01
  • 1970-01-01
  • 2014-11-03
  • 2015-03-26
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多