【问题标题】:Web scraping hidden element with BeautifulSoup使用 BeautifulSoup 抓取网页隐藏元素
【发布时间】:2018-12-07 15:54:29
【问题描述】:

我正在尝试使用 BeautifulSoup 抓取网站上的隐藏元素(日期)。但是,我不断收到 None 类型或此输出:<span class="hidden-lists">-</span>。任何帮助将不胜感激!

这是相关部分在网站上的外观:

 <div class="by C C4">
      <span class="hidden-lists">Oct 8, 2018</span>

这是我的代码的相关部分:

 target_3 = page_soup.find("span", attrs={"class": "hidden-lists"})
 print(target_3)

【问题讨论】:

  • 可能想要包含网站网址。与上面的方式一样,工作正常
  • 您要查找的输出是什么?只是包含该日期的跨度或父 div 的内容?
  • “错误输出”是什么意思?什么是“错误”输出,“正确”输出是什么?请解释
  • 这是我得到的“错误输出”: - - (我需要提取日期 - 在这个例子中是 10 月 8 日)跨度>
  • 你试过target_3.string吗?

标签: python-3.x web-scraping beautifulsoup


【解决方案1】:

这里:

target_3.text.strip()
print(target_3)

我不确定这是否会完全解决您的问题,但请尝试一下。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-04-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-17
    • 1970-01-01
    • 2019-06-18
    相关资源
    最近更新 更多