【问题标题】:Extracting links from website using Python, NOT IN HTML使用 Python 从网站中提取链接,而不是在 HTML 中
【发布时间】:2015-07-07 17:05:07
【问题描述】:

我需要从这个页面收集 PDF 文件:http://www.anp.gov.br/?id=532

当我在 HTML 源代码中找不到链接时,我想知道这在 Python 中是如何实现的。在我使用 Beautifulsoup 和 pandas 找到这些文件的链接之前。

感谢您的各种回答!

【问题讨论】:

  • 您能解释一下为什么在 HTML 源代码中找不到链接吗?我不确定我是否清楚这里的目标。
  • 嗨,亚历克斯 W!制作页面的开发者并没有直接在 HTML 源代码中编写链接,而是在点击时调用。我希望这些链接收集所有数据,并将它们合并到一张 Excel 表中。感谢您的回复!

标签: python python-3.x hyperlink screen-scraping google-crawlers


【解决方案1】:

看起来所有的 pdf 链接都在 <a> 标签中,因此您可以使用 BeautifulSoup 来获取这些链接。如果您需要进一步的建议,我建议您参考 this 讨论以了解如何完成该任务。

【讨论】:

  • 问题只是链接不在标签中。
  • 查看我上传的图片。我可以看到文件的链接,希望你也可以!如果是这样,您可以参考我链接的讨论,以便从<a> 标签中的href 获取网址。
  • 非常感谢!现在找到了!
  • 没问题,乐于助人:)
猜你喜欢
  • 1970-01-01
  • 2016-04-18
  • 1970-01-01
  • 1970-01-01
  • 2015-02-28
  • 2013-08-29
  • 2019-04-12
  • 2013-01-02
  • 1970-01-01
相关资源
最近更新 更多