【发布时间】:2019-07-25 22:15:16
【问题描述】:
我正在尝试从网站下载图片。我发现我找不到图片URL的问题是在代码的开头。
我有一个问题,即 urlopen 下载的 HTML 与我在浏览器中下载的 HTML 不同。
该网站是here。当我在浏览器中查看 HTML 时,我可以看到这部分:
<a href="#" data-trigger="cmg-rotate-big">
<img src="/image/product/eca412b9-9484-4046-8bee-8400fde1d5fe/?width=400" alt="" data-cm-index="0" style="width: 400px; height: 400px; margin-left: 0px; opacity: 1;">
<img src="/image/product/014a128e-fa7b-4817-9d76-7bdf296de8de/?width=400" alt="" data-cm-index="1" style="width: 0px; height: 400px; margin-left: 200px; opacity: 0.5;">
</a>
但是通过代码
text = urllib2.urlopen(url).read()
soup = BeautifulSoup(text, "html.parser")
print(soup)
只有相同的部分
<a data-trigger="cmg-rotate-big" href="#">
<img alt="" data-cm-index="0" src=""/>
<img alt="" data-cm-index="1" src=""/>
</a>
所以我可以提取图像的 SRC,因为它丢失了。请问问题出在哪里?
谢谢!
【问题讨论】:
-
您需要一些东西来模拟填充这些 DOM 元素的 Javascript 代码。见this answer。
-
我会尝试 selenium,感谢这个想法 :)
-
Selenium 工作,谢谢。
标签: python html beautifulsoup urllib2