【发布时间】:2016-11-10 15:45:11
【问题描述】:
我有一个链接,我想从中抓取内容,如下所示:
https://www.whatever.com/getDescModuleAjax.htm?productId=32663684002&t=1478698394335
但是当我想用 selenium 打开它时,它就不起作用了。当我在普通浏览器中加载它时,它以纯文本形式打开,Html 在括号中,如下所示:
window.productDescription='<div style="clea....
#I want this
....n.jpg" width="950"/></p></div>'";
我在想我会以纯文本格式下载源代码并使用 Bs4 提取我需要的内容。但这不可能是最好的解决方案。有没有办法忽略标签并使用 selenium 和 python 正常加载网页?
【问题讨论】:
标签: python html ajax selenium-webdriver web-scraping