【发布时间】:2021-03-01 04:44:13
【问题描述】:
我正在尝试抓取一个试图阻止抓取的网站。通过 Chrome、requests 或 requests_html 查看源代码会导致无法显示正确的源代码。
这是一个例子:
from requests_html import HTMLSession
session = HTMLSession()
content = session.get('website')
content.html.render()
print(content.html.html)
它给出了这个页面: 您的浏览器似乎禁用或不支持 JavaScript。
即使启用了 Javascript。在实际浏览器上也会发生同样的事情。
但是,在我的实际浏览器上,当我去检查元素时,我可以看到源代码就好了。有没有办法从检查元素中提取 HTML 源代码?
谢谢!
【问题讨论】:
-
当然,实际上,bustabit.com/play 这是一个赌博网站,出于好奇,我想收集大约 1 个月的数字,看看几率是多少。