【发布时间】:2021-04-18 11:46:49
【问题描述】:
我正在尝试将以下网页的内容(如浏览器的 Inspect Element 工具中所示)读入 R:
由于内容显然是 Javascript 渲染的,因此无法通过使用常见的网络抓取功能(如来自 xml2 包的 read_html)来检索内容。我遇到以下建议使用 rvest 和 V8 包的帖子,但我无法解决我的问题:
https://datascienceplus.com/scraping-javascript-rendered-web-content-using-r/
我在 Stack Overflow 上也看到了非常相似的问题(如 this 和 this),但这些问题的答案(隐藏的 api 解决方案和网络选项卡中的请求 URL)对我不起作用。
对于初学者,我有兴趣阅读列表中人员的公共 ID(div.user-nickname 节点)。我的猜测是,要么我错误地指定了节点,要么网站根本不允许网络抓取。
任何帮助将不胜感激。
【问题讨论】:
-
查看提供的链接时,我没有看到该课程。你能给出一个要检索的页面中的示例 id 吗?
-
@QHarr 非常感谢您的回复。例如,列表中第二个人的 ID 是“brandnew300”。
标签: javascript r web-scraping