【发布时间】:2015-07-10 01:51:44
【问题描述】:
我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR。
我对抓取没有太多经验,但我的方法是在 html 标签中找到独特的属性并使用它来抓取我想要的内容。
因此,对于这个网站,我的方法是首先抓取您在单击其中一个体验时所访问的页面的 URL 列表,例如:https://www.wearvr.com/#game_id=game_1041,
然后,循环浏览此列表以抓取每次的相关属性。
但是我被困在第一步,因为我没有使用简单的“a href”标签,而是遇到了混淆问题的“data-reactid”标签。
我使用 iMacros 进行抓取,但我现在在 Java 方面相当不错,所以如果需要,我会学习 Java 抓取(这似乎很可能,因为 iMacros 非常有限)。
我的问题是,这些“data-reactid”标签是如何工作的,因此我如何将它们用于我的抓取目的?
另外,如果这是一个 XY 问题,请告诉我并提出更好的方法。
感谢阅读!
【问题讨论】:
标签: java html automation web-scraping imacros