抓取问题（data-reactid）答案

【问题标题】：Scraping issue (data-reactid)抓取问题（data-reactid）
【发布时间】：2015-07-10 01:51:44
【问题描述】：

我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR。
我对抓取没有太多经验，但我的方法是在 html 标签中找到独特的属性并使用它来抓取我想要的内容。
因此，对于这个网站，我的方法是首先抓取您在单击其中一个体验时所访问的页面的 URL 列表，例如：https://www.wearvr.com/#game_id=game_1041,
然后，循环浏览此列表以抓取每次的相关属性。但是我被困在第一步，因为我没有使用简单的“a href”标签，而是遇到了混淆问题的“data-reactid”标签。

我使用 iMacros 进行抓取，但我现在在 Java 方面相当不错，所以如果需要，我会学习 Java 抓取（这似乎很可能，因为 iMacros 非常有限）。

我的问题是，这些“data-reactid”标签是如何工作的，因此我如何将它们用于我的抓取目的？

另外，如果这是一个 XY 问题，请告诉我并提出更好的方法。

感谢阅读！

【问题讨论】：

标签： java html automation web-scraping imacros

【解决方案1】：

处理抓取的最简单方法是将页面视为一个大字符串（因为最终，它就是这样）。您可以在该字符串中搜索某些内容（例如 href=）以获取链接。您还可以明智地假设 a 标签中的任何内容都与链接相关并抓住它。

您实际上不必了解 HTML，也不必了解页面或任何其他 css 或标记是如何工作的，您只需要确定您想要的文本周围有哪些可识别的字符串组合。我会说这在 Java 中可能比使用 IMacro 更容易实现，而且可能更准确。

处理它的另一种方法是，将整个页面视为 XML 文档，这需要更多的 HTML 和 XML 知识。这...并不总是适用于 HTML，特别是如果它较旧或格式不正确，因此字符串方法更容易。您可以从现有的各种 XML 地图库中获得一些实用程序，但其他方面与上述类似。

【讨论】：