【问题标题】:Scraping issue (data-reactid)抓取问题(data-reactid)
【发布时间】:2015-07-10 01:51:44
【问题描述】:

我正在尝试抓取网站并根据我提取的数据编译电子表格。
我要抓取的网站是WEARVR
我对抓取没有太多经验,但我的方法是在 html 标签中找到独特的属性并使用它来抓取我想要的内容。
因此,对于这个网站,我的方法是首先抓取您在单击其中一个体验时所访问的页面的 URL 列表,例如:https://www.wearvr.com/#game_id=game_1041,
然后,循环浏览此列表以抓取每次的相关属性。 但是我被困在第一步,因为我没有使用简单的“a href”标签,而是遇到了混淆问题的“data-reactid”标签。

我使用 iMacros 进行抓取,但我现在在 Java 方面相当不错,所以如果需要,我会学习 Java 抓取(这似乎很可能,因为 iMacros 非常有限)。

我的问题是,这些“data-reactid”标签是如何工作的,因此我如何将它们用于我的抓取目的?

另外,如果这是一个 XY 问题,请告诉我并提出更好的方法。

感谢阅读!

【问题讨论】:

    标签: java html automation web-scraping imacros


    【解决方案1】:

    处理抓取的最简单方法是将页面视为一个大字符串(因为最终,它就是这样)。您可以在该字符串中搜索某些内容(例如 href=)以获取链接。您还可以明智地假设 a 标签中的任何内容都与链接相关并抓住它。

    您实际上不必了解 HTML,也不必了解页面或任何其他 css 或标记是如何工作的,您只需要确定您想要的文本周围有哪些可识别的字符串组合。我会说这在 Java 中可能比使用 IMacro 更容易实现,而且可能更准确。

    处理它的另一种方法是,将整个页面视为 XML 文档,这需要更多的 HTML 和 XML 知识。这...并不总是适用于 HTML,特别是如果它较旧或格式不正确,因此字符串方法更容易。您可以从现有的各种 XML 地图库中获得一些实用程序,但其他方面与上述类似。

    【讨论】:

      猜你喜欢
      • 2017-03-31
      • 1970-01-01
      • 2018-04-24
      • 2017-02-16
      • 1970-01-01
      • 2019-04-21
      • 2021-07-16
      • 2019-08-29
      • 1970-01-01
      相关资源
      最近更新 更多