在 Android 上抓取动态生成的页面答案

【问题标题】：Scrape a dynamically-produced page on Android在 Android 上抓取动态生成的页面
【发布时间】：2021-12-30 03:15:31
【问题描述】：

我目前正在开展一个项目，该项目在给定搜索查询（即谷物）的情况下抓取杂货店页面的数据，并将其显示在 Spinner 视图中。但是，我很难找到一种从页面上刮下数据的方法。我尝试使用 Jsoup，因为这是在线共识，但不支持 JavaScript。

问题在于，大多数（如果不是全部）此类网站都使用 DOM 存储来存储最新的股票列表和价格。这就是为什么像 Jsoup 这样的库不能工作的原因，因为它们将返回 HTML 而不需要 JavaScript。我目前有一个通过 WebView 显示页面的原型，但我看不到获取数据的方法。

我试图研究如何解决这个问题，但如果真的存在的话，老实说要找到一个优雅的解决方案是相当令人困惑的。

如果有人可以提供帮助，或者至少为我指明正确的方向，那将不胜感激！谢谢^_^

【问题讨论】：

【解决方案1】：

Selenium 是网页抓取的一个不错的选择。 https://www.selenium.dev/ 基本上可以访问网站的DOM。在过去的经验中，动态生成的网页可能很难抓取。 RegExp 将成为您的朋友。 https://regexone.com/

【讨论】：