【问题标题】:Parsing data out of a multiple nested webpages从多个嵌套网页中解析数据
【发布时间】:2017-07-29 20:09:34
【问题描述】:

基本上,我们有一个网站,其中包含关于不同项目的大量数据,并且它被安排成能够以树状结构描述项目 (http://www.isoldwhat.com/getcats/fullcategorytree.php)。我们希望将所有类别拆分出来并将它们导出到 Json 文件中。我遇到的问题是,要打开每个类别,我需要单击它并让它重新加载。我想我必须模拟每个类别的点击次数。解析这些数据的最佳方法是什么?我可能会使用一些 jQuery,但我对其他选项持开放态度。

【问题讨论】:

    标签: parsing web-crawler html-parsing


    【解决方案1】:

    如果您愿意选择,那么我会使用Selenium WebDriver。我将它用于一个项目,我必须在网页上抓取数据并将其存储并针对它编写报告。我也必须模拟真实的用户导航,这非常适合它。它的文档非常简单。很容易上手。在半小时内,我从一个简单的搜索页面中抓取了结果。

    我还使用HTML Agility Pack 来解析某些数据。这两者的结合应该可以让你到达你想去的地方。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-06-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-12-01
      相关资源
      最近更新 更多