【问题标题】:Extract Json Data with screaming frog用尖叫的青蛙提取 Json 数据
【发布时间】:2019-07-27 04:44:08
【问题描述】:

我正在使用 Screaming Frog 作为一种从 URL 生成的 Json 中提取数据的方法。 生成的Json是这样的形式:

{"ville":[{"codePostal":"13009","ville":"VAUFREGE","popin":"ouverturePopin","zoneLivraison":"1300913982","url":""},{"codePostal":"13009","ville":"LES BAUMETTES","popin":"ouverturePopin","zoneLivraison":"1300913989","url":""},{"codePostal":"13009","ville":"MARSEILLE 9EME ARRON","popin":"ouverturePopin","zoneLivraison":"1300913209","url":""}]}

我在 Custom > Extraction in Screaming Frog 中使用这个正则表达式来提取“codePostal”的值。

"codePostal":".*?"

问题是它不提取任何东西。 当我在 regex101 中测试我的正则表达式时,它似乎是正确的。

你知道什么是错的吗? 谢谢。

问候。

【问题讨论】:

  • 您是否尝试保存输出以了解 ScreamingFrog 看到的内容?没关系 - 不是一开始 - 你的 RegEx 是否有效。也就是说,不要忘记 SF 是基于 Java 的工具,因此它是 reg ex 使用的引擎,因此请确保使用正确的方言测试正则表达式。

标签: json regex web-scraping seo


【解决方案1】:

您是否尝试保存输出以了解 ScreamingFrog 看到的内容?没关系 - 不是一开始 - 你的 RegEx 是否有效。

也就是说,不要忘记 SF 是基于 Java 的工具,因此它是 reg ex 使用的引擎,因此请确保使用正确的方言测试正则表达式。

【讨论】:

    【解决方案2】:

    您需要指定括在括号中的组提取器。例如,在您的示例中,您需要 ("codePostal":".*?") 作为提取器。

    此外,如果您只是想提取值,则可以改用以下内容。 "codePostal":"(.*?)"

    【讨论】:

      【解决方案3】:

      这不是您的正则表达式的问题。似乎问题出在内容类型上。 ScreamingFrog 没有正确读取应用程序/JSON 内容类型以进行抓取。希望他们能修复这个错误。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-09-24
        • 2011-10-10
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多