【问题标题】:Avoid Java regex catastrophic backtracking避免 Java 正则表达式灾难性的回溯
【发布时间】:2014-04-15 19:51:09
【问题描述】:

我有一个从 XML 读取的正则表达式,它被两个不同的工具使用。一个 Java 和一个 C++。

[…!\?\.](\)|\]|“|'|"|’|”|‘|´|''|»)*

尝试匹配以下字符串:

!!!!''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''??

输入数据来自存储在 HDFS 上的一些“大数据”。

在 Java 中,它会一直回溯,而在 C++ 版本中则一切正常。 问题是我无法更改正则表达式,因为它也被其他外部模块使用,而且很难激发更改,因为它在 C++ 中运行良好。

有没有办法通过不更改正则表达式来避免这个问题?我尝试在它后面附加一个“$”,但没有成功。

【问题讨论】:

  • 我没有看到任何会导致该正则表达式回溯的内容,尤其是在没有该输入的情况下。一定有别的东西你没有向我们展示。 (除此之外,这是一个非常糟糕的正则表达式。为什么更改它?)
  • 正如@TimPietzcker 所说——糟糕的表达是的,灾难性的回溯不是。你可以在这里查看你的模式,看看它是如何匹配的:regex101.com/r/vM6cA7/#debugger

标签: java regex string


【解决方案1】:

问题与正则表达式同时具有“'”和“''”(一个撇号或两个撇号)这一事实有关,解决此问题的简单方法是消除额外的“|''”(2撇号),因为它已经在寻找一个 ("|' ") 并且它有一组 ()* (因此括号内的所有内容无论如何都会查找零个或多个)。它对正则表达式的逻辑没有影响,但它解决了问题。感谢您的所有意见。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-03-24
    • 2017-09-24
    • 1970-01-01
    • 2016-10-07
    • 1970-01-01
    相关资源
    最近更新 更多