【问题标题】:Software to identify patterns in text files识别文本文件中模式的软件
【发布时间】:2011-04-13 13:02:59
【问题描述】:

我在一些软件上工作,它可以解析大型文本文件并将数据插入数据库。每次我们得到一个新客户,我们都必须为他们的文本文件编写新的解析代码。

我正在寻找一些软件来帮助简化文本文件的分析。最好有一些软件可以识别文件中的模式。

我也对任何可以简化工作的通用解析库 (.NET) 持开放态度。或任何其他相关软件。

谢谢。

更具体

我用一些神奇的软件打开了一个文本文件,它显示了它已经识别的重复模式。真的,我只是在寻找开发人员用来帮助他们解析文件的任何工具。如果有什么帮助你做到这一点,请告诉我。

【问题讨论】:

  • 您能说得更具体些吗? “简化分析文本文件”实际上并没有多大意义。
  • 你可能想研究一下正则表达式。
  • @Alexy - 你在谈论正则表达式吗?我知道他们的一切。这不是我要的。
  • 你有没有找到任何这样的工具@RonnieOverby,因为我有类似的要求。

标签: parsing pattern-matching


【解决方案1】:

嗯,可能不是您正在寻找的,但clone detection 可能是正确的想法。

这样的检测器有很多种。有些只工作一行原始文本,这可能直接适用于您。

有些作品仅适用于构成文本的作品(“tokens”),用于“token”的某些定义。 您必须定义这些工具的令牌的含义。

但您似乎想要发现文本的结构,然后寻找具有某些参数变化的重复块。我认为这真的很难做到,除非你事先知道那种结构是什么。

我们的CloneDR 为编程语言源代码执行此操作,其中“已知结构”是编程语言本身的结构,如 BNF 语法规则所具体描述的那样。

您可能不想对半结构化文本进行基于 Java 的重复检测。但是,如果您确实了解文档的结构,则可以将其写成语法,然后我们的 CloneDR 工具会提取它。

【讨论】:

    猜你喜欢
    • 2012-09-21
    • 2018-03-19
    • 1970-01-01
    • 2022-11-28
    • 1970-01-01
    • 1970-01-01
    • 2017-05-12
    • 2011-12-05
    • 2018-02-15
    相关资源
    最近更新 更多