【发布时间】:2026-02-03 11:55:01
【问题描述】:
我正在尝试找出在 Haskell 中解析特定文本文件的“正确”方法。
在 F# 中,我循环遍历每一行,根据正则表达式对其进行测试以确定它是否是我要解析的行,如果是,我使用正则表达式对其进行解析。否则,我忽略该行。
该文件是可打印的报告,每页都有标题。每条记录为一行,每个字段由两个或多个空格分隔。这是一个例子:
MY COMPANY'S NAME
PROGRAM LISTING
STATE: OK PRODUCT: ProductName
(DESCRIPTION OF REPORT)
DATE: 11/03/2013
This is the first line of a a two-line description of the contents of this report. The description, as noted,
spans two lines. This is more text. I'm running out of things to write. Blah.
DIVISION CODE: 3 XYZ CODE: FAA3 AGENT CODE: 0007 PAGE NO: 1
AGENT TARGET NAME ST UD TARGET# XYZ# X-DATE YEAR CO ENCODING
----- ------------------------------ -- -- ------- ---- ---------- ---- ---------- ----------
0007 SMITH, JOHN 43 3 1234567 001 12/06/2013 2004 ABC SIZE XL
0007 SMITH, JANE 43 3 2345678 001 12/07/2013 2005 ACME YELLOW
0007 DOE, JOHN 43 3 3456789 004 12/09/2013 2008 MICROSOFT GREEN
0007 DOE, JANE 43 3 4567890 002 12/09/2013 2007 MICROSOFT BLUE
0007 BORGES, JORGE LUIS 43 3 5678901 001 12/09/2013 2008 DUFEMSCHM Y1500
0007 DEWEY, JOHN & 43 3 6789012 003 12/11/2013 2013 ERTZEVILI X1500
0007 NIETZSCHE, FRIEDRICH 43 3 7890123 004 12/11/2013 2006 NCORPORAT X7
我首先构建了解析器来测试每一行,看看它是否是一条记录。如果它是一个记录,我只是使用我自己开发的子字符串函数根据字符位置剪断了行。这很好用。
然后我发现我的 Haskell 安装中确实有一个正则表达式库,所以我决定尝试像在 F# 中那样使用正则表达式。这惨遭失败,因为库拒绝完全有效的正则表达式。
然后我想,Parsec 呢?但是,当我爬得越高,使用它的学习曲线就越陡峭,我发现自己想知道它是否适合解析这份报告这样简单的任务。
所以我想我会问一些 Haskell 专家:你会如何解析这种报告?我不是要代码,但如果你有一些,我很乐意看到它。我真的要求技术或技术。
谢谢!
附:输出只是一个以冒号分隔的文件,文件顶部有一行字段名称,后跟记录,可以为最终用户导入 Excel。
编辑:
非常感谢大家提供出色的 cmets 和答案!
因为我最初并没有说清楚:示例的前十四行对(打印)输出的每一页重复,每页的记录数从零到整页不等(看起来像 45 条记录) .我很抱歉之前没有说清楚,因为它可能会影响已经提供的一些答案。
我的 Haskell 系统目前仅限于 Parsec(它没有 attoparsec)和 Text.Regex.Base 和 Text.Regex.Posix。我将不得不看看安装 attoparsec 和/或其他正则表达式库。但就目前而言,你已经说服我继续学习 Parsec。感谢您提供非常有用的代码示例!
【问题讨论】:
-
我肯定会选择 Parsec 或更好的 attoparsec。你有什么特别的问题吗?
-
关于您的正则表达式拒绝,您是否尝试过
Text.Regex和Text.Regex.PCRE?Text.Regex是Text.Regex.Posix的影子包,它可能不支持您习惯使用的功能。 PCRE 是 perl 式的正则表达式,并且提供了很多扩展的功能。 -
输入头是固定大小的吗?你能忽略像
drop 14 . lines这样的前几行吗?可以说字段是“双空格”分隔的吗?