【发布时间】:2014-03-04 03:06:59
【问题描述】:
问题
我将从一个简化的解析问题开始。假设我有一个字符串列表,我想将其解析为整数列表,并且我想累积错误。这在Scalaz 7 中非常简单:
val lines = List("12", "13", "13a", "14", "foo")
def parseLines(lines: List[String]) = lines.traverseU(_.parseInt.toValidationNel)
我们可以确认它按预期工作:
scala> parseLines(lines).fold(_.foreach(t => println(t.getMessage)), println)
For input string: "13a"
For input string: "foo"
这很好,但是假设列表很长,并且我决定要捕获有关错误上下文的更多信息,以便更轻松地进行清理。为简单起见,我将在此处仅使用(零索引)行号来表示位置,但上下文也可以包含文件名或其他信息。
绕过位置
一种简单的方法是将位置传递给我的行解析器:
type Position = Int
case class InvalidLine(pos: Position, message: String) extends Throwable(
f"At $pos%d: $message%s"
)
def parseLine(line: String, pos: Position) = line.parseInt.leftMap(
_ => InvalidLine(pos, f"$line%s is not an integer!")
)
def parseLines(lines: List[String]) = lines.zipWithIndex.traverseU(
(parseLine _).tupled andThen (_.toValidationNel)
)
这也有效:
scala> parseLines(lines).fold(_.foreach(t => println(t.getMessage)), println)
At 2: 13a is not an integer!
At 4: foo is not an integer!
但在更复杂的情况下,像这样传递位置会令人不快。
包装错误
另一种选择是包装行解析器产生的错误:
case class InvalidLine(pos: Position, underlying: Throwable) extends Throwable(
f"At $pos%d: ${underlying.getMessage}%s",
underlying
)
def parseLines(lines: List[String]) = lines.zipWithIndex.traverseU {
case (line, pos) => line.parseInt.leftMap(InvalidLine(pos, _)).toValidationNel
}
再一次,它工作得很好:
scala> parseLines(lines).fold(_.foreach(t => println(t.getMessage)), println)
At 2: For input string: "13a"
At 4: For input string: "foo"
但有时我有一个很好的错误 ADT,这种包装感觉不是特别优雅。
返回“部分”错误
第三种方法是让我的行解析器返回一个需要与一些附加信息(在本例中为位置)结合的部分错误。我将在这里使用Reader,但我们也可以将故障类型表示为Position => Throwable。我们可以重复使用上面的第一个(非包装)InvalidLine。
def parseLine(line: String) = line.parseInt.leftMap(
error => Reader(InvalidLine((_: Position), error.getMessage))
)
def parseLines(lines: List[String]) = lines.zipWithIndex.traverseU {
case (line, pos) => parseLine(line).leftMap(_.run(pos)).toValidationNel
}
这再次产生了所需的输出,但也感觉有点冗长和笨拙。
问题
我一直都遇到这种问题——我正在解析一些杂乱的数据,并希望得到有用的错误消息,但我也不想在我的所有解析逻辑中串接一堆位置信息。
是否有理由更喜欢上述方法之一?有更好的方法吗?
【问题讨论】:
-
我可能误解了你的问题,因为我提供的答案太简单了,你可能要求别的东西。我相信你也考虑过这个选项。请指出我的解决方案在您的案例中存在哪些不足。
-
“一些乱七八糟的数据”——一定是“人文”数据。
-
我不认为我们垄断了杂乱的数据,但是是的,我们确实受够了。
标签: validation scala parsing error-handling scalaz