【发布时间】:2015-12-22 08:39:28
【问题描述】:
有人知道 Java 上的工具/项目可以规范化文本(并存储规范化日志)然后构建原始源文本吗?
任何方法都值得赞赏。
问题: 为了处理输入数据,我们需要对其进行规范化。
流程引擎接收规范化的文本并返回匹配的位置。
在这一步之后,我们需要通过归一化位置恢复原始源等价物。
例子:
Source:
Lorem ipsum ad his scripta blandit partiendo, eum fastidii accumsan euripidis in, eum liber hendrerit an ... ütf Wórd èxämplé
Normalized text (approx):
lorem ipsum scripta blandit partiendo, fastidi accumsan euripidis, liber hendrerit utf word example
Engine output:
lorem ipsum scripta begin 0 end 19
euripidis begin 56 end 65
Original source equivalent:
Lorem ipsum ad his scripta begin 0 end 26
euripidis begin 69 end 78
感谢您的帮助
【问题讨论】:
-
这样的问题在 SO 上是题外话。如果您提供详细规范,它可以在Software Recommendations 上被接受。
-
一般来说,只跟踪原始文本本身可能比尝试记录从规范化文本重新生成的指令更容易和更可靠。
标签: java text nlp normalization