【发布时间】:2011-08-25 17:10:49
【问题描述】:
我有一些文档经过 OCR 转换,从 PDF 转换为 HTML。正因为如此,他们最终在转换器搞砸的地方有很多随机的 unicode 标点符号(即省略号等)。他们也正确地有一堆非英语,但仍然是字母字符,如 é 和俄语字符等......
有没有办法制作一个匹配任何 unicode 字母字符(来自任何语言的字母)的正则表达式?还是只匹配非字母字符?任何一个都会非常有帮助和真棒。我正在使用 Perl,如果这改变了任何东西。谢谢!
【问题讨论】:
标签: regex perl unicode character-properties