【发布时间】:2011-01-08 14:27:39
【问题描述】:
在 Linux 上,我有一个包含大量文件的目录。其中一些具有非 ASCII 字符,但它们都是有效的UTF-8。一个程序有一个错误,阻止它使用非 ASCII 文件名,我必须找出有多少受到影响。我打算用find 执行此操作,然后执行grep 打印非ASCII 字符,然后执行wc -l 查找数字。它不必是 grep;我可以使用任何标准的 Unix regular expression,例如 Perl、sed、AWK 等。
但是,“任何不是 ASCII 字符的字符”是否有正则表达式?
【问题讨论】:
-
保罗,是的,我可以使用 perl
-
/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]
标签: regex unicode grep ascii non-ascii-characters