【发布时间】:2010-12-18 11:58:01
【问题描述】:
PHP 中没有可用的多字节“preg”函数,这是否意味着默认的 preg_functions 都是 mb 安全的?在 php 文档中找不到任何提及。
【问题讨论】:
-
我 90% 确定底层 C 函数是,但这并不意味着我认为 PHP 版本是...
标签: php preg-replace preg-match multibyte
PHP 中没有可用的多字节“preg”函数,这是否意味着默认的 preg_functions 都是 mb 安全的?在 php 文档中找不到任何提及。
【问题讨论】:
标签: php preg-replace preg-match multibyte
不,他们不是。例如,请参阅问题preg_match and UTF-8 in PHP。
【讨论】:
PREG_OFFSET_CAPTURE 产生字节偏移而不是字符偏移。它与 PHP 中的字符串处理是一致的,但它可能会很混乱。
offset()或byteOffset()方法来获取字符或字节的偏移量。
不,你需要像mb_ereg一样使用multibyte string functions
【讨论】:
ereg 函数的多字节版本,但与 PCRE preg 函数并不完全相同。
preg_match 和 /u 修饰符效果很好!谢谢@hanshenrik
PCRE 可以支持 UTF-8 和其他 Unicode 编码,但必须在编译时指定。来自man page for PCRE 8.0:
PCRE 的当前实现与 Perl 5.10 大致对应,包括对 UTF-8 编码字符串和 Unicode 通用类别属性的支持。但是,必须明确启用 UTF-8 和 Unicode 支持;它不是默认值。 Unicode 表对应于 Unicode 版本 5.1。
PHP 目前使用PCRE 7.9;您的系统可能有旧版本。
查看 PHP 5.2 附带的 PCRE lib,它似乎已配置为支持 Unicode 属性和 UTF-8。 5.3 branch 也一样。
【讨论】:
pcre 支持 utf8 开箱即用,请参阅 'u' 修饰符的文档。
插图(\xC3\xA4 是德语字母“ä”的 utf8 编码)
echo preg_replace('~\w~', '@', "a\xC3\xA4b");
这与“@@¤@”相呼应,因为“\xC3”和“\xA4”被视为不同的符号
echo preg_replace('~\w~u', '@', "a\xC3\xA4b");
(注意“u”)打印“@@@”,因为“\xC3\xA4”被视为单个字母。
【讨论】:
preg_replace 后json_encode 处理字符串时出错,但由于preg_replace 将一些UTF-8 字符转换为替换字符 而失败。 u 修饰符拯救了我的一天!!!非常感谢。
我的一些更复杂的 preg 函数:
(1a) 验证用户名是否为字母数字 + 下划线:
preg_match('/^[A-Za-z][A-Za-z0-9]*(?:_[A-Za-z0-9]+)*$/',$username)
(1b) 可能的 UTF 替代方案:
preg_match('/^[A-Za-z][A-Za-z0-9]*(?:_[A-Za-z0-9]+)*$/u',$username)
(2a) 验证电子邮件:
preg_match("/^([a-z0-9\+_\-]+)(\.[a-z0-9\+_\-]+)*@([a-z0-9\-]+\.)+[a-z]{2,6}$/ix",$email))
(2b) 可能的 UTF 替代方案:
preg_match("/^([a-z0-9\+_\-]+)(\.[a-z0-9\+_\-]+)*@([a-z0-9\-]+\.)+[a-z]{2,6}$/ixu",$email))
(3a) 规范换行:
preg_replace("/(\n){2,}/","\n\n",$str);
(3b) 可能的 UTF 替代方案:
preg_replace("/(\n){2,}/u","\n\n",$str);
这些变化看起来好吗?
【讨论】: