mb_detect_encoding() 没有按预期工作？答案

【问题标题】：mb_detect_encoding() not working as expected?mb_detect_encoding() 没有按预期工作？
【发布时间】：2014-05-18 21:21:10
【问题描述】：

如果我没有把头发剪得这么短，我早就因为这个问题把它全部拔掉了，哈哈！非常感谢任何帮助，真的，我正因为这个而发疯！

所以我有一串数据来自（不是我的选择）mysql 数据库中的 latin1 表，如下所示：

 Hi! I'm a string of text ????.

最后的那个符号是一个 emoji unicode 字符，U+1F61C（它是一个古怪的笑脸）。我无法弄清楚如何在这个问题中正确显示它，但无论如何，当我将字符串输出到 html 文档（编码为 utf-8）中的浏览器时，我能够看到它就好了。

<html>
  <head>
    <meta charset='utf-8'>
  </head>
    <body>
      <?php echo $text; ?> // outputs the string with the emoji showing correctly
    </body>
</html>

我的基本问题是我试图从 $text 字符串中删除这个表情符号。或者更确切地说，我正在尝试从我从数据库中取出的字符串中删除 any 非标点符号和非字母数字字符（我的程序只需要获取正常的对话文本，什么都没有其他褶边）。

好吧，我想我会先尝试删除表情符号字符，所以我查看了 stackoverflow 并找到了this example。不幸的是，它不起作用 --- 表情符号根本没有被删除，字符串保持不变。

// Outputs the original string
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

然后我想，为什么不尝试像我一开始那样删除所有非标点符号和非字母字符？所以我环顾了一下stackoverflow，发现了this example。但奇怪的是，它也不起作用 --- 字符串和以前一样。

// Also outputs the original string
echo preg_replace( '/[^a-zA-Z0-9\s\p{P}]/', '', $text );

所以我在想，这很奇怪，它至少应该去掉标点符号，对吧？也许字符串有问题？所以我尝试在其上运行 mb_detect_encoding() 以查看 PHP 检测到的内容，输出显示为“ASCII”。

// Outputs "ASCII"
echo mb_detect_encoding( $text, mb_detect_order(''), true );

我想我想知道，它返回的结果是否看起来很奇怪？如果我理解正确，ASCII 不只是一小组不包含 emoji unicode 符号的字符吗？但也许，更广泛的问题可能是为什么标点符号删除代码不起作用，我想也许我使用 preg_replace 错误。所以我在不同的字符集上再次尝试了 preg_replace 来查看：

// Outputs "Hi! I'm a text ????."
echo preg_replace( '/string of/', '', $text );

...效果很好。我很困惑！

所以我在想，我猜数据库中的数据有些问题，也许我应该尝试将字符串编码强制为 utf-8？所以我尝试了以下代码，它也不起作用，我猜是因为 PHP 已经将字符串检测为 ASCII，所以它不会转换为 utf-8？我不知道。

//  Outputs "ASCII" still, and also the original string
$text = iconv( mb_detect_encoding( $text, mb_detect_order(''), true ), "UTF-8", $text );
echo mb_detect_encoding( $first_post_text, mb_detect_order(''), true );
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

我什至在字符串上尝试了一个平坦的 utf8_encode() （因为我认为数据来自 latin1 数据库，所以它可能是用 ISO-8859-1 编码的......也许？）但也没有运气 - -- 还是同一个字符串，还说是ASCII，好像不太对。

最后，我认为 preg_replace 函数本身可能有问题，但奇怪的部分是 --- 你还记得上面那个简单的 html 文档吗？好吧，我决定创建一个简单的表单，通过 POST 变量将整个文档（使用 javascript）发送到另一个 PHP 页面（html 标记、文本和所有内容）。当我在下一页上并在 POST 数据上运行 mb_detect_encoding() 时，它实际上输出 UTF-8 --- 不仅如此，当我从上面运行 preg_replace 代码时，它正在工作！

有人对可能出现的问题有任何想法吗？对此的任何帮助将不胜感激！诚然，我在字符编码方面不是好朋友，我正在疯狂地试图弄清楚这一切！

【问题讨论】：

标签： php character-encoding

【解决方案1】：

一种可能的解释：

如果数据库不包含 unicode 字符本身，而仅包含 html 实体（&#128540; 或 &#x1f61c;），则字符串替换将失败。它还将解释 latin1 字符集中如何显示 unicode 字符，以及检测到的ascii 编码。像

echo str_replace( array('&#128540;','&#x1f61c;'), '', $text );

在这种情况下可以工作。

【讨论】：