【问题标题】:mb_detect_encoding() not working as expected?mb_detect_encoding() 没有按预期工作?
【发布时间】:2014-05-18 21:21:10
【问题描述】:

如果我没有把头发剪得这么短,我早就因为这个问题把它全部拔掉了,哈哈!非常感谢任何帮助,真的,我正因为这个而发疯!

所以我有一串数据来自(不是我的选择)mysql 数据库中的 latin1 表,如下所示:

 Hi! I'm a string of text ????.

最后的那个符号是一个 emoji unicode 字符,U+1F61C(它是一个古怪的笑脸)。我无法弄清楚如何在这个问题中正确显示它,但无论如何,当我将字符串输出到 html 文档(编码为 utf-8)中的浏览器时,我能够看到它就好了。

<html>
  <head>
    <meta charset='utf-8'>
  </head>
    <body>
      <?php echo $text; ?> // outputs the string with the emoji showing correctly
    </body>
</html>

我的基本问题是我试图从 $text 字符串中删除这个表情符号。或者更确切地说,我正在尝试从我从数据库中取出的字符串中删除 any 非标点符号和非字母数字字符(我的程序只需要获取正常的对话文本,什么都没有其他褶边)。

好吧,我想我会先尝试删除表情符号字符,所以我查看了 stackoverflow 并找到了this example。不幸的是,它不起作用 --- 表情符号根本没有被删除,字符串保持不变。

// Outputs the original string
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

然后我想,为什么不尝试像我一开始那样删除所有非标点符号和非字母字符?所以我环顾了一下stackoverflow,发现了this example。但奇怪的是,它也不起作用 --- 字符串和以前一样。

// Also outputs the original string
echo preg_replace( '/[^a-zA-Z0-9\s\p{P}]/', '', $text );

所以我在想,这很奇怪,它至少应该去掉标点符号,对吧?也许字符串有问题?所以我尝试在其上运行 mb_detect_encoding() 以查看 PHP 检测到的内容,输出显示为“ASCII”。

// Outputs "ASCII"
echo mb_detect_encoding( $text, mb_detect_order(''), true );

我想我想知道,它返回的结果是否看起来很奇怪?如果我理解正确,ASCII 不只是一小组不包含 emoji unicode 符号的字符吗?但也许,更广泛的问题可能是为什么标点符号删除代码不起作用,我想也许我使用 preg_replace 错误。所以我在不同的字符集上再次尝试了 preg_replace 来查看:

// Outputs "Hi! I'm a text ????."
echo preg_replace( '/string of/', '', $text );

...效果很好。我很困惑!

所以我在想,我猜数据库中的数据有些问题,也许我应该尝试将字符串编码强制为 utf-8?所以我尝试了以下代码,它也不起作用,我猜是因为 PHP 已经将字符串检测为 ASCII,所以它不会转换为 utf-8?我不知道。

//  Outputs "ASCII" still, and also the original string
$text = iconv( mb_detect_encoding( $text, mb_detect_order(''), true ), "UTF-8", $text );
echo mb_detect_encoding( $first_post_text, mb_detect_order(''), true );
echo preg_replace( '/[\x{1F600}-\x{1F64F}]/u', '', $text );

我什至在字符串上尝试了一个平坦的 utf8_encode() (因为我认为数据来自 latin1 数据库,所以它可能是用 ISO-8859-1 编码的......也许?)但也没有运气 - -- 还是同一个字符串,还说是ASCII,好像不太对。

最后,我认为 preg_replace 函数本身可能有问题,但奇怪的部分是 --- 你还记得上面那个简单的 html 文档吗?好吧,我决定创建一个简单的表单,通过 POST 变量将整个文档(使用 javascript)发送到另一个 PHP 页面(html 标记、文本和所有内容)。当我在下一页上并在 POST 数据上运行 mb_detect_encoding() 时,它实际上输出 UTF-8 --- 不仅如此,当我从上面运行 preg_replace 代码时,它正在工作!

有人对可能出现的问题有任何想法吗?对此的任何帮助将不胜感激!诚然,我在字符编码方面不是好朋友,我正在疯狂地试图弄清楚这一切!

【问题讨论】:

    标签: php character-encoding


    【解决方案1】:

    一种可能的解释:

    如果数据库不包含 unicode 字符本身,而仅包含 html 实体(&amp;#128540;&amp;#x1f61c;),则字符串替换将失败。它还将解释 latin1 字符集中如何显示 unicode 字符,以及检测到的ascii 编码。像

    echo str_replace( array('&#128540;','&#x1f61c;'), '', $text );
    

    在这种情况下可以工作。

    【讨论】:

      猜你喜欢
      • 2021-10-19
      • 2020-03-18
      • 2012-06-14
      • 2014-11-15
      • 2012-07-02
      • 2011-09-07
      • 2013-03-03
      • 2015-05-18
      • 2018-12-31
      相关资源
      最近更新 更多