【问题标题】:How can I search by emoji in MySQL using utf8mb4?如何使用 utf8mb4 在 MySQL 中按表情符号搜索?
【发布时间】:2026-02-18 00:25:02
【问题描述】:

请帮助我了解如何在 MySQL utf8mb4 字段中处理表情符号等多字节字符。

请参阅下面的简单测试 SQL 来说明挑战。

/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;

/* Build Schema */
CREATE TABLE `emoji_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('????', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????????', 1);                 # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????????', 1);                 # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????', 1);   # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????', 1);   # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????????', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????????', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'

/* Test data */

    /* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('????','????','????????','????????'); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN ('????');                     # FAIL: Returns both ???? and ????
SELECT * FROM emoji_test WHERE `string` IN ('????');                     # FAIL: Returns both ???? and ????
SELECT * FROM emoji_test;                                              # SUCCESS (all 4 are found)

    /* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????','????','????????','????????'); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????');                     # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????');                     # FAIL: ???? found instead of ????
SELECT * FROM emoji_test_with_unique_key;                                              # FAIL: Only 2 records found (???? and ????????)

我有兴趣了解导致上述FAILs 的原因以及如何解决此问题。

具体来说:

  1. 为什么选择一个多字节字符会返回任何个多字节字符的结果?
  2. 如何配置索引来处理多字节字符而不是 ?
  3. 您能否建议对上面的第二个CREATE TABLE(具有唯一键的那个)进行更改,以使所有测试查询都成功返回?

【问题讨论】:

  • 任何墨西哥人都可以告诉你,???? ('TACO' (U+1F32E)) 和???? ('HOT PEPPER' (U+1F336)) 显然相关但不同。这一定是多年来写得最精彩的问题。
  • 相关:*.com/questions/38116984/…解决方案是使用 MySQL 5.6+ 并使用 utf8mb4_unicode_520_ci 排序规则,它不会将所有 4 字节字符视为相等 - 一个很好的理由避免使用表情符号作为密码:)
  • @ÁlvaroGonzález 好吧,如果这是密码的问题,那么给定的设置会有更大的问题,因为密码应该使用单向哈希存储。对于散列,它不应该是个问题。但我也不建议将它们用作密码。

标签: mysql sql emoji utf8mb4


【解决方案1】:

不需要去举重。做这样的事情来看看两个字符(或字符串)是否相等。

mysql> SELECT '?' = '?' COLLATE utf8mb4_unicode_ci;
+--------------------------------------+
| '?' = '?' COLLATE utf8mb4_unicode_ci |
+--------------------------------------+
|                                    1 |  1 = true, hence equal
+--------------------------------------+
1 row in set (0.00 sec)

mysql> SELECT '?' = '?' COLLATE utf8mb4_unicode_520_ci;
+------------------------------------------+
| '?' = '?' COLLATE utf8mb4_unicode_520_ci |
+------------------------------------------+
|                                        0 |  unequal
+------------------------------------------+
1 row in set (0.00 sec)

【讨论】:

    【解决方案2】:

    您的列使用utf8mb4_unicode_ci,因此检查不区分大小写。如果你改用utf8mb4_bin,那么表情符号?和?会被正确识别为不同的字母。

    使用WEIGHT_STRING,您可以获得用于对输入字符串进行排序和比较的值。

    如果你写:

    SELECT
      WEIGHT_STRING ('?' COLLATE 'utf8mb4_unicode_ci'),
      WEIGHT_STRING ('?' COLLATE 'utf8mb4_unicode_ci')
    

    然后你可以看到两者都是0xfffd。在Unicode Character Sets 他们说:

    对于一般排序规则中的补充字符,权重是 0xfffd REPLACEMENT CHARACTER 的权重。

    如果你写:

    SELECT 
      WEIGHT_STRING('?' COLLATE 'utf8mb4_bin'),
      WEIGHT_STRING('?' COLLATE 'utf8mb4_bin')
    

    您将获得它们的 unicode 值 0x01f32e0x01f336

    对于其他字母,例如ÄÁA,如果您使用utf8mb4_unicode_ci,则它们的区别如下:

    SELECT
      WEIGHT_STRING ('Ä' COLLATE 'utf8mb4_unicode_ci'),
      WEIGHT_STRING ('A' COLLATE 'utf8mb4_unicode_ci')
    

    那些映射到权重0x0E33

    Ä: 00C4  ; [.0E33.0020.0008.0041][.0000.0047.0002.0308] # LATIN CAPITAL LETTER A WITH DIAERESIS; QQCM
    A: 0041  ; [.0E33.0020.0008.0041] # LATIN CAPITAL LETTER A
    

    根据:Difference between utf8mb4_unicode_ci and utf8mb4_unicode_520_ci collations in MariaDB/MySQL?utf8mb4_unicode_ci 使用的权重基于UCA 4.0.0,因为那里没有出现表情符号,映射的权重是0xfffd

    如果您需要对常规字母和表情符号进行不区分大小写的比较和排序,则可以使用utf8mb4_unicode_520_ci 解决此问题:

    SELECT
      WEIGHT_STRING('?' COLLATE 'utf8mb4_unicode_520_ci'),
      WEIGHT_STRING('?' COLLATE 'utf8mb4_unicode_520_ci')
    

    0xfbc3f32e0xfbc3f336 的表情符号也会有不同的权重。

    【讨论】:

    • 这太不可思议了。在上面的CREATE TABLEs 中将编码切换到utf8mb4_bin 使得其余的测试查询完全按预期工作。非常感谢。对此的任何进一步见解将不胜感激。
    • 难怪二进制排序解决了这个问题(这就是它的意思),但我不明白为什么两个完全不同的表情符号会被视为同一字符的大小写变体。我怀疑这是故意的。
    • @ÁlvaroGonzález 与ÄÁA 相同的原因类似,即使它们的发音和含义可能不同。我的第一个想法是,它们被视为平等,因为它们都属于食物类别,但ci 更有可能只是检查它们是否是表情符号。
    • 所以...排序规则数据库没有关于它们的信息,所以它们被分配了一个通用的共同权重,因此变得“相等”?
    • 8.0将迎来utf8mb4_0900_ai_ci,基于UCA 9.0.0。