【问题标题】:Replacing emoji in string results in odd characters替换字符串中的表情符号会导致奇数字符
【发布时间】:2016-06-23 00:52:35
【问题描述】:

我有这个字符串:s = '☀️✈️✈️вьетнам'

我想从中删除表情符号。

所以我在做:

import re
emoji_re = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
new = emoji_re.sub(r'', s)

这给了我一个奇怪的结果,我将其显示为屏幕截图,因为我无法在此处复制和粘贴它。

奇怪的是,您可以看到“打印”显示正确的结果。为什么会这样?

【问题讨论】:

标签: regex python-3.x encoding


【解决方案1】:

我用这段代码试了一下 ideone:

import re

s = '☀️✈️✈'
emoji_re = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
new = emoji_re.sub(r'', s)
print(new)

输出是,嗯,有点空。只是因为我后来添加了:

print(len(new))

哪个输出:

2

我很高兴看到我们正在处理不可打印的字符,这就是为什么您不能在此处粘贴它。将字符串编码为 utf-8:

print(new.encode("utf-8"))

输出

b'\xef\xb8\x8f\xef\xb8\x8f'


看着unicodelookup 似乎正则表达式错过了这个字符:

 variation selector-16  0xFE0F

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-08-16
    • 2011-12-15
    • 1970-01-01
    • 2016-03-22
    • 1970-01-01
    • 2018-07-14
    • 1970-01-01
    相关资源
    最近更新 更多