【问题标题】:Remove emojis from python string从python字符串中删除表情符号
【发布时间】:2016-09-17 07:40:05
【问题描述】:

我需要使用 python 脚本从一些字符串中删除表情符号。我发现有人已经问过这个question,并且其中一个答案被标记为成功,即以下代码可以解决问题:

#!/usr/bin/env python
import re

text = u'This dog \U0001f602'
print(text) # with emoji

emoji_pattern = re.compile("["
    u"\U0001F600-\U0001F64F"  # emoticons
    u"\U0001F300-\U0001F5FF"  # symbols & pictographs
    u"\U0001F680-\U0001F6FF"  # transport & map symbols
    u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                       "]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji

我将此代码插入到我的脚本中,并将其更改为仅作用于我的代码中的字符串而不是示例文本。但是,当我运行代码时,我遇到了一些我不明白的错误:

Traceback (most recent call last):
  File "SCRIPT.py", line 31, in get_tweets
"]+", flags=re.UNICODE)
  File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework /Versions/2.7/lib/python2.7/re.py", line 194, in compile
    return _compile(pattern, flags)
  File "/usr/local/Cellar/python/2.7.12/Frameworks/Python.framework/Versions/2.7/lib/python2.7/re.py", line 251, in _compile
    raise error, v # invalid expression
sre_constants.error: bad character range

我明白错误的意思,但自从我从 Stackexchange 获取此代码后,我无法弄清楚为什么它显然对讨论中的人有效,但对我无效。如果有帮助,我正在使用 Python 2.7。谢谢!

【问题讨论】:

  • sys.maxunicode 说?

标签: python python-2.7


【解决方案1】:

您的 Python 构建使用 surrogate pairs 来表示无法以 16 位表示的 unicode 字符——这就是所谓的“窄构建”。这意味着任何等于或大于u"\U00010000" 的值都被存储为两个字符。因为即使在 unicode 模式下,正则表达式解析器也会逐个字符地工作,如果您尝试使用该范围内的字符,这可能会导致错误的行为。

在这种特殊情况下,Python 仅将 emoji 字符代码的前“一半”视为范围的结束,而“一半”小于范围的起始值,使其无效。

Python 2.7.10 (default, Jun  1 2015, 09:44:56) 
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
65535
>>> tuple(u"\U00010000")
(u'\ud800', u'\udc00')

基本上,您需要获得 Python 的“广泛构建”才能使其工作:

Python 3.5.2 (default, Jul 28 2016, 21:28:00) 
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.maxunicode
1114111
>>> tuple(u"\U00010000")
('?',)

该字符在浏览器中没有正确显示给我,但它确实只显示了一个字符,而不是两个。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-03-17
    • 2020-03-28
    • 2020-06-16
    • 2021-06-13
    • 2016-11-08
    • 1970-01-01
    • 2017-08-23
    • 2018-01-28
    相关资源
    最近更新 更多