【问题标题】:Protocol buffers python - unicode decode error协议缓冲区python - unicode解码错误
【发布时间】:2012-06-09 01:54:51
【问题描述】:

我需要在我的 python - tornado 服务器上接收协议缓冲区消息并从二进制消息中获取内容。

postContent = self.request.body
message = prototemp.ReqMessage()
message.ParseFromString(postContent)

使用测试工具可以完美运行。当我在沙盒环境中运行它并模拟来自我的客户端的 1000 个请求时,它在某些情况下可以工作,但在大多数请求中,它会引发异常 -

  File "server1.py", line 21, in post
    message.ParseFromString(postContent)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/message.py", line 179, in ParseFromString
    self.MergeFromString(serialized)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 755, in MergeFromString
    if self._InternalParse(serialized, 0, length) != length:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 544, in DecodeField
    if value._InternalParse(buffer, pos, new_pos) != new_pos:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 410, in DecodeField
    field_dict[key] = local_unicode(buffer[pos:new_pos], 'utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 1: invalid continuation byte

在某些其他情况下,它会给出这些错误 -

UnicodeDecodeError: 'utf8' codec can't decode byte 0xbf in position 3: invalid start byte

UnicodeDecodeError: 'utf8' codec can't decode byte 0xe7 in position 3: unexpected end of data

可能是什么原因?

【问题讨论】:

  • 您是否尝试过使用 try/except 子句来打印产生异常的字符串?或使用pdb 查看当时的变量是什么?因为它告诉您问题所在:字符串中指定位置的某些字符无法使用 utf-8 编码。所以要么你需要处理那个角色。 (如果你能弄清楚它是什么以及你是否必须处理它,你就能处理它)
  • 我的第一个猜测是测试客户端使用的是 UTF-16,因为这些字节似乎与 UTF-8 或任何有意义的西方图表集不匹配
  • 听起来它正在接收一条缺少协议定义的消息。一个或多个发射器是否使用不同的规格?
  • 您使用的是Python 2.6,考虑升级到Python 3;因为处理字符串的方式会让你的生活变得更简单。

标签: python unicode utf-8 protocol-buffers


【解决方案1】:

我在 RabbitMQ 和 Protocol Buffers 上遇到了完全相同的问题。问题是协议缓冲区假定输入为 str 类型,而 RabbitMQ 在某些情况下似乎将消息解码为 un​​icode(如果字节数组包含大于 127 的字节)。 Tornado 也可能发生同样的情况。到目前为止,似乎可以通过以下代码解决该问题:

body = self.request.body
if type(body) == unicode:
    data = bytearray(body, "utf-8")
    body = bytes(data)
message = whatever.FromString(body)

此代码将 unicode 字符串转换为 python 字节对象,它可以被协议缓冲区消息愉快地解析。不知道是否有更好的方法可以做到这一点,但至少这似乎有效。

【讨论】:

  • +1 为您服务。谢谢!你让我免了很多烦恼。你能告诉我字节(数据)是做什么的吗?当我在交互式 python 中并执行帮助(字节)时,我看不到有关此函数的任何信息。谢谢!
  • 这不是一个函数。这是一个python类型。
  • 如果你迁移到 python3,你不会有这些问题。只是说'
【解决方案2】:

我遇到了同样的问题。

这是一个参考[​​1]。

在这种情况下,我们应该使用字节。

谢谢。

[1]https://developers.google.com/protocol-buffers/docs/proto#scalar

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-18
    • 1970-01-01
    • 2021-12-19
    • 2011-11-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多