【问题标题】:UTF8 byte[] to string conversionUTF8 byte[] 到字符串的转换
【发布时间】:2016-08-12 20:23:55
【问题描述】:

我有无限大小(即非常大)的 UTF8 byte[]。我只想将其截断为 1024 字节,然后将其转换为字符串。

Encoding.UTF8.GetString(byte[], int, int) 为我做这件事。它首先缩短 1024 字节,然后给我转换后的字符串。

但是在这个转换中,如果最后一个字符是 UTF8 字符集,它由 2 个字节组成,并且第一个字节在范围内,另一个字节超出范围,那么它在转换后的字符串中显示该字符的 ?

有什么办法可以让这个? 不会出现在转换后的字符串中?

【问题讨论】:

    标签: c# string utf-8 type-conversion


    【解决方案1】:

    这就是 Decoder 类的用途。它允许您将byte 数据流式传输到char 数据中,同时保持足够的状态来正确处理部分代码点:

    Encoding.UTF8.GetDecoder().GetChars(buffer, 0, 1024, charBuffer, 0)
    

    当然,当代码点在中间拆分时,Decoder 会在其状态下留下“部分字符”,但这与您的情况无关(并且在所有其他用例:))。

    【讨论】:

    • 我不知道如何处理指针。您的解决方案有什么帮助或替代方案吗?
    • @pratik03 不涉及指针 - 只需使用char[](和byte[])重载而不是char*(和byte*)重载。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-04-20
    • 2014-01-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-10-11
    相关资源
    最近更新 更多