【问题标题】:UTF-8 to UTF-16LE JavascriptUTF-8 到 UTF-16LE Javascript
【发布时间】:2014-08-14 06:59:42
【问题描述】:

我需要在 javascript 中将一个 utf-8 字符串转换为 utf-16LE,例如 iconv() php 函数。

即:

iconv("UTF-8", "UTF-16LE", $string);

输出应该是这样的:

49 00 6e 00 64 00 65 00 78 00

我发现这个函数可以解码 UTF-16LE,它工作正常,但我不知道如何做同样的编码。

function decodeUTF16LE( binaryStr ) {
    var cp = [];
    for( var i = 0; i < binaryStr.length; i+=2) {
        cp.push( 
             binaryStr.charCodeAt(i) |
            ( binaryStr.charCodeAt(i+1) << 8 )
        );
    }

    return String.fromCharCode.apply( String, cp );
}

结论是创建一个可以下载的二进制文件。

代码:

function download(filename, text) {
    var a = window.document.createElement('a');

    var byteArray = new Uint8Array(text.length);
    for (var i = 0; i < text.length; i++) {
        byteArray[i] = text.charCodeAt(i) & 0xff;
    }
    a.href = window.URL.createObjectURL(new Blob([byteArray.buffer], {'type': 'application/type'}));

    a.download = filename;

    // Append anchor to body.
    document.body.appendChild(a);
    a.click();

    // Remove anchor from body
    document.body.removeChild(a);
}

【问题讨论】:

  • 为什么不让用户下载一个UTF8文件呢?除了字符串中的文本之外,文件中还有其他内容吗?
  • 因为是可执行文件的特殊文件,如果不转换韩文等特殊字符,exe无法解析该文件。是的,有很多数值(使用函数转换:pack())。

标签: javascript encoding utf-8 utf-16


【解决方案1】:

应该这样做:

var byteArray = new Uint8Array(text.length * 2);
for (var i = 0; i < text.length; i++) {
    byteArray[i*2] = text.charCodeAt(i) // & 0xff;
    byteArray[i*2+1] = text.charCodeAt(i) >> 8 // & 0xff;
}

这与您的 decodeUTF16LE 函数相反。请注意,两者都不适用于 BMP 之外的代码点。

【讨论】:

    【解决方案2】:

    非常感谢 Bergi,这可以完美结合标准 utf8 到 utf16 编码功能:

    function encodeUTF16LE(str) {
        var out, i, len, c;
        var char2, char3;
    
        out = "";
        len = str.length;
        i = 0;
        while(i < len) {
            c = str.charCodeAt(i++);
            switch(c >> 4)
            { 
              case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7:
                // 0xxxxxxx
                out += str.charAt(i-1);
                break;
              case 12: case 13:
                // 110x xxxx   10xx xxxx
                char2 = str.charCodeAt(i++);
                out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F));
                out += str.charAt(i-1);
                break;
              case 14:
                // 1110 xxxx  10xx xxxx  10xx xxxx
                char2 = str.charCodeAt(i++);
                char3 = str.charCodeAt(i++);
                out += String.fromCharCode(((c & 0x0F) << 12) | ((char2 & 0x3F) << 6) | ((char3 & 0x3F) << 0));
                break;
            }
        }
    
        var byteArray = new Uint8Array(out.length * 2);
        for (var i = 0; i < out.length; i++) {
            byteArray[i*2] = out.charCodeAt(i); // & 0xff;
            byteArray[i*2+1] = out.charCodeAt(i) >> 8; // & 0xff;
        }
    
        return String.fromCharCode.apply( String, byteArray );
    }
    

    【讨论】:

      猜你喜欢
      • 2015-01-14
      • 1970-01-01
      • 2022-06-14
      • 1970-01-01
      • 2018-09-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-28
      相关资源
      最近更新 更多