【发布时间】:2016-08-02 07:49:05
【问题描述】:
我想从字符串中删除以 \xF0(ASCII 码为 0xF0 的字符)开头的 4 字节 UTF8 字符并尝试过
sText = Regex.Replace (sText, "\xF0...", "");
这不起作用。使用两个反斜杠也不起作用。
确切的输入是https://de.wikipedia.org/w/index.php?title=Spezial:Exportieren&action=submit&pages=Unicode的内容,4字节字符是文本“[[Violinschlüssel]]”之后的一个字符,十六进制表示:.. 0x65 0x6c 0x5d 0x5d 0x20 0xf0 0x9d 0x84 0x9e 0x20 ..预期输出为 0x65 0x6c 0x5d 0x5d 0x20 0x20 ..
怎么了?
【问题讨论】:
-
使用两个反斜杠。
-
可能是因为您试图删除
ðcharacter。您的确切输入和确切的预期输出是什么? -
评论供我们要求您澄清。请点击edit 链接并更新您的帖子,在问题本身中进行澄清。
-
这是个好问题。它涉及 C# 中字节、字符和字符串之间的非显而易见的关系。
-
我需要将数据存储在 MySQL 数据库中,使用“UTF8”编码(暂时无法更改)。请看stackoverflow.com/questions/10957238/…