【发布时间】:2011-02-11 15:21:02
【问题描述】:
使用以下代码,我可以从互联网上下载文件的 HTML:
WebClient wc = new WebClient();
// ....
string downloadedFile = wc.DownloadString("http://www.myurl.com/");
但是,有时文件包含“有趣”的字符,例如 é 到 é、← 到 ↠和 フシギダネ 到 フシギダãƒ。
我认为这可能与不同的 unicode 类型或其他东西有关,因为每个字符都变成了 2 个新字符,也许每个字符都被分成两半,但我在这方面的知识很少。你觉得哪里不对?
【问题讨论】:
-
服务器可能在
Content-Type标头中返回错误的编码。 -
您应该阅读this article 以对Unicode 有一些基本的了解。例如,它将涵盖某些项目显示为两个的所有原因。但重要的是,它将帮助您了解需要了解的有关 Unicode 的基础知识。
-
这个非常肯定的 UTF-8 HTML 在 ISO-8859-1 或其他单字节编码中查看。
标签: c# .net string unicode webclient