【问题标题】:Convert non-English text into readable format将非英文文本转换为可读格式
【发布时间】:2010-08-29 21:11:50
【问题描述】:

我正在从网络获取字符串,这些字符串通常包含在我的应用程序中无法识别的重音字符。

编辑 - 我正在使用 HtmlAgilityPack 获取我的字符串。我正在使用<title> 标签的InnerText。在执行此操作时,Pack 使用与原始 HTML 文档不同的编码(但我不确定哪些编码?)。

        // get the html title inner text and assign to htmlParts object
        HtmlNode titleNode = doc.DocumentNode.SelectSingleNode("//title");
        string docTitle = titleNode.InnerText;
        htmlParts.htmlTitle = docTitle.ToString();

谁能告诉我如何从"(Subtitulado al español).avi" 变成"(Subtitulado al español).avi"

非常感谢。 :)

【问题讨论】:

    标签: c# .net language-features


    【解决方案1】:

    看起来您正在获取 UTF-8,但将其处理为 ISO-8859-1。

    如果不了解您的系统,就不可能提供更具体的信息。

    【讨论】:

    • Michael,您能解释一下您是如何进行编码的吗?我仍然有这个问题。
    • @TysHTTP:如果您询问如何进行实际转换,.NET 中有一些方法可以从一种编码转换为另一种编码(检查Encoding 类)。如果你问我如何识别它们,那就是 OP 中的确切字符。
    • 我现在这样做了,而且效果很好: HtmlWeb web = new HtmlWeb(); web.OverrideEncoding = Encoding.GetEncoding("ISO-8859-1");
    【解决方案2】:

    对您读取的数据应用适当的编码。具体如何?好问题。为此,您至少需要首先提供导致问题的代码。

    【讨论】:

      猜你喜欢
      • 2015-10-01
      • 2016-10-08
      • 1970-01-01
      • 1970-01-01
      • 2011-06-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多