【问题标题】:Character showing up as diamond question mark only at end of line (Python>Text)字符仅在行尾显示为菱形问号(Python>文本)
【发布时间】:2017-06-08 07:20:34
【问题描述】:

我正在处理一个 Python 文件,该文件输入一个包含日文字符 (UTF-8) 的文本文件,获取一些文本,然后将其写入一个新的 UTF-8 文本文件。

我遇到的问题是,由于某种原因,每当日文字符 だ 出现在原始输入文件的行尾时,它就会在输出文件中显示为菱形问号。

在行尾之前的 だ 实例读取非常好,原始输入文件即使在行尾也读取非常好。

【问题讨论】:

  • 使用 python 2.7 还是 3.x? python 3.x 有更好的 unicode 支持
  • 这里的解释是针对 Java 的,但在这里也很重要stackoverflow.com/a/24009294/1530987
  • 请分享代码sn-p。

标签: python text character utf


【解决方案1】:

由于您没有共享任何代码 sn-p,我建议您使用 codecs 模块读取和写入 utf-8 文件的通用方法:

# Reading utf-8 encoded file
with codecs.open("in.txt", "r", encoding="utf-8") as input_data:
    data = input_data.read()

# Write utf-8 encoded file
with codecs.open("out.txt", "w", encoding="utf-8") as output_data:
     output_data.write(data)

顺便说一句,我在给定字符 だ 上对其进行了测试,效果很好。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-09-02
    • 1970-01-01
    • 2015-10-27
    • 2014-11-13
    • 2014-07-19
    • 1970-01-01
    • 2015-10-04
    • 1970-01-01
    相关资源
    最近更新 更多