【发布时间】:2019-01-17 09:45:53
【问题描述】:
我一直在尝试读取 .docx 文件并将其文本复制到 .txt 文件中
我开始编写这段脚本来实现上述结果。
if extension == 'docx' :
document = Document(filepath)
for para in document.paragraphs:
with open("C:/Users/prasu/Desktop/PySumm-resource/CodeSamples/output.txt","w") as file:
file.writelines(para.text)
发生的错误如下:
Traceback (most recent call last):
File "input_script.py", line 27, in <module>
file.writelines(para.text)
File "C:\Python\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u2265' in
position 0: character maps to <undefined>
我尝试在 print() 的帮助下打印“para.text”,它可以工作。 现在,我想将“para.text”写入 .txt 文件。
【问题讨论】:
-
无法将输出写入文本文件
-
使用
para.text.encode('utf-8')来自这里有帮助吗stackoverflow.com/questions/14630288/… -
好的,谢谢先生
标签: python nlp python-unicode traceback