【问题标题】:Ignore special characters when reading PDFs阅读 PDF 时忽略特殊字符
【发布时间】:2020-09-04 03:13:47
【问题描述】:

我正在使用pdfplumber 来抓取 PDF 文本。然后我使用write(来自包string)将其写入文本文件。在 pdf 开始添加特殊字符(例如 ↓ )之前,这一直运行良好。现在,当我将其写入文本文件时,我得到一个 unicode 错误。有没有办法忽略这个特殊字符并写下剩下的文字?

代码:

dataFile = open('AgW1.txt','w')
for eachitem in aList:
    dataFile.write(str(eachitem)+'\n')

追溯

UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-12-13532302c2d5> in <module>
      1 for eachitem in aList:
----> 2     dataFile.write(str(eachitem)+'\n')

~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
     17 class IncrementalEncoder(codecs.IncrementalEncoder):
     18     def encode(self, input, final=False):
---> 19         return codecs.charmap_encode(input,self.errors,encoding_table)[0]
     20 
     21 class IncrementalDecoder(codecs.IncrementalDecoder):

UnicodeEncodeError: 'charmap' codec can't encode character '\u2193' in position 63: character maps to <undefined>

【问题讨论】:

  • 你应该在你的代码之间添加代码围栏(``` ```),这样它会更具可读性。

标签: python unicode


【解决方案1】:

尝试将utf-8 编码添加到您打开的文件中,即dataFile = open('AgW1.txt','w', encoding='utf-8')

【讨论】:

    猜你喜欢
    • 2017-07-25
    • 2013-12-11
    • 2023-03-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多