【发布时间】:2011-08-07 02:39:19
【问题描述】:
我正在使用 python 从使用 pdftotext 从 pdf 创建的文本文件中提取文本。它是 2000 个文件之一,在这个特定的文件中,一行关键字以 EU 结尾。该行的其余部分对肉眼来说是空白的,下面的行也是如此。
程序通常会去掉行尾的任何尾随空白并忽略后续的空白行。
在这种情况下,它保存了在“EU.”之间的文本文件中打印出来时看到的空格,并且在 html(类似展览)中类似。
我还打印到命令行,在这里我看到了一个 aacute 字符串。 [?]
我认为解决这个问题的明显方法是搜索并替换acute。我已经尝试使用编译语句来做到这一点,并且我已经尝试过解码传入文本的排列。
奇怪的是,当我打印“\255”时,我没有得到 aacute,而是得到一个 o 坟墓。
我似乎误解了一些基本的错误组合。关于如何开始解决这个问题的任何提示?
非常感谢。
【问题讨论】:
标签: python character-encoding removing-whitespace pdftotext