【发布时间】:2019-01-30 09:17:32
【问题描述】:
一些隐藏的 Unicode 字符集出现在需要删除的字符串中。
我有一个非常大的文本,它是使用 PyPDF2 包从 PDF 文件中提取的。现在这个提取的文本有很多问题(比如PDF中的表格中的文本在提取时会随机出现),并且很多特殊字符也嵌入其中(如~~~~~~~,}}} }}}}} 等)虽然这些文本在作为 PDF 文件查看时不存在。我尝试使用this、this 和this 链接中描述的解决方案删除这些字符,但问题仍然出现
myText = "There is a set of hidden character here => <= but it will get printed in console"
print(myText)
现在我想要一个没有那些隐藏字符的干净文本。
【问题讨论】:
-
为了获得 => 和 =
-
这样做的结果是什么:
print(repr(s.encode('ascii', 'ignore')))? (来自其中一个链接) -
这是结果
b'There is a set of hidden character here =>\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f\x7f <= but i will get printed in console' -
这是唯一一个你有问题的隐藏角色吗?
-
现在,是的。如果这个问题得到解决,也许我可以找到其他特殊字符的方法。
标签: python python-3.x unicode python-unicode