【发布时间】:2018-06-14 21:53:44
【问题描述】:
【问题讨论】:
-
因为我不喜欢用 python 处理 PDF,所以我无法给出答案;不过,对 PDF 有所了解,让我暗示一些困难:您的示例文件有两个文本列。但是,这不一定反映在内部 PDF 内容中。根据文档本身,很可能有解决该任务的方法;但是,要提供匹配的解决方案,最好提供有问题的 PDF。否则,人们可能会提出适用于类似文档但不适用于您的文档的解决方案。或者不提供解决方案,因为他们无法测试它是否匹配。
-
@Midhun 打开赏金可能是一个好主意,但即便如此,OP 的合作也需要,并且 Alfiya 没有在 Ankit 的回答下回复 usr2564301 的评论是否使用该评论中的提示答案是否解决问题。
-
你找到解决方案了吗?
-
@user2999110 嘿,我能理解,正则表达式是唯一的解决方案。但是对于标题格式不可预测的 pdf,我找不到任何解决方案。在这种情况下,正则表达式将不起作用
标签: python-2.7 pdf document text-extraction pdf-extraction