【发布时间】:2017-09-20 06:54:38
【问题描述】:
我正在尝试使用 Smalot PDF Parser 解析 pdf,但问题是文本格式不正确。它显示单词字母之间的空格。
例如:单词“Letter”写为“L e tt e r”。我该如何纠正它?
此外,Smalot PDF Parser 提供的文档还不够。我需要更多关于 PDF Parser 的详细实现的文档。如果有人有,请给我更多文件。
谢谢!
【问题讨论】:
标签: php pdf tcpdf pdf-parsing
我正在尝试使用 Smalot PDF Parser 解析 pdf,但问题是文本格式不正确。它显示单词字母之间的空格。
例如:单词“Letter”写为“L e tt e r”。我该如何纠正它?
此外,Smalot PDF Parser 提供的文档还不够。我需要更多关于 PDF Parser 的详细实现的文档。如果有人有,请给我更多文件。
谢谢!
【问题讨论】:
标签: php pdf tcpdf pdf-parsing
尝试从 PDF 中提取文本总是很困难。 这是因为 PDF 文档不是所见即所得的格式,您应该将它们更多地视为说明的容器。
提取文本意味着“重放”这些指令以找出在哪些位置绘制了哪些字母,然后应用一些启发式方法来确定诸如“这些字母彼此靠近,它们应该被连接”之类的东西。
必须是php吗?
【讨论】: