【问题标题】:Error in Text format while parsing PDF using Smalot PDF parser使用 Smalot PDF 解析器解析 PDF 时出现文本格式错误
【发布时间】:2017-09-20 06:54:38
【问题描述】:

我正在尝试使用 Smalot PDF Parser 解析 pdf,但问题是文本格式不正确。它显示单词字母之间的空格。
例如:单词“Letter”写为“L e tt e r”。我该如何纠正它?
此外,Smalot PDF Parser 提供的文档还不够。我需要更多关于 PDF Parser 的详细实现的文档。如果有人有,请给我更多文件。 谢谢!

【问题讨论】:

    标签: php pdf tcpdf pdf-parsing


    【解决方案1】:

    尝试从 PDF 中提取文本总是很困难。 这是因为 PDF 文档不是所见即所得的格式,您应该将它们更多地视为说明的容器。

    提取文本意味着“重放”这些指令以找出在哪些位置绘制了哪些字母,然后应用一些启发式方法来确定诸如“这些字母彼此靠近,它们应该被连接”之类的东西。

    必须是php吗?

    【讨论】:

    • 是的,先生。它应该在 php.ini 中。我不知道如何应用启发式。请发给我代码。
    • StackOverflow 不是外包公司。你不能只要求代码而不向我们展示你自己做了什么。
    猜你喜欢
    • 2014-07-13
    • 1970-01-01
    • 2018-07-19
    • 2012-09-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-08
    • 2010-09-10
    相关资源
    最近更新 更多