【问题标题】:PDF Parser PHP Library Not WorkingPDF 解析器 PHP 库不工作
【发布时间】:2015-07-16 17:45:48
【问题描述】:

我正在使用PDF Parser PHP 库来解析多个 PDF 中的文本。它适用于其中的大多数,但似乎只是超时并停止适用于某些 PDF。

这是我正在使用的代码(直接来自他们的演示页面):

<?php

include 'vendor/autoload.php';

$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.php');

$text = $pdf->getText();
echo $text;

?>

当我将“document.pdf”替换为this file 的 URL 时,它可以正常工作。

但是,当我将 'document.pdf' 替换为 this file 的 URL 时,它只是超时并显示一个空白页。

任何想法为什么它适用于一个文件而不适用于另一个文件?

提前感谢您的任何建议!

【问题讨论】:

  • 并非所有 pdf 文件中都有文本。有时 pdf 只是文本的图片......
  • @MarcB 话虽如此,我可以从链接到的 PDF 中复制和粘贴文本。那是不是意味着它是真实的文字而不仅仅是一张图片?
  • 你检查过你的 PHP 错误日志吗?您也可以尝试在脚本中启用它:error_reporting(E_ALL);ini_set('display_errors', 1);空白页导致致命错误。
  • @Setasign 谢谢!看起来问题出在 PHP Parser 库本身。似乎没有任何异常处理,因此当通过不可读(或仅由图像组成)的 PDF 时,它会创建一个空字符串,这会导致致命错误,而不是像我一样生成错误消息预计。
  • @user994585 .. 你找到答案了吗?

标签: php pdf composer-php pdf-parsing


【解决方案1】:

是的,这个“幽灵”错误我也看到了,即使在 error_log 中也没有,也没有在 try catch 中绊倒,如果您在 php.ini 中增加 memory_limit,则很难诊断它消失了,这要么是处理开发人员部分的不良垃圾收集或膨胀 - 我认为后者是因为我的循环在 4 个 pdf 之后失败,但是当我将可用内存增加四倍时,它在 60 之后没有失败

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-09
    • 2017-04-26
    相关资源
    最近更新 更多