PDF 解析器 PHP 库不工作答案

【问题标题】：PDF Parser PHP Library Not WorkingPDF 解析器 PHP 库不工作
【发布时间】：2015-07-16 17:45:48
【问题描述】：

我正在使用PDF Parser PHP 库来解析多个 PDF 中的文本。它适用于其中的大多数，但似乎只是超时并停止适用于某些 PDF。

这是我正在使用的代码（直接来自他们的演示页面）：

<?php

include 'vendor/autoload.php';

$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.php');

$text = $pdf->getText();
echo $text;

?>

当我将“document.pdf”替换为this file 的 URL 时，它可以正常工作。

但是，当我将 'document.pdf' 替换为 this file 的 URL 时，它只是超时并显示一个空白页。

任何想法为什么它适用于一个文件而不适用于另一个文件？

提前感谢您的任何建议！

【问题讨论】：

并非所有 pdf 文件中都有文本。有时 pdf 只是文本的图片......
@MarcB 话虽如此，我可以从链接到的 PDF 中复制和粘贴文本。那是不是意味着它是真实的文字而不仅仅是一张图片？
你检查过你的 PHP 错误日志吗？您也可以尝试在脚本中启用它：error_reporting(E_ALL);ini_set('display_errors', 1);空白页导致致命错误。
@Setasign 谢谢！看起来问题出在 PHP Parser 库本身。似乎没有任何异常处理，因此当通过不可读（或仅由图像组成）的 PDF 时，它会创建一个空字符串，这会导致致命错误，而不是像我一样生成错误消息预计。
@user994585 .. 你找到答案了吗？

标签： php pdf composer-php pdf-parsing

【解决方案1】：

是的，这个“幽灵”错误我也看到了，即使在 error_log 中也没有，也没有在 try catch 中绊倒，如果您在 php.ini 中增加 memory_limit，则很难诊断它消失了，这要么是处理开发人员部分的不良垃圾收集或膨胀 - 我认为后者是因为我的循环在 4 个 pdf 之后失败，但是当我将可用内存增加四倍时，它在 60 之后没有失败

【讨论】：