【发布时间】:2015-07-16 17:45:48
【问题描述】:
我正在使用PDF Parser PHP 库来解析多个 PDF 中的文本。它适用于其中的大多数,但似乎只是超时并停止适用于某些 PDF。
这是我正在使用的代码(直接来自他们的演示页面):
<?php
include 'vendor/autoload.php';
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.php');
$text = $pdf->getText();
echo $text;
?>
当我将“document.pdf”替换为this file 的 URL 时,它可以正常工作。
但是,当我将 'document.pdf' 替换为 this file 的 URL 时,它只是超时并显示一个空白页。
任何想法为什么它适用于一个文件而不适用于另一个文件?
提前感谢您的任何建议!
【问题讨论】:
-
并非所有 pdf 文件中都有文本。有时 pdf 只是文本的图片......
-
@MarcB 话虽如此,我可以从链接到的 PDF 中复制和粘贴文本。那是不是意味着它是真实的文字而不仅仅是一张图片?
-
你检查过你的 PHP 错误日志吗?您也可以尝试在脚本中启用它:
error_reporting(E_ALL);ini_set('display_errors', 1);空白页导致致命错误。 -
@Setasign 谢谢!看起来问题出在 PHP Parser 库本身。似乎没有任何异常处理,因此当通过不可读(或仅由图像组成)的 PDF 时,它会创建一个空字符串,这会导致致命错误,而不是像我一样生成错误消息预计。
-
@user994585 .. 你找到答案了吗?
标签: php pdf composer-php pdf-parsing