【问题标题】:Text extraction from a pdf / a从 pdf / a 中提取文本
【发布时间】:2019-12-13 08:38:00
【问题描述】:

你知道有什么库可以让我提取 A 类 pdf 的文本以在 PHP 中阅读吗?

我尝试了很多图书馆,但没有一个能够阅读内容 我需要帮助

【问题讨论】:

  • 请细化您的要求:PDF文本输出可以是任意方向,甚至可以改变方向。也许将您的要求与您在显示此类文件、标记并将所有文本复制粘贴到某个窗口时得到的结果进行比较。

标签: php type-conversion pdfa


【解决方案1】:

您可以尝试PDF Parser,这是一个在github 中提供的开源库

会是这样的。但是请查看文档以获取更多详细信息

<?php

// lot of lines

// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.pdf');

$text = $pdf->getText();
echo $text;

?>

【讨论】:

  • 上面的代码只是一个例子,你应该阅读文档(我提到的第一个链接)来编写完全符合你需求的代码。但是,我还测试了您提到的 PDF,它使用文档页面上的第一个示例工作。打印所有可以阅读的文本,直到“causing maggiore rifrazione.”这一行,这是文档的最后一部分。
猜你喜欢
  • 1970-01-01
  • 2015-08-17
  • 1970-01-01
  • 2023-04-06
  • 1970-01-01
  • 2011-04-30
  • 1970-01-01
  • 2013-02-05
相关资源
最近更新 更多