【问题标题】:Convert PDF documents (.pdf) to EXCEL document (.XLXS) using PHP使用 PHP 将 PDF 文档 (.pdf) 转换为 EXCEL 文档 (.XLXS)
【发布时间】:2020-06-22 05:29:23
【问题描述】:

我有一组 pdf 文档,我需要将文件转换为 excel。当我尝试转换那些我无法转换的内容时,它说明失败了。因此,我尝试将所有数据都转换为 HTML 标记,但它正在将整个文档更改为 P 标记。我附上了 HTML 标签的示例响应。请建议我一些在 php 中将 pdf 转换为 excel 的方法。

我用过this

<p class="ft00" style="margin: 0; padding: 0; font-size: 11px; font-family: Times; color: #000000; position: absolute; top: 863px; left: 683px; white-space: nowrap;"><b>10</b></p>
<p class="ft01" style="margin: 0; padding: 0; font-size: 9px; font-family: Times; color: #000000; -moz-transform: matrix(         0,         -1,  0.9999875,          0, 0, 0); -webkit-transform: matrix(         0,         -1,  0.9999875,          0, 0, 0); -o-transform: matrix(         0,         -1,  0.9999875,          0, 0, 0); -ms-transform: matrix(         0,         -1,  0.9999875,          0, 0, 0); -moz-transform-origin: left 75%; -webkit-transform-origin: left 75%; -o-transform-origin: left 75%; -ms-transform-origin: left 75%; position: absolute; top: 207px; left: 63px; white-space: nowrap;"><b>THE</b></p>

Library: PdfToHtml


$pdf = new \TonchikTm\PdfToHtml\Pdf($pdf_file , [
    'pdftohtml_path' => $bindir,
    'pdfinfo_path' => $binexe,
    'outputDir' => getcwd().'/excelfile/'.uniqid() // output dir 
]);

$newpage = '';
foreach ($pdf->getHtml()->getAllPages() as $page) {
    $newpage .= $page . '<br/>';
  
}

【问题讨论】:

    标签: php html web


    【解决方案1】:

    我从未有过将 PDF 转换为 Excel 的用例,但是您尝试了哪些其他库?

    PDFTables 看起来很有前景:

    https://pdftables.com/pdf-to-excel-api#php

    https://github.com/pdftables/php-pdftables-api

    如果需要使用您正在使用的 PDF 到 HTML 库来完成,我不知道有一种简单/干净的方法来做到这一点。

    根据问题,每个页面返回一个包含所有段落元素的字符串?

    如果返回一个元素数组,您应该能够遍历每个段落并使用 strip_tags() 来获取各个值。

    如果是字符串,请考虑使用Simple HTML Dom 从字符串格式中解析 HTML 元素,以便您更轻松地使用 HTML。

    $html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');
    

    【讨论】:

    • 我检查了 PDF 表格,但是他们要我 40 多美元来转换 1000 页,这太贵了
    • 然后我使用了 Tabula 。那也没有发生转换
    • 如果不付费,可能很难找到一个高质量的工具,因为 PDF 转换并不总是直截了当的。您是否尝试过使用 Simple HTML Dom 解析 HTML? Tabula 会发生什么?您是否遇到错误或根本不起作用?使用您尝试过的内容以及当前遇到的错误创建一个新问题可能是有意义的。
    猜你喜欢
    • 2018-12-31
    • 2014-08-02
    • 1970-01-01
    • 2019-11-12
    • 2019-10-18
    • 2015-03-21
    • 1970-01-01
    • 2018-01-07
    • 2017-01-13
    相关资源
    最近更新 更多