【发布时间】:2011-06-07 21:56:35
【问题描述】:
我想将扩展名为 doc/docx/xls/xlsx/pdf 的文件转换为 HTML 文件。有没有什么方法可以在 Solaris 上使用 Perl 以简单的方式做到这一点?
【问题讨论】:
我想将扩展名为 doc/docx/xls/xlsx/pdf 的文件转换为 HTML 文件。有没有什么方法可以在 Solaris 上使用 Perl 以简单的方式做到这一点?
【问题讨论】:
我用来处理 Microsoft Office 文件的 perl 库非常缺乏,我还没有找到能够很好地处理 Office 2007 和 Office 2010 扩展的 perl 库(如果你知道一个!)
如果您有一台运行 Microsoft Office 的 PC,您可以使用 win32ole 从 unix 控制 Office 应用。我以前用 Ruby 做过: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html
这是一个使用 win32 OLE 的 perl 模块: http://metacpan.org/pod/Win32::OLE
我个人不推荐 OLE 方法,因为它有很多令人头疼的问题(例如,您必须让 Office 在 PC 上运行才能使 unix 脚本正常工作,Windows 防火墙几乎会在您的 PC 更新时随机阻止 unix 脚本有补丁)。
我还没有尝试过,但是这里有一个 java 程序,它将使用 OpenOffice 和 GhostScript 为您进行批量转换: http://www.codeproject.com/KB/java/PDFCM.aspx
【讨论】:
作为旁注,有一个名为 xpdf 的实用程序 converts pdf files to text。这已经在 Solaris 上编译,尽管您必须从源代码编译(您可以从命令行调用该实用程序)。我用过,很好用。
更重要的是,它有一个修改版,converts pdf to html。这个我还没有测试过,但可能值得一试。
【讨论】:
对于 excel 到 html -> 你可以使用 exceltohtml
需要以下模块:
use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ;
【讨论】: