【问题标题】:CPAN Perl Module for parsing a PDF file用于解析 PDF 文件的 CPAN Perl 模块 【发布时间】:2023-03-21 03:35:01 【问题描述】: 我想解析一个 pdf 文件并从中提取一些内容。任何人都可以列出任何特定的 perl 模块吗? 谢谢。 【问题讨论】: 标签: perl cpan 【解决方案1】: 你可以试试看 CAM::PDF 或 PDF::API3 如果您尝试解析文档中的文本,那么它可能不实用。来自 CAM::PDF::Text 此模块尝试从 PDF 页面中提取连续文本。这个 不是一个健壮的过程,因为 PDF 文本以图形方式布局 任意顺序。这个模块使用一些启发式来尝试猜测 什么文字紧挨着其他文字,但很容易被愚弄, 比如,下标、非水平文本、字体变化、表单域 等等 【讨论】: