使用 iTextSharp 从 PDF 中提取附加元数据答案

【问题标题】：Extracting Additional Metadata from a PDF using iTextSharp使用 iTextSharp 从 PDF 中提取附加元数据
【发布时间】：2011-02-08 00:44:31
【问题描述】：

我已经看到使用 iTextSharp 提取基本元数据（即作者、标题），它通常看起来像这样：

var pdfReader = new PdfReader(pdfData);
var author = pdfReader.Info["author"]

但是，就我而言，我想要一些更奇特的东西，即文档可能包含的额外“高级”元数据。

请原谅油漆亮点，但这是来自 Adobe Acrobat 的屏幕截图，显示了相关数据：

在这种情况下，这些数据似乎无法通过 Info 字典获得。使用不同的库（TallComponents 的 PDFKit），这些数据被公开，但我想知道是否有任何方法可以使用 iItext 获取它

由于许可限制，我目前正在使用 iText 4.1.6，但如果增加了所需的功能，我不会反对购买 5.0.6 的商业许可。

【问题讨论】：

【解决方案1】：

不确定它是否能满足您的需求，但要获得XMP metadata，请尝试以下操作：

PdfReader reader = new PdfReader(YOUR_PDF);
byte[] b = reader.Metadata;
if (b != null) {
  string xml = new UTF8Encoding().GetString(b);
}

注意你得到了一个 XML 字符串。

IIRC 代码将适用于 4.1.6。

【讨论】：