【问题标题】:Extracting Additional Metadata from a PDF using iTextSharp使用 iTextSharp 从 PDF 中提取附加元数据
【发布时间】:2011-02-08 00:44:31
【问题描述】:

我已经看到使用 iTextSharp 提取基本元数据(即作者、标题),它通常看起来像这样:

var pdfReader = new PdfReader(pdfData);
var author = pdfReader.Info["author"]

但是,就我而言,我想要一些更奇特的东西,即文档可能包含的额外“高级”元数据。

请原谅油漆亮点,但这是来自 Adob​​e Acrobat 的屏幕截图,显示了相关数据:

在这种情况下,这些数据似乎无法通过 Info 字典获得。使用不同的库(TallComponents 的 PDFKit),这些数据被公开,但我想知道是否有任何方法可以使用 iItext 获取它

由于许可限制,我目前正在使用 iText 4.1.6,但如果增加了所需的功能,我不会反对购买 5.0.6 的商业许可。

【问题讨论】:

    标签: c# metadata itextsharp pdfkit


    【解决方案1】:

    不确定它是否能满足您的需求,但要获得XMP metadata,请尝试以下操作:

    PdfReader reader = new PdfReader(YOUR_PDF);
    byte[] b = reader.Metadata;
    if (b != null) {
      string xml = new UTF8Encoding().GetString(b);
    }
    

    注意你得到了一个 XML 字符串。

    IIRC 代码将适用于 4.1.6。

    【讨论】:

    • 抽签太慢了。你打败了我。上面的代码也应该适用于 5.x。
    • 你们核心 iText 开发人员比我忙;)
    猜你喜欢
    • 2011-08-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-06-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多