【问题标题】:Programmatic Reading of PDFs in C# [closed]在 C# 中以编程方式读取 PDF [关闭]
【发布时间】:2011-01-25 13:53:39
【问题描述】:

我看到很多关于使用 C# 生成 PDF 文件的问题和答案。
我有一个相关但不同的任务。

我已经创建了大量 PDF 文件,我想使用正则表达式 (RegEx) 验证内容的某些部分。我想用 C# 打开 PDF,并能够以接近线性的方式读出文本。

如果页眉、页脚、任何侧边栏等被跳过或乱读,也没关系。我只是在搜索尽可能多的主体文本。

您能否向我介绍一些工具、库、API 等,使我能够以编程方式阅读 PDF 文件中的文本?

【问题讨论】:

  • 感谢所有精彩的回答。我将很快尝试这些软件包,并希望在那之后不久接受“最佳答案”。
  • 标记为不具建设性 - 但它确实帮助我了解了可用的内容!如果它不适合问答形式 - 应该在哪里发布此类问题?
  • 我建议将其迁移到软件推荐。这正是该网站的情况。这是一个很好的问题,对很多人都非常有帮助,但它并不完全符合 SO 的格式。
  • 当这个问题被问到,4 年前,我认为软件推荐甚至不存在。

标签: c# pdf


【解决方案1】:

有一个用于 .NET 的库,称为 PDF Clown

codeProject article 也有一篇不错的文章 详细介绍了其他一些图书馆和阅读方法 PDF 文档。

【讨论】:

    【解决方案2】:

    【讨论】:

    • @Joe:如果你做的不仅仅是发布链接,你会得到更多的支持。
    • 问题是关于阅读pdf内容,而不是生成。
    【解决方案3】:

    我已经成功地为此使用了两个不同的库。一个是PDF Box(Apache 项目的一部分),还有一个来自Snowtide Informatics

    两者都是 Java 库,但您可以将 .NET 与 IKVM 结合使用。

    【讨论】:

    • PDFxStream (née PDFTextStream) 也作为 .NET 程序集分发(由 Nick 提到的 IKVM 提供,尽管分发版预编译为 .DLL,避免了运行时解释->使用 IKVM 时的编译步骤按原样使用 Java 库)。
    【解决方案4】:

    我使用PDFSharp 的时间不晚于上一次自动化,与其他人相比,我发现它非常易于使用。 PDFSharp的主页。

    【讨论】:

      【解决方案5】:

      【讨论】:

        猜你喜欢
        • 2010-10-08
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-08-29
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多