【发布时间】:2011-01-25 13:53:39
【问题描述】:
我看到很多关于使用 C# 生成 PDF 文件的问题和答案。
我有一个相关但不同的任务。
我已经创建了大量 PDF 文件,我想使用正则表达式 (RegEx) 验证内容的某些部分。我想用 C# 打开 PDF,并能够以接近线性的方式读出文本。
如果页眉、页脚、任何侧边栏等被跳过或乱读,也没关系。我只是在搜索尽可能多的主体文本。
您能否向我介绍一些工具、库、API 等,使我能够以编程方式阅读 PDF 文件中的文本?
【问题讨论】:
-
感谢所有精彩的回答。我将很快尝试这些软件包,并希望在那之后不久接受“最佳答案”。
-
标记为不具建设性 - 但它确实帮助我了解了可用的内容!如果它不适合问答形式 - 应该在哪里发布此类问题?
-
我建议将其迁移到软件推荐。这正是该网站的情况。这是一个很好的问题,对很多人都非常有帮助,但它并不完全符合 SO 的格式。
-
当这个问题被问到,4 年前,我认为软件推荐甚至不存在。