【发布时间】:2012-12-30 20:40:02
【问题描述】:
假设我们有一个包含可点击内容页面的 pdf 文件。 (我说的是章节和子章节) 如何在 C# 中解析某个文件,以及应用程序如何实现它正在阅读的 pdf 是否有章节/内容等?
这是一个没有可点击目录的 pdf 链接 https://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXc 我似乎没有找到带有可点击目录的 pdf,但我在这里找到了如何操作的指南 http://everythingyoumightneed.blogspot.com/2013/01/how-to-create-pdf-with-clickable-links.html
所以我的问题是:应用程序如何区分哪个是哪个以及如何解析具有可点击链接的应用程序?
【问题讨论】:
-
iTextSharp 是您可能要考虑用于 PDF 分析的众多 PDF 库之一。但是您认为没有章节或内容的 PDF 是什么,您的标准是什么?
-
@mkl 我所知道的是两种 pdf 样式。一个是可点击的内容章节,另一个是简单的文本(可能包括一页内容但不可点击)我想要一种方法来定义是否有可点击的内容,以及如何解析这些内容
-
也许您应该为这两种情况提供样本文件。不过,作为第一个预感,我认为您的意思要么是大纲,要么是注释。两者都可以使用 iTextSharp 或任何其他重要的 PDF 库轻松检查。
-
在哪里上传文件以在此处共享?
-
堆栈溢出仅提供图像上传,因此您必须使用不同的文件共享服务。请不要选择需要下载者注册的。
标签: c# c#-4.0 pdf pdf-parsing