【发布时间】:2012-05-05 06:13:36
【问题描述】:
我将(相同的)数据保存为 GIF 图像文件和 PDF 文件,我想将其解析为 HTML 或 XML。数据实际上是我大学食堂的菜单。这意味着每周都会解析一个新版本的文件! 通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表格。 我已经阅读了一些关于 stackoverflow 的帖子,并且我也开始尝试将表格数据解析为 HTML/XML:
- PDFBox || iText (Java)
- Google 文档导入
- PDF2HTML || PDF2表格
GIF
- Tesseract-OCR
我从使用 PDFBox 解析 PDF 文件中得到了最好的结果,但仍然(随着菜单每周更改),它还不够可靠。我收到的 HTML 有时包含更多,有时更少的“段落”(<p>),因此我无法足够精确地解析数据。
这就是为什么我想知道是否有其他方法可以做到这一点?
【问题讨论】:
-
PDF->文本很少直截了当。 PDF 是一种文档布局语言,而不是一种标记语言。根据pdf生成器当天的心情,它每次可以生成完全不同的文档。
-
我明白了。唯一困扰我的是一些 pdf 到 xls 的解析器工作得很好。那么为什么没有任何开源项目也能够可靠地解析 pdf 表呢?
-
如果您可以联系编写此菜单的人,请查看其生成的格式。他们可能会以更容易从中提取文本的格式创建它。
-
这也是我在考虑的一个选项,但它有两个问题:1. 大学喜欢隐藏他们的信息,只有在他们想要的时候才可以访问;2. 我也在想找到一种适用于更多自助餐厅的方法,而不是我的意思;)我将继续我的“试错”方法!
-
示例 pdf 位于 goo.gl/xc8r3。 @njzk2:我为什么要忘记 OCR?
标签: pdf pdfbox extraction