【发布时间】:2019-03-07 10:31:56
【问题描述】:
【问题讨论】:
【问题讨论】:
请注意,默认情况下,原始 PDF 文件中的每个视觉分组的文本块都会转换为结果文档中的文本框。这实现了输出文档与原始 PDF 文件的最大相似性。输出文档看起来不错,但它完全由文本框组成,这可能会使在 Microsoft Word 中进一步编辑文档变得相当困难。
请使用Flow识别模式获取无边界框输出:
// Load source PDF file
Document doc = new Document( dataDir + "input.pdf");
// Instantiate Doc SaveOptions instance
DocSaveOptions saveOptions = new DocSaveOptions();
// Set output file format as DOCX
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// Set recognition mode
saveOptions.setMode(RecognitionMode.Flow);
// Save resultant DOCX file
doc.save( dataDir + "output.docx", saveOptions);
在此模式下,引擎执行分组和多级分析,以恢复原始文档作者的意图并产生最大可编辑的文档。缺点是输出文档可能看起来与原始 PDF 文件不同。
我们希望这会有所帮助。如果您需要任何进一步的帮助,请随时联系。
PS:我与 Aspose 合作,担任开发人员宣传员。
【讨论】: