【问题标题】:Analyze format of pdf-file and extract text and images [closed]分析pdf文件的格式并提取文本和图像[关闭]
【发布时间】:2011-05-04 05:54:54
【问题描述】:

我需要从这个既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。

我该怎么做呢?是否已经有商业服务/ api 可以做到这一点?程序/服务的输入只是文件。

输入例如:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件将是普通的 pdf 文件,而不是安全文件)

【问题讨论】:

    标签: pdf text-extraction


    【解决方案1】:

    Docotic.Pdf library 可以为您从 PDF 文件中提取图像和文本。

    以下是您的任务的几个示例:

    提取的图像可以保存为 JPEG 和 TIFF。您可以从每一页或整个文档中提取文本。您可以提取文本块及其坐标。

    免责声明:我为图书馆供应商 Bit Miracle 工作。

    【讨论】:

      【解决方案2】:

      试试这个:

      http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

      同样的组件还具有图像提取功能。

      你可以试试!!

      【讨论】:

        【解决方案3】:

        如果您能负担得起商业选项,Amyuni PDF Creator 将允许您枚举 pdf 文件中的所有组件(文本、图像等),您将能够将它们提取为独立对象,并且您可以创建新的 PDF 文件和他们一起。

        【讨论】:

        • 免责声明:我在 Amyuni Technologies 工作。
        • 这很有趣 - 我们可以将 pdf 分解为其组成元素 - 例如:一个页面可能有两篇文章和两个相关图像(通常,它们会有更多)
        • 你确定我可以用你的工具提取吗?
        • 是的,您可以,但您可能需要事先知道要从中提取的矩形区域,这取决于您拥有的特定文件。例如,该工具将无法告诉您图像是否与文本的一部分相关。您可以使用评估版并使用您的文件进行试用,您还可以在评估期间获得支持。您可以使用 .net 版本(用于 C#、vb.net 等)或 ActiveX 版本(C++、Delphi 等)
        【解决方案4】:

        您可以使用Aspose.Pdf.Kitextract text and images separately from a PDF file。 API 非常简单。您还可以在 Aspose 网站上找到示例、教程和支持。

        注意:我在 Aspose 担任开发人员宣传员。

        【讨论】:

          猜你喜欢
          • 2010-12-23
          • 2014-02-04
          • 1970-01-01
          • 2016-03-16
          • 1970-01-01
          • 2010-09-30
          • 2012-04-11
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多