从 .PDF 文件中提取数据答案

【问题标题】：Extract Data from .PDF files从 .PDF 文件中提取数据
【发布时间】：2011-01-24 16:29:20
【问题描述】：

我需要从 .PDF 文件中提取数据并将其加载到 SQL 2008。谁能告诉我该怎么做？？

【问题讨论】：

哪些数据包含您要提取的那些PDF文件？
书籍相关信息（基本上是市场上最畅销书籍的列表）
我认为您的意思是元数据，即标题和作者等
@Edootjuh 我不认为他的意思是关于文件的元数据 - 听起来他更像是想提取文件的内容，其中包含一个数据表，对吧 S？
该文件包含书名作者价格等书籍信息......我想从 PDF 文件中提取该信息

标签： c# ssis

【解决方案1】：

这是一个如何使用 iTextSharp 从 PDF 中提取文本数据的示例。您必须对其进行一些摆弄才能使其完全按照您的意愿行事，我认为这是一个很好的大纲。您可以看到如何使用 StringBuilder 来存储文本，但您可以轻松地将其更改为使用 SQL。

    static void Main(string[] args)
    {
        PdfReader reader = new PdfReader(@"c:\test.pdf");

        StringBuilder builder = new StringBuilder();

        for (int x = 1; x <= reader.NumberOfPages; x++)
        {
            PdfDictionary page = reader.GetPageN(x);
            IRenderListener listener = new SBTextRenderer(builder);
            PdfContentStreamProcessor processor = new PdfContentStreamProcessor(listener);
            PdfDictionary pageDic = reader.GetPageN(x);
            PdfDictionary resourcesDic = pageDic.GetAsDict(PdfName.RESOURCES);
            processor.ProcessContent(ContentByteUtils.GetContentBytesForPage(reader, x), resourcesDic);
        }
    }

public class SBTextRenderer : IRenderListener
{

    private StringBuilder _builder;
    public SBTextRenderer(StringBuilder builder)
    {
        _builder = builder;
    }
    #region IRenderListener Members

    public void BeginTextBlock()
    {
    }

    public void EndTextBlock()
    {
    }

    public void RenderImage(ImageRenderInfo renderInfo)
    {
    }

    public void RenderText(TextRenderInfo renderInfo)
    {
        _builder.Append(renderInfo.GetText());
    }

    #endregion
}

【讨论】：

【解决方案2】：

想象一下，如果你问这个问题。如何将任意文本文件中的数据加载到 SQL 表中。挑战不是打开文本文件并读取它，而是自动从文件中获取有意义的数据。

因此，您可以使用iText 或pdfSharp 来读取PDF 文件，但要获得有意义的数据将是一个挑战。

【讨论】：