如何使用 Lucene.Net 索引 PDF 文件？答案

【问题标题】：How might I index PDF files using Lucene.Net?如何使用 Lucene.Net 索引 PDF 文件？
【发布时间】：2010-11-19 12:43:10
【问题描述】：

我正在寻找一些示例代码来演示如何使用 Lucene.Net 和 C# 来索引 PDF 文档。谷歌出现了一些，但没有一个对我有帮助。

【问题讨论】：

我是一个书呆子，非常感谢。
你看，我更喜欢极客这个词... :)
与这个问题 stackoverflow.com/questions/83152/reading-pdf-documents-in-net 或者更准确地说是这个答案有些重叠：stackoverflow.com/questions/83152/reading-pdf-documents-in-net/…

标签： c# lucene.net implementation

【解决方案1】：

据我了解，Lucene 仅限于创建索引和搜索该索引。由应用程序来处理打开文件并为索引提取它们的内容。因此，如果您要搜索 PDF 文档，您将需要使用 iTextSharp 之类的东西来打开文件，提取内容，然后将其传递给 Lucene 进行索引。在Dimecasts.net 网站上有一些使用 Lucene 的良好入门示例。

【讨论】：

这是一个可能的解决方案……需要实际证明它确实有效。

【解决方案2】：

StringBuilder stringBuilder = new StringBuilder();

PdfReader pdfReader = new PdfReader(byte[] of the .pdf);

for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}

（使用 iTextSharp）

其余的没有那么简洁的说明。

我网站上的产品演示中有代码展示了如何使用lucene.net代码，但是在这里发布有点长。

这是与我的产品相关的代码：https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs 用户名/密码：公开

【讨论】：