【发布时间】:2011-10-12 23:11:56
【问题描述】:
我拥有的是一堆 PDF(几百个)。它们没有适当的结构,也没有特定的字段。他们所拥有的只是大量的文字。
我想要做什么:
索引 PDF 并根据索引搜索一些关键字。 我有兴趣查找该特定关键字是否在 PDF 文档中,如果是,我想要找到该关键字的行。 如果我在包含该术语的 PDF 文档中搜索“Google”,我希望看到“Google 是一个很棒的搜索引擎”,这是 PDF 中的一行。
我决定怎么做:
使用 SOLR 或 Whoosh,但 SOLR 看起来很适合内置 PDF 支持。我更喜欢用 Python 编写代码,而 Sunburst 是我喜欢的 SOLR 的包装器。 SOLR 的示例/示例项目有一些基于价格比较的模式文件。现在我不确定是否可以使用 SOLR 来回答我的问题。
你们有什么建议?非常感谢任何意见。
【问题讨论】:
-
您是否建议按每个 PDF 包含的每个单词或短语对其进行索引?如果没有,您将如何生成关键字列表?
-
我实际上有一个关键字列表。我想为 PDF 中的所有内容编制索引,然后使用我的关键字对该索引进行搜索。