寻找信息检索/文本挖掘应用程序或库答案

【问题标题】：Looking for an information retrival / text mining application or library寻找信息检索/文本挖掘应用程序或库
【发布时间】：2009-09-23 11:05:40
【问题描述】：

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文，通常是 HTML 格式，但有时是文本，或者我们使用 PDF/Word/RTF 附件中的信息。然后，我们应用正则表达式（有时分几个步骤）以获取以表格形式提供的信息（您可以想到航班表、酒店表等）。请注意，即使我们解析 HTML，这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎，但出于业务原因，我们正在寻求替换它。你能推荐其他引擎吗？它必须在 Linux 上运行并且可以从 Java 访问（Java API 是最好的，但 Web 服务也是很好的解决方案）。它还必须支持用于文本提取的正则表达式，而不仅仅是基于 HTML 结构。

【问题讨论】：

标签： parsing information-retrieval html-content-extraction text-mining information-extraction

【解决方案1】：

我建议您使用a look at R。它有大量的文本挖掘包：have a look at the Natural Language Processing view。特别是查看tm 包。以下是一些相关链接：

Journal of Statistical Computing 关于包的论文：http://www.jstatsoft.org/v25/i05/paper。这篇论文包括一个很好的例子来分析 R-devel 2006 年的邮件列表 (https://stat.ethz.ch/pipermail/r-devel/) 新闻组帖子。
包首页：http://cran.r-project.org/web/packages/tm/index.html
看介绍性小插曲：http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

此外，R 提供了许多用于解析 HTML 或 XML 的工具。有a look at this question for an example using the RCurl and XML packages。

编辑：你可以integrate R with Java with JRI。这是一个非常广泛使用的包，有很多例子。 You can also see these related questions.

【讨论】：

如何将它与我的 Java 应用程序集成？
已更新以解决您关于 Java 的问题。

【解决方案2】：

看看：

LingPipe - LingPipe 是一套用于人类语言语言分析的 Java 库。
Lucene - Apache Lucene 是一个高性能、全功能的文本搜索引擎库，完全用 Java 编写。

【讨论】：

LingPipe 看起来很有趣。 Lucene 看起来比我们需要的更大（更复杂）的锤子，但是谢谢

【解决方案3】：

只是想更新 - 我们的最终决定是在 groovy 中实现解析，并通过在 Java 中实现它或通过依赖 3rd 方库。

【讨论】：

【解决方案4】：

出于类似目的，我使用由 Flex 和 C++ 制作的自定义解析器。我建议你看看 java 中的解析器生成器（javaCC .jj 文件）javacc-faq Nutch 就是这样做的。 (NutchAnalysis.jj)

【讨论】：

感谢您的链接。在解析电子邮件时，我没有可以生成解析器的固定语法。所有解析器都是手工编写的。