【问题标题】:Looking for an information retrival / text mining application or library寻找信息检索/文本挖掘应用程序或库
【发布时间】:2009-09-23 11:05:40
【问题描述】:

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎,但出于业务原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。

【问题讨论】:

    标签: parsing information-retrieval html-content-extraction text-mining information-extraction


    【解决方案1】:

    我建议您使用a look at R。它有大量的文本挖掘包:have a look at the Natural Language Processing view。特别是查看tm 包。以下是一些相关链接:

    此外,R 提供了许多用于解析 HTML 或 XML 的工具。有a look at this question for an example using the RCurl and XML packages

    编辑:你可以integrate R with Java with JRI。这是一个非常广泛使用的包,有很多例子。 You can also see these related questions.

    【讨论】:

    • 如何将它与我的 Java 应用程序集成?
    • 已更新以解决您关于 Java 的问题。
    【解决方案2】:

    看看:

    • LingPipe - LingPipe 是一套用于人类语言语言分析的 Java 库。
    • Lucene - Apache Lucene 是一个高性能、全功能的文本搜索引擎库,完全用 Java 编写。

    【讨论】:

    • LingPipe 看起来很有趣。 Lucene 看起来比我们需要的更大(更复杂)的锤子,但是谢谢
    【解决方案3】:

    只是想更新 - 我们的最终决定是在 groovy 中实现解析,并通过在 Java 中实现它或通过依赖 3rd 方库。

    【讨论】:

      【解决方案4】:

      出于类似目的,我使用由 Flex 和 C++ 制作的自定义解析器。我建议你看看 java 中的解析器生成器(javaCC .jj 文件)javacc-faq Nutch 就是这样做的。 (NutchAnalysis.jj)

      【讨论】:

      • 感谢您的链接。在解析电子邮件时,我没有可以生成解析器的固定语法。所有解析器都是手工编写的。
      猜你喜欢
      • 2019-05-05
      • 1970-01-01
      • 2011-08-27
      • 1970-01-01
      • 2012-01-06
      • 2011-02-07
      • 2010-12-21
      • 2011-03-25
      • 2013-06-19
      相关资源
      最近更新 更多