【问题标题】:How to extract/identify word or text from the given text using stanford-nlp or OpenNLP via java如何通过 java 使用 stanford-nlp 或 OpenNLP 从给定文本中提取/识别单词或文本
【发布时间】:2018-03-02 14:04:13
【问题描述】:

我即将从社交媒体、新闻网站、博客中发布的与政治、战争、药物等特定领域相关的 RAW 测试中提取一些信息。所以我已经开始使用一些开源库例如 stanford-nlp、apache OpenNLP 以及名为 lexalytics 的商业许可工具。

根据我的项目,我们正在分析公开发布的文本并生成一些结果并根据一些参数进行挖掘以识别这些帖子与什么类别相关。

但我需要使用 stanford-nlp 库从给定文本中提取主题。主题是指与教育、政治等相关的文本或句子。我已经能够以这样的方式提取包含 LOCATION、DATE、PERSON、MONEY 的文本/句子等实体。

lexalytics 也提供相同的主题提取功能,它是许可工具。

感谢您的帮助。

谢谢。

【问题讨论】:

  • 如果可以显示文本/段落的摘要并且还可以提取主题,那就更好了。
  • 你能给个样本文件吗?
  • 或一对....
  • @Daniel 您可以从新闻网站或社交媒体获取任何原始文本。我有示例输入,但无法附加到此处。由于无法附加附件。
  • 您可以将其包含在您的消息中。

标签: java nlp stanford-nlp opennlp


【解决方案1】:

主题从文本文档提取可以使用生成建模完成,其中基于所分发的单词是基于主题的先验,该主题是可以部署LDA等算法的主题

打开calais api http://www.opencalais.com/opencalais-api/为您提供单个/多主题,其中文档的相关置信度值是基于的。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-11-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-06-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多