【发布时间】:2016-09-22 18:45:51
【问题描述】:
对于我的小型 POC,我正在寻找任何可以使用自然语言处理的开源库,最好是在 java 中。基本上我计划有一个应用程序,它以人类语言从用户那里获取输入,并通过过滤提供的文档或网络返回结果。任何线索将不胜感激。
【问题讨论】:
对于我的小型 POC,我正在寻找任何可以使用自然语言处理的开源库,最好是在 java 中。基本上我计划有一个应用程序,它以人类语言从用户那里获取输入,并通过过滤提供的文档或网络返回结果。任何线索将不胜感激。
【问题讨论】:
“来自用户的人类语言输入”是文本格式吗?如果为真,您正在寻找文本数据检索器。 Apache Lucene 非常有用,因为它拥有大量文档、示例、内置功能、非常易于使用和出色的社区协作。
从人类自然语言继承而来的许多挑战,例如词干提取和停用词,都具有非常好且易于使用的 API。例如:
TokenStream tokenStream = new StandardTokenizer(
Version.LUCENE_36, new StringReader(input));
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, stopWordsSet);
tokenStream = new PorterStemFilter(tokenStream);
祝你好运!
【讨论】: