使用 NLP 或机器学习从句子中提取关键字答案

【问题标题】：Using NLP or machine learning to extract keywords off a sentence使用 NLP 或机器学习从句子中提取关键字
【发布时间】：2018-03-16 05:38:26
【问题描述】：

我是 ML/NLP 领域的新手，所以我的问题是哪种技术最适合实现以下目标：

我们有一个简短的句子 - “去哪里吃晚饭？”或“你最喜欢的酒吧是什么？”或“你最喜欢的廉价酒吧是什么？”

是否有一种技术可以让我通过以下数据集对其进行训练：

这样下次我们有一个关于未知活动的类似问题时，比如说“你最喜欢的贵的 [whatever]”，它就能够提取“expensive”和 [whatever]？

我们的目标是，如果我们可以使用数百个（或数千个）所问问题的变体和预期的相关输出数据对其进行训练，以便它可以使用日常语言。

如果我们有一个包含诸如酒吧、餐厅、游泳池等预期术语的字典，我知道即使没有 NLP/ML 也能做到这一点，但我们也希望它能够处理未知术语。

我已经看到使用 Rake 和 Scikit-learn 对“事物”进行分类的示例，但我不确定如何将文本输入到这些示例中，并且所有这些示例都有预定义的训练输出。

我还尝试过 Google 的 NLP API、Amazon Lex 和 Wit，看看它们在提取实体方面的表现如何，但至少可以说结果令人失望。

阅读摘要技术，我的印象是它不适用于小的单句文本，所以我没有深入研究。

【问题讨论】：

【解决方案1】：

正如@polm23 提到的简单内容，您可以使用 POS 标记进行提取。您提到的LUIS、Dialog flow 等服务使用了所谓的自然语言理解。他们使用意图和实体（您可以找到here 的示例详细说明）。如果您担心您的数据会在线或有时您必须离线，您总是选择RASA。

你可以用 RASA 做的事情：

你可以找到教程here。

I am having 疼痛 in my 腿。

例如，我已经用各种句子训练 RASA 来识别身体部位和症状（我只限制了 2 个实体，您可以添加更多），然后当出现未知句子（如上一个）时，它会正确识别“疼痛”为“症状”，“腿”为“身体部位”。

希望这能回答你的问题！

【讨论】：