【发布时间】:2018-03-16 05:38:26
【问题描述】:
我是 ML/NLP 领域的新手,所以我的问题是哪种技术最适合实现以下目标:
我们有一个简短的句子 - “去哪里吃晚饭?”或“你最喜欢的酒吧是什么?”或“你最喜欢的廉价酒吧是什么?”
是否有一种技术可以让我通过以下数据集对其进行训练:
- “去哪里吃晚饭?” -> 晚餐
- “你最喜欢的酒吧是什么?” -> 酒吧
- “你最喜欢哪家便宜的餐馆?” -> 便宜的餐厅
这样下次我们有一个关于未知活动的类似问题时,比如说“你最喜欢的贵的 [whatever]”,它就能够提取“expensive”和 [whatever]?
我们的目标是,如果我们可以使用数百个(或数千个)所问问题的变体和预期的相关输出数据对其进行训练,以便它可以使用日常语言。
如果我们有一个包含诸如酒吧、餐厅、游泳池等预期术语的字典,我知道即使没有 NLP/ML 也能做到这一点,但我们也希望它能够处理未知术语。
我已经看到使用 Rake 和 Scikit-learn 对“事物”进行分类的示例,但我不确定如何将文本输入到这些示例中,并且所有这些示例都有预定义的训练输出。
我还尝试过 Google 的 NLP API、Amazon Lex 和 Wit,看看它们在提取实体方面的表现如何,但至少可以说结果令人失望。
阅读摘要技术,我的印象是它不适用于小的单句文本,所以我没有深入研究。
【问题讨论】:
-
如果您的输入都和您的示例一样短,那么仅提取所有形容词和名词似乎就足够了。有什么不适合你的原因吗?
标签: machine-learning nlp deep-learning artificial-intelligence summarization