【发布时间】:2017-06-25 07:16:09
【问题描述】:
我有一个数据,该数据代表来自操作员的 cmets 对工业设备上执行的各种活动的影响。 cmets 可以反映例行维护/更换活动,也可以表示发生了一些损坏并且必须进行修复以纠正损坏。 我有一组 200,000 个句子需要分为两个桶 - 修复/计划维护(或未确定)。这些没有标签,因此寻找基于无监督学习的解决方案。
部分样本数据如下:
“电机线圈损坏。更换电机” “看到皮带裂缝。安装了新皮带” “偶尔启动问题。更换开关”
“更换皮带” “上油和清洁完成”。 “制定了预防性维护计划”
前三个句子必须标记为修复,而后三个句子必须标记为计划维护。
什么是解决这个问题的好方法。虽然我对机器学习有一定的了解,但我对基于 NLP 的机器学习还是很陌生。
我看到很多与此相关的论文https://pdfs.semanticscholar.org/a408/d3b5b37caefb93629273fa3d0c192668d63c.pdf https://arxiv.org/abs/1611.07897
但想了解此类问题是否有任何标准方法
【问题讨论】:
标签: machine-learning