【发布时间】:2020-03-01 07:45:49
【问题描述】:
大家好,我已经尝试搜索此主题,但未能找到好的答案,所以我希望有人能帮助我。 假设我正在尝试使用 scikit-learn 和 python 创建一个 ML 模型。我有一个这样的数据集:
| Features | Topic | Sub-Topic |
|----------|---------|------------------|
| ... | Science | Space |
| ... | Science | Engineering |
| ... | History | American History |
| ... | History | European History |
我的功能列表仅由文本组成,例如某篇文章中的一小段。现在我希望能够使用 ML 来预测该文本的主题和子主题。
我知道我需要使用某种 NLP 来分析文本,例如 spaCy。我感到困惑的部分是有两个输出变量:主题和子主题。我读过 scikit-learn 有一个叫做 MultiOutputClassifier 的东西,但是还有一个叫做 MultiClass Classification 的东西,所以我只是有点困惑要走什么路线。
有人可以为我指出正确的方向吗?使用什么回归器或如何实现这一点?
【问题讨论】:
标签: python machine-learning scikit-learn nlp