如何处理 big5 人格特质任务 [关闭]答案

【问题标题】：How to handle a big5 personality traits task [closed]如何处理 big5 人格特质任务 [关闭]
【发布时间】：2020-04-16 19:56:33
【问题描述】：

我有一个数据集，其中包含 N 条带有 5 大个性特征（extroverted、stable、agreeable、conscientious 和 open）注释的推文。每个类别由一个实数表示。

我想预测文档中每个人格特质的分数，但我不知道我应该如何处理这个任务。

一种可能性是将其拆分为 5 个不同的回归任务，但随后分类器可能会遗漏 5 个类别之间的相关性（例如，某人 extroverted 编写的文档有更高的概率作者也是 open） .

另一种是应用多标签方法，但我认为这是不可能的，因为当有标签而不是真实值（分类而不是回归）时会应用这种方法，不是吗？

【问题讨论】：

你是想预测性格特征还是获得一些与之相关的分数？
获取分数。
我的朋友，这是一个统计问题，而不是编程问题。我会说它属于像 Cross Validated 这样的地方。
你说得对，我会关闭它。谢谢

标签： python regression classification multilabel-classification

【解决方案1】：

Scikit-learn 有，在这里阅读：https://scikit-learn.org/0.22/modules/multiclass.html

"多标签分类为每个样本分配一组目标标签。这可以被认为是预测不互斥的数据点的属性，例如与文档相关的主题. 一篇文章可能同时涉及任何宗教、政治、金融或教育，也可能不涉及这些。”

Support multilabel:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neural_network.MLPClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier
sklearn.linear_model.RidgeClassifierCV

或者你可能需要这个：

“多输出回归为每个样本分配一组目标值。这可以被认为是预测每个数据点的几个属性，例如某个位置的风向和大小。”

Support multiclass-multioutput:
sklearn.tree.DecisionTreeClassifier
sklearn.tree.ExtraTreeClassifier
sklearn.ensemble.ExtraTreesClassifier
sklearn.neighbors.KNeighborsClassifier
sklearn.neighbors.RadiusNeighborsClassifier
sklearn.ensemble.RandomForestClassifier

【讨论】：

但是我没有标签！，我对每个特质都有一个真正的价值，这可能吗？
可能是我做的不对。我在答案中添加了“多输出回归”部分
谢谢，我在纪录片中看到的是：This is a simple strategy for extending regressors that do not natively support multi-target regression。那么，支持多目标回归的有哪些呢？
@Ghanem 我认为您在谈论 MultiOutputRegressor，对吗？ “可以使用 MultiOutputRegressor 将多输出回归支持添加到任何回归器。”但据我了解，例如 RandomForestClassifier/RandomForestRegressor 可以按原样对多输出数据进行训练。