【发布时间】:2025-12-18 03:15:02
【问题描述】:
我有一个二进制分类文本数据,其中有 10 个文本特征。
我使用诸如 Bag of words、TFIDF 等各种技术将它们转换为数字。
我使用 hstack() 在处理完所有这些特征后再次将它们堆叠在一起。
将它们转换为数值特征后,每个特征现在都有大量列,因此转换后,我的数据集大约有 3000 列。
我的问题是,当我将此数据集放入决策树分类器 (sklearn) 时,分类器如何识别属于特定特征的列?
例如,3000 列中的前 51 列属于 US_states Bag of words。
现在,DT 将如何识别它?
PS:处理前的数据在pandas Dataframe中。
处理后是一个堆叠的numpy数组被输入到分类器中。
【问题讨论】:
-
欢迎来到 SO;你问的不清楚 - 你是什么意思“认识”?
-
简短回答:不会。 DT 不关心某个功能是否称为“US_states”或其他名称。
-
DT 必须知道一个特征中的类别,然后在计算各种特征的熵并找出信息增益后决定它需要多少个子节点。这就是为什么我问“认识”
-
这不是关于编程,而是关于决策树和 tfidf 算法,因此属于 datascience.stackexchange.com 或 stats.stackexchange.com。
标签: python machine-learning scikit-learn decision-tree text-processing