【发布时间】:2015-01-26 19:34:55
【问题描述】:
我正在开发一个广告点击推荐系统,我必须在该系统中预测用户是否会点击广告。我总共有 98 个功能,同时具有 USER 功能和 ADVERTISEMENT 功能。一些对预测非常重要的特征具有这样的字符串值。
**FEATURE**
Inakdtive Kunmden
Stammkfunden
Stammkdunden
Stammkfunden
guteg Quartialskunden
gutes Quartialskunden
guteg Quartialskunden
gutes Quartialskunden
整个数据列中有 14 个不同的字符串值。我的模型不能将字符串值作为输入,因此我必须将它们转换为分类 int 值。我不知道如何做到这一点并使这些功能有用。我正在使用 K-MEANS 聚类和随机森林算法。
【问题讨论】:
-
为什么不给每个特征值分配一个唯一的值呢?
-
@AshokaLella 正如下面的回答中所解释的那样,我的模型可能会将这些唯一整数值解释为具有数值意义的值。
标签: machine-learning scikit-learn k-means random-forest