【发布时间】:2017-05-26 22:40:13
【问题描述】:
我是机器学习的初学者。我很困惑如何将数据集的不同特征组合成一个特征。
例如,我在 Python Pandas 数据框中有一个数据集,其特征如下:
movie unknown action adventure animation fantasy horror romance sci-fi
Toy Story 0 1 1 0 1 0 0 1
Golden Eye 0 1 0 0 0 0 1 0
Four Rooms 1 0 0 0 0 0 0 0
Get Shorty 0 0 0 1 1 0 1 0
Copy Cat 0 0 1 0 0 1 0 0
我想将这 n 个特征转换为一个名为“movie_genre”的特征。一种解决方案是为每种类型分配一个整数值(未知 = 0,动作 = 1,冒险 = 2 ..等)并创建一个如下所示的数据框:
movie genre
Toy Story 1,2,4,7
Golden Eye 1,6
Four Rooms 0
Get Shorty 3,4,6
Copy Cat 2,5
但在这种情况下,列中的条目将不再是整数/浮点值。这会影响我未来在机器学习过程中的步骤,比如拟合模型和评估算法吗?
【问题讨论】:
-
结合这些标签的目的是什么?
-
最后我正在尝试设计一个电影推荐系统。我有很多功能。目标是减少特征数量