【发布时间】:2020-05-18 13:12:40
【问题描述】:
我有一个 10,000 个数据集。这些数据来自 UCI 机器学习资料库人口普查收入。
不管怎样,重点是我想把字符串数据改成数据。我想运行一个朴素贝叶斯分类,但我需要使用数字。
基本上:
State-gov = 1
Self-emp-not-inc = 2
Private = 3
数据框:
age workclass fnlwgt ... hours-per-week native-country income
0 39 State-gov 77516 ... 40 United-States <=50K
1 50 Self-emp-not-inc 83311 ... 13 United-States <=50K
2 38 Private 215646 ... 40 United-States <=50K
3 53 Private 234721 ... 40 United-States <=50K
4 28 Private 338409 ... 40 Cuba <=50K
注意:这些只是 10,000 个数据中的 5 个。
【问题讨论】:
-
您可以使用
sklearn包查看Label Encoding 或One Hot Encoding。
标签: python python-3.x dataframe machine-learning