【发布时间】:2017-12-30 13:45:26
【问题描述】:
我正在尝试在 sklearn 中使用 MultiLabelBinarizer。我有一个 pandas 系列,我想将该系列作为输入提供给 MultiLabelBinarizer 的 fit 函数。但是,我看到 MultiLabelBinarizer 的拟合需要iterable of iterables 形式的输入。我不确定如何将 pandas 系列转换为所需的类型。
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
data = pd.read_csv("somecsvFile")
y = pd.DataFrame(data['class'])
mlb = MultiLabelBinarizer()
y = mlb.fit(???)
我尝试将其转换为 numpy 数组,尝试使用 pandas 的 iter 函数,但似乎没有任何效果。
请给我一些建议。
谢谢
Edit1:print(data['class'].head(10)) 的输出是:
0 func
1 func
2 func
3 non func
4 func
5 func
6 non func
7 non func
8 non func
9 func
Name: status_group, dtype: object
【问题讨论】:
-
你的数据框是什么样的?这个解决方案很简单,我只需要知道你的 df 有哪些列。
-
你能发布
print(data['class'].head(10))的输出吗? -
@cᴏʟᴅsᴘᴇᴇᴅ - 编辑问题以添加头部输出。
标签: python pandas scikit-learn