【发布时间】:2015-03-12 03:52:07
【问题描述】:
我有一个 csv,其中包含一段时间内每晚的租金单价。如果单位是租用的,价格会列在日期下方。如果没有租用,价格显示为 N/A。数据结构如下:
bedrooms day1 day2 day3... day(n)
2 75 N/A 70 50
2 60 60 60 60
4 100 110 N/A N/A
3 75 80 80 N/A
...等等。
我正在将这个 csv 读入 pandas。我希望能够使用 scikit-learn 中的 LinearRegression 来预测给定卧室数量的价格。你这样做:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
# X is numpy array or sparse matrix of shape [n_samples,n_features]
# y is numpy array of shape [n_samples, n_targets]
model.fit(X, y)
如何使用 pandas 以正确格式获取数据?
编辑澄清:
正确的格式是将每个价格与卧室相关联,如下所示:
bedrooms price
2 75
2 70
2 50
2 60
2 60
2 60
2 60
4 100
4 110
3 80
3 80
【问题讨论】:
-
DataFrame中的每一列都是Series和Series对象是 1) 在很大程度上与arrayAPI 兼容(因此它们应该独立工作)和 2) 可以使用numpy.array(df['column_name'])转换为数组 -
好的。然后我有 n 个定价数据数组(仍然需要清理)。然后呢?
-
清理了吗?这意味着什么?提供有效的简单测试用例示例。
-
我没有任何测试用例,但如果在拟合数据时包含值“N/A”,则会出现错误。
-
数据帧有一个
dropna方法
标签: python pandas scikit-learn