【发布时间】:2024-01-20 12:09:02
【问题描述】:
我想从这个数据集制作回归模型(前两个是因变量,最后一个是因变量)。我使用dataset=pd.read_csv('data.csv') 导入数据集
现在我以前也做过模型,但从来没有用日期格式数据集作为自变量,所以我们应该如何处理这些日期格式来制作回归模型。
还有我们应该如何处理给定数据集中的 0 值数据。
我的数据集如下:.csv 格式:
Month/Day, Sales, Revenue
01/01 , 0 , 0
01/02 , 100000, 0
01/03 , 400000, 0
01/06 ,300000, 0
01/07 ,950000, 1000000
01/08 ,10000, 15000
01/10 ,909000, 1000000
01/30 ,12200, 12000
02/01 ,950000, 1000000
02/09 ,10000, 15000
02/13 ,909000, 1000000
02/15 ,12200, 12000
我不知道如何处理这种格式日期和 0 值
【问题讨论】:
-
请参阅*.com/help/mcve 了解如何发布好的 SO 问题。你都尝试了些什么?输出是什么?你想要的输出是什么?也就是说,您可以使用
pandas.read_csv()读取 CSV 文件,并使用pandas.DataFrame.corr()查找相关性。我认为这不是 ML 或 DL 问题。 -
先生,我已经使用 pd.read_csv() 导入了文件。但我也知道如何进行特征缩放、模型选择、Imputer,但我从未使用日期作为自变量制作模型。那么如何转换日期以便我们可以无错误地制作模型
-
你试过
pandas.to_datetime吗? pandas.pydata.org/pandas-docs/stable/generated/… -
先生,实际上我是数据科学的新手,所以我整天都在谷歌搜索,我只发现如何处理类型的日期:dd-mm-YYYY 不像 mm/dd.so 你能先生帮忙?
标签: pandas machine-learning scikit-learn deep-learning data-science