【发布时间】:2017-10-09 23:30:54
【问题描述】:
我正在研究一个机器学习线性回归问题,我的训练文件大约为 8GB。
虽然我的Tp配置高,但不支持。所以我可以将训练文件划分为 10/20个文件,用这些文件一个一个训练模型?
这种方法是否有效,还是我必须一次性使用全部数据训练模型?
【问题讨论】:
-
您能提供更多信息吗?你试过什么?为什么不能运行 8gb 的文件(对于大多数机器学习来说相对较小)?你用什么来进行机器学习?这些信息将帮助我们提供更好的答案,谢谢!
-
我们在说什么样的数据,你能给个样本吗?你的机器的规格是什么,8Gb 不是一个非常小的数据集,但它甚至不是很大!虽然分块运行它不是什么大问题,但首先我们需要信息!
-
嗨史蒂夫,我正在尝试使用线性回归预测要支付的金额的值。您能否建议如何进行。请在下面找到代码:
-
将熊猫导入为 pd df = pd.read_csv(data_path,index_col=0)
-
嗨,Ubdus,您能帮我解决一下分块运行代码的过程吗?