【发布时间】:2015-03-23 07:42:53
【问题描述】:
我想将 CSV 格式的百万记录数据集划分为 80% 用于训练和 20% 用于测试。如何使用 Java 或 Weka 库对此进行编码?
【问题讨论】:
-
你为什么不使用标准随机数生成器随机做呢?
-
正如 JS Meier 所说:逐行读取文件并决定是否要将此类行放入 TEST.csv 文件或 TRAIN.csv 文件。网络上有数百个如何处理文本文件的示例。
-
你说的我能理解。但是朋友们,如果我要更改和更新数据集,我需要手动处理每个数据集。实际上我想用这个来进行机器学习,所以需要适当的随机数据集处理,你的想法会增加处理成本。如果你能理解我在说什么,那么你再给我一个想法。