【发布时间】:2017-05-10 10:08:21
【问题描述】:
我正在寻找一种方法来编写一个在另一个脚本中自动加载脚本的一部分的函数。
这是我的问题:我创建了一个脚本,对数据集执行预处理,然后应用 xgboost。
我需要将此脚本中实现的预处理(例如:创建新变量、用平均值替换 NA - 保持初始数据集的平均值)自动应用到新数据集。这对用户应该是完全透明的(没有复制粘贴,只有具有新集合的函数和模型的 Rdata 作为参数输入)。
我的想法是将带有预处理的脚本部分“存储”为 Rdata 中的对象,然后当我在新脚本中加载此对象时,预处理将应用于新数据集。
有人知道怎么做吗?
【问题讨论】:
-
把你的预处理步骤放在一个函数中?
-
这就是我的想法。但是,有时我必须加载数据集,应用所有内容,等等,有时我必须检索一些值然后应用(例如,如果我想用平均值替换 NA,我必须在初始时检索平均值数据集,不计算要替换的新数据集中的平均值。这意味着我将必须创建几个函数,以及一个调用 Rdata 中创建的函数的函数,我不确定如何处理它。
标签: r automation feature-engineering