【发布时间】:2020-05-17 06:21:52
【问题描述】:
我已将插值数据存储到一个包含 181 行的 csv 文件中,其中每一行的第一个元素由标签表示,其余的是时间序列数据,例如这种格式:
第一行:0、980、888、720,987,543
第二行:0, 880, 999, 820,990,888, 980, 898, 780,987
第三行:1、945、856、767,745,883
第 4 行:2、780、899、920,890,988、780、998、870,787
第 5 行:2、800、900、822,999,880、988、899
其余 181 行以此类推,其中标签为 0、1、2、3、4、5、6。另外,请注意我的每一行都有不同的长度。 我想创建特征,(通过应用让我们说,mean()是特征之一)只使用时间序列,即“980、888、720,987,543”,不包括“标签y”,即0,我想要为每一行执行此操作并创建一个包含 33 个特征和标签的数据框,例如:
dim(labl_feat_df)[1] # 181 rows
dim(labl_feat_df)[2] # 34 columns (33 features and the label)
所以 labl_feat_df 看起来像:
label mean(TS) SD(TS) ........ feat33
1 0
2 0
.
.
.
181 6
其中 mean(TS) 和 sd(TS) 是第一个和第二个特征。
所以我的问题是:如何读取不同长度的文件?如果应该逐行进行,那么创建这 33 个特征并将它们添加到数据框中的可能性和效率如何?
【问题讨论】:
标签: r machine-learning time-series dataset