【发布时间】:2016-09-04 02:11:05
【问题描述】:
我正在使用写入命令将 xgBoost 的重要性矩阵打印到日志中(写入适用于文件连接并将其定向到 stderr 好)。这是我正在使用的命令:
importance_matrix <- xgb.importance(names, model=bst)
write("The top 30 variables are:",stderr())
write(paste0("Feature",'\t','\t','Gain','\t','Cover','\t','Frequency'),stderr())
write(t(as.matrix(importance_matrix[1:30,])),sep="\t",ncolumns = length(names(importance_matrix)),stderr())
输出格式:
Feature Gain Cover Frequency
pctTillDate 0.560359696 0.1314074664 0.024278250
colr_per 0.183149483 0.0962457545 0.049618673
date 0.050528297 0.1143752021 0.066395735
GREG_D 0.025648433 0.0381476142 0.018070143
LNGTD_I 0.020346020 0.0485235001 0.101322109
LATTD_I 0.019241497 0.0421892270 0.093867103
这使它看起来有点笨拙(在日志中比在 SO 中出现的笨拙得多)。因此,为了使它更好看,我想更改 t(as.matrix(importance_matrix[1:30,])),sep="\t" 的最后一行,这样第一个 sep 将是 2 个制表符('\t'、'\t'),其余为单个制表符('\t');而不是当前的均匀间距。简单但搜索没有给出任何想法。有什么建议吗?
【问题讨论】:
-
制表符分隔的文件由于单元格中内容的长度而看起来像锯齿状输出,但请放心,列之间有等量的制表符。请注意:文本文件只是用于数据迁移或存档的转储输出,因此不打算展示。
-
@Parfait 我同意它不是为了演示,但在我的情况下,我正在做 400 多个映射器,只有 hadoop 流,后来想将所有 YARN 日志合并到一个日志中。然后我想保留重要参数的可读性。否则 400 多条日志本身很难通过,它们的笨拙只会增加分析器的痛苦。