【发布时间】:2018-01-22 03:36:50
【问题描述】:
使用 h2o.H2OFrame() 函数将 Pandas 数据帧转换为 H2O 帧时,会发生错误。
正在 H2o 框架中创建更多行。当我对此进行调查时,似乎新行与其他行重复。根据数据大小,添加的重复行数会有所不同,但通常在 2-10 左右。
代码:
train_h2o = h2o.H2OFrame(python_obj=train_df_complete)
print(train_df_complete.shape[0])
print(train_h2o.nrow)
输出:
3871998
3872000
正如您在此处看到的,已添加了 2 行。仔细研究后,现在每个用户有 2 行,其中 2 个用户。 IE。有 2 行被复制。
这似乎是一个重大错误,有没有人遇到过这个问题,有没有办法解决它?
谢谢
【问题讨论】:
-
此问题可能由特定数据集触发。您能否提供有关数据的更多详细信息?是否有任何具有多行值的字符串列?我们知道 NA 值存在问题 (0xdata.atlassian.net/browse/PUBDEV-4723),但您的问题似乎有所不同。
-
Pandas 数据框具有以下结构:
RangeIndex:3871998 个条目,0 到 3871997 数据列(共 34 列)dtypes:float64(27) , int64(4), object(3) 内存使用量:1004.4+ MB。没有多行字符串,重复行每次都出现在同一个索引处。 -
谢谢,我无法在合成数据集上重现该问题。你能在 jira.h2o.ai 中提交错误吗?如果 jira 问题也包括 H2O 日志,这将有所帮助。
-
我和this dataset 一样(需要登录Kaggle)。 892,816 行,57 列,浮点数和整数的混合。没有字符串或 NaN。 3 行在位置 90989、197125 和 409416 处重复。H2O 3.14.0.7,win7。只需
h2o.H2OFrame(pd.read_csv('test.csv', index_col='id'))。 -
我遇到了完全相同的问题...我使用的是 H2O 版本
3.18.0.2
标签: python python-3.x pandas h2o