【发布时间】:2018-01-18 08:34:59
【问题描述】:
情景
我有 2 个 CSV 文件 (1) u.Data 和 (2) prediction_matrix,我需要将它们读取并写入一个单一数据帧,一旦完成,它将基于 int / float 进行聚类处理它将包含的值
问题
我已经完成了将 2 个 CSV 合并到 1 个名为 AllData.csv 的数据帧中,但是现在保存值的列类型具有不同的类型 (object),如如下所示(带有警告)
sys:1: DtypeWarning: Columns (0,1,2) have mixed types. Specify dtype option on import or set low_memory=False.
UDATA -------------
uid int64
iid int64
rat int64
dtype: object
PRED_MATRIX -------
uid int64
iid int64
rat float64
dtype: object
AllDATA -----------
uid object
iid object
rat object
dtype: object
附:我知道如何使用low_memory=False,这只会抑制警告。
可能的原因
with open('AllData.csv', 'w') as handle:
udata_df.to_csv(handle, index=False)
pred_matrix.to_csv(handle, index=False)
因为,我需要将 2 个 CSV 写入单个 DF handle 对象,这可能会将所有值转换为它的类型。任何东西都可以保留应用相同逻辑的数据类型吗?
到目前为止所采取的无用参考:
【问题讨论】:
-
这是我想
add AD_Matrix = AllData.drop_duplicates(subset=['uid','iid'])的东西,所以我想这会删除标题。这是 o/psys:1: DtypeWarning: Columns (0,1,2) have mixed types. Specify dtype option on import or set low_memory=False. UDATA ------------- uid int64 iid int64 rat int64 dtype: object PRED_MATRIX ------- uid int64 iid int64 rat float64 dtype: object AllDATA ----------- 196 object 242 object 3 object dtype: object@jezrael -
不,
AllData.drop_duplicates(subset=['uid','iid'])不删除标题,仅重复。
标签: python pandas csv types sklearn-pandas