【发布时间】:2019-03-15 05:21:35
【问题描述】:
我正在尝试订购数据并为每个唯一 ID 创建一个数组。 我使用的数据是整数/浮点数列或空单元格 (NaN)。
我将在下面粘贴一个简化版本的代码:
import pandas as pd
import numpy as np
dtypes = {'starttime': 'str', 'endtime': 'str', 'hr': 'float', 'sofa_24hours': 'float'}
parse_dates = [2,3]
fields = [0,1,11,12,13,14,15,34,35,36]
reader = pd.read_csv(filename, header=0, names=headers, dtype=dtypes, parse_dates=parse_dates, usecols=fields)
print("Started loading data...")
df = pd.DataFrame(data=reader)
ids = list(df.iloc[:, 0])
id_list = np.unique(ids)
x = df.iloc[:, 2:6].astype(float)
y = df.iloc[:, 7].astype(float)
t = df.iloc[:, 0].astype(float)
x_data = []
y_data = []
t_data = []
for i in range(0,len(id_list)):
idx = np.where(ids==id_list[i])[0]
t_data.append(t.values[idx[0]:idx[-1]+1])
x_data.append(x.values[idx[0]:idx[-1]+1,:])
y_data.append(y.values[idx[0]:idx[-1]+1])
if np.mod(i,1000)==0:
print("Data association... {}%".format(np.round(100*i/len(id_list))))
print("Finished loading data!")
现在,当我检查类型时:
In [1]: y.dtype
Out[1]: dtype('float64')
这似乎是对的。然后我使用以下方法将数据分批:
batch_size=64
W=5
idx_pt = np.random.randint(W,len(x_data),batch_size)
idx_t = [np.random.randint(0,len(x_data[i])-W-1) for i in idx_pt]
batch_x = np.array([x_data[idx_pt[i]][idx_t[i]:idx_t[i]+W,:] for i in range(0,len(idx_pt))])
batch_y = np.array([y_data[idx_pt[i]] for i in range(0,len(idx_pt))])
当我检查 dtype 时:
In [2]: batch_x.dtype
Out[2]: dtype('float64')
In [3]: batch_y.dtype
Out[3]: dtype('O')
为什么将 batch_y 视为对象?
【问题讨论】:
标签: python arrays numpy object types