【发布时间】:2017-10-21 17:43:43
【问题描述】:
我是数据科学的新手,目前我正在进一步探索。我有超过 600,000 列的数据集,我目前正在清理并检查它是否存在不一致或异常值。我遇到了一个我不知道如何解决的问题。我有一些解决方案,但我不确定如何使用 pandas。
我已将某些列的数据类型从 object 转换为 int。我没有收到任何错误,并检查了它是否在 int 中。我检查了一列的值以检查事实数据。这涉及年龄,我收到一个错误,说我的列有一个字符串。所以我用这个方法检查了它:
print('if there is string in numeric column',np.any([isinstance(val, str) for val in homicide_df['Perpetrator Age']])
现在,我想打印所有索引及其值,并且只在具有字符串数据类型的列上键入。
目前我想出了这个工作正常的解决方案:
def check_type(homicide_df):
for age in homicide_df['Perpetrator Age']:
if type(age) is str:
print(age, type(age))
check_type(homicide_df)
以下是我的一些问题:
- 有熊猫方法可以做同样的事情吗?
- 我应该如何将这些元素转换为 int?
- 为什么列中的某些元素没有转换为 int?
如果有任何帮助,我将不胜感激。非常感谢
【问题讨论】:
-
print(age, type(age))的输出是什么?NaNs ?non numerics ? -
@jezrael all which print
标签: python pandas data-science data-cleaning data-munging