【问题标题】:Pandas - dropping rows with missing data not working using .isnull(), notnull(), dropna()Pandas - 使用 .isnull()、notnull()、dropna() 删除缺失数据的行不起作用
【发布时间】:2017-01-13 09:01:16
【问题描述】:

这真的很奇怪。我尝试了几种方法从 pandas 数据框中删除缺少数据的行,但它们似乎都不起作用。 这是代码(我只是取消注释使用的一种方法 - 但这是我在不同修改中使用的三种方法 - 这是最新的):

import pandas as pd
Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,'NaN',4,5],'C':[1,2,3,'NaT',5]})
print(Test)
#Test = Test.ix[Test.C.notnull()]
#Test = Test.dropna()
Test = Test[~Test[Test.columns.values].isnull()]
print "And now"
print(Test)

但在所有情况下,我得到的只是:

   A    B    C
0  1    1    1
1  2    2    2
2  3  NaN    3
3  4    4  NaT
4  5    5    5
And now
   A    B    C
0  1    1    1
1  2    2    2
2  3  NaN    3
3  4    4  NaT
4  5    5    5

我犯了什么错误吗?或者是什么问题?理想情况下,我想得到这个:

   A    B    C
0  1    1    1
1  2    2    2
4  5    5    5

【问题讨论】:

  • 你真的有字符串NaNNaT 而不是np.nannp.datetime64('NaN') - 因为.dropna() 可以在后面正常工作...
  • 字符串或 np.nan 没有任何区别:(

标签: python pandas


【解决方案1】:

您的示例 DF 具有 NaNNaT 作为字符串,其中 .dropna.notnull 和 co。不会认为是虚假的,所以根据您的示例,您可以使用...

df[~df.isin(['NaN', 'NaT']).any(axis=1)]

这给了你:

   A  B  C
0  1  1  1
1  2  2  2
4  5  5  5

如果您有一个 DF,例如(注意使用 np.nannp.datetime64('NaT') 而不是字符串:

df = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,np.datetime64('NaT'),5]})

然后运行 ​​df.dropna() 给你:

   A    B  C
0  1  1.0  1
1  2  2.0  2
4  5  5.0  5

请注意,B 列现在是 float,而不是整数,因为这是存储 NaN 值所必需的。

【讨论】:

    【解决方案2】:

    在原始数据上试试这个:

    Test.replace(["NaN", 'NaT'], np.nan, inplace = True)
    Test = Test.dropna()
    Test
    

    或修改数据并执行此操作

    import pandas as pd
    import numpy as np 
    
    Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,pd.NaT,5]})
    print(Test)
    Test = Test.dropna()
    print(Test)
    
    
    
       A    B  C
    0  1  1.0  1
    1  2  2.0  2
    4  5  5.0  5
    

    【讨论】:

    • 我使用了 Test.replace([''], np.nan, inplace = True) ,ty
    猜你喜欢
    • 2021-08-26
    • 2016-03-21
    • 2022-11-20
    • 2016-02-12
    • 1970-01-01
    • 2016-11-23
    相关资源
    最近更新 更多