【问题标题】:Why are my pandas DataFrame columns Dataframes too, not Series?为什么我的 pandas DataFrame 列也是 Dataframes,而不是 Series?
【发布时间】:2019-06-02 19:11:37
【问题描述】:

最后更新 最后更新 2

我从这里读到: get list from pandas dataframe column

Pandas DataFrame 列在拉出时是 Pandas Series

但在我的情况下这不是真的:

第一部分(构建 DataFrame 读取 json 抓取) 因为它包含业务信息,所以我无法显示完整的代码,但基本上它读取一行数据(存储在 Series 中)并附加在 DataFrame 的末尾。

dfToWrite = pandas.DataFrame(columns=[lsHeader]) # Empty with column headers
for row in jsAdtoolJSON['rows']:
    lsRow = []
    for col in row['row']:
        lsRow.append((col['primary'])['value'])
    dfRow = pandas.Series(lsRow, index = dfToWrite.columns)
dfToWrite = dfToWrite.append(dfRow, ignore_index = True)

下一部分(检查类型):(请忽略函数的功能)

def CalcMA(df: pandas.DataFrame, target: str, period: int, maname: str):
    print(type(df[target]))

最后调用函数:(“Raw_Impressions”是列标题)

CalcMA(dfToWrite, "Raw_Impressions", 5, "ImpMA5")

Python 控制台显示:

类'pandas.core.frame.DataFrame'

附加问题:如果不是系列,如何从数据框列中获取列表(在这种情况下我可以使用tolist())?

更新 1 从这里: Bokeh: AttributeError: 'DataFrame' object has no attribute 'tolist'

我发现我需要使用.value.tolist(),但它仍然无法解释为什么当我拉出一列时我得到的是另一个数据框,而不是一个系列。

更新 2 发现df有MultiIndex,很惊讶:

MultiIndex(levels=[['COST_/CPM', 'CTR', 'ECPM/_ROI', 'Goal_Ratio', 'Hour_of_the_Day', 'IMP./Joins', 'Raw_Clicks_/ _Unique_Clicks'、'Raw_Impressions'、'Unique_Goal_/_UniqueGoal_Forecasted_Value']]、 标签=[[4, 7, 5, 6, 1, 8, 3, 0, 2]])

打印出 df / 写入 .csv 时,我看不到 labels,它只是一个普通的 DataFrame。不知道我从哪里得到的标签。

【问题讨论】:

    标签: python pandas dataframe


    【解决方案1】:

    我认为你有重复的列名,所以如果要选择Series 获取DataFrame

    df = pd.DataFrame([[1,2],[4,5], [7,8]], index=list('aab')).T
    print (df)
       a  a  b
    0  1  4  7
    1  2  5  8
    
    print (df['a'])
       a  a
    0  1  4
    1  2  5
    
    print (type(df['a']))
    <class 'pandas.core.frame.DataFrame'>
    
    print (df['b'])
    0    7
    1    8
    Name: b, dtype: int64
    
    print (type(df['b']))
    <class 'pandas.core.series.Series'>
    

    编辑:

    这是另一个问题,一级MultiIndex,解决方案是将一级重新分配给get_level_values的列:

    mux = pd.MultiIndex([['COST_/CPM', 'CTR', 'ECPM/_ROI', 'Goal_Ratio', 'Hour_of_the_Day', 
                          'IMP./Joins',  'Raw_Clicks_/_Unique_Clicks', 'Raw_Impressions',
                          'Unique_Goal_/_UniqueGoal_Forecasted_Value']], 
    labels=[[4, 7, 5, 6, 1, 8, 3, 0, 2]])
    
    df = pd.DataFrame([range(9)], columns=mux)
    print (type(df['CTR']))
    <class 'pandas.core.frame.DataFrame'>
    
    df.columns = df.columns.get_level_values(0)
    print (type(df['CTR']))
    <class 'pandas.core.series.Series'>
    

    【讨论】:

    • 谢谢@jezrael,刚刚打印出列,发现实际上我有一个MultiIndex,它会导致问题吗? (levels 没有重复)这很奇怪,因为当我 print(df) 它没有显示任何标签。我会用标签更新问题。
    • @NicholasHumphrey - 是的,如果 MultiIndex 则意味着第一级重复:)
    • @NicholasHumphrey - 为您的情况添加了解决方案。
    • 谢谢!我会在早上看看,但我认为它会工作。现在下一步就是追查MultiIndex的来源...
    • @NicholasHumphrey - 是的,这种错误非常令人不快,尤其是因为在打印 DataFrame 时没有看到。
    【解决方案2】:

    pandas.core.frame.DataFrame 的每个实例基本上都是一个数组,因此如果您要获取此类型,则可以通过调用 df.columns 来获取每一列(如果该列是一维的,则类型为 pandas.core.series.Series)。

    df.columns 将为您提供一个可迭代对象,您可以循环访问该对象以获取每一行的值。

    您可能还想查看pandas.read_json 或其他类似的包,以便将json 直接放入可能更易于管理的pandas 对象中

    【讨论】:

    • 感谢@NiallJG 我设法使用df(target).values.tolist() 从列中获取列表。但它仍然让我感到困惑为什么df(target),其中target 只是一个字符串,不代表Series
    • @jezrael 的回答表明可能有重复的列,尝试运行 print(df.columns) 并查看列标题的名称,可能有两个相同的字符串
    • 谢谢,我发现有multiindex,我会检查以前的代码找到它的来源。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-05-22
    • 1970-01-01
    • 2014-11-20
    • 2023-01-23
    • 2023-01-08
    • 1970-01-01
    • 2021-11-20
    相关资源
    最近更新 更多