使用大数据框的行值创建迷你数据框 -Pandas答案

【问题标题】：Create mini Data Frames using large Data Frames's row values -Pandas使用大数据框的行值创建迷你数据框 -Pandas
【发布时间】：2018-12-14 07:23:54
【问题描述】：

我有一个从 Excel 文件中读取的 pandas 数据框。由于 Excel 文件中的第 1 行有重复值，例如 245, 245, 245，我将它们读为 pd.read_excel(file, 'myfile', header = None)，所以我可以防止 pandas 创建标题 245, 245.1, 245.2 等。

这是我的df 的样子：

    0             1      2            3                 4
0   245           245   245           867               867
1   Reddit        NaN   NaN           Facebook          NaN
2   ColumnNeeded  NaN   ColumnValue   ColumnNeeded      ColumnValue
3   RedditInsight NaN   C             FacbookInsights   A
4   RedditText    NaN   H             FacbookText       L

我需要这样的输出 (needed_df)，

    ID      Company     ColumnNeeded    ColumnValue
0   245     Reddit      RedditInsight   C
1   245     Reddit      RedditText      H
2   867     Facebook    FacbookInsight  A
3   867     Facebook    FacbookText     L

不确定，如何在pandas 中解决这个问题。我试图从df 中获取第 1 行中的所有唯一值。

id_s = []
for i in df.iloc[0]:
    id_s.append(i)
print(set(id_s))

unique_ids 列表

unique_id = list(set(id_s))
print(unique_id )
>> [867,245]

然后我想遍历df's第1行并在unique_id列表中找到所有匹配值，然后将它们拆分为单独的迷你数据帧。

我无法完成这项工作。我的想法是创建迷你数据框，迷你 df1，即：

    0             1     2            
0   245           245   245           
1   Reddit        NaN   NaN           
2   ColumnNeeded  NaN   ColumnValue   
3   RedditInsight NaN   C             
4   RedditText    NaN   H

迷你df2：

    0                 1
0   867               867
1   Facebook          NaN
2   ColumnNeeded      ColumnValue
3   FacbookInsights   A
4   FacbookText       L

我正在考虑对这些迷你数据帧进行操作（可能使用一个函数，因此我可以应用于所有迷你 dfs），最后将它们附加到一个大数据帧。或者有没有其他想法或方法来获取我的输出数据框？

【问题讨论】：

@user9431057 嘿，如果我的回答有效，请告诉我

标签： python python-3.x pandas dataframe

【解决方案1】：

您的 DataFrame 如下所示：

import pandas as pd
import numpy as np

df = pd.DataFrame([[245,245,245,867,867], ['Reddit', np.nan, np.nan,'Facebook',np.nan], ['ColumnNeeded',np.nan, 'ColumnValue', 'ColumnNeeded','ColumnValue'],
                   ['RedditInsight', np.nan, 'C', 'FacebookInsights', 'A'], ['RedditText', np.nan, 'H', 'FacbookText', 'L']])

您的 DataFrame 如下所示：

               0      1            2                 3            4
0            245  245.0          245               867          867
1         Reddit    NaN          NaN          Facebook          NaN
2   ColumnNeeded    NaN  ColumnValue      ColumnNeeded  ColumnValue
3  RedditInsight    NaN            C  FacebookInsights            A
4     RedditText    NaN            H       FacbookText            L

现在是代码。

new_header = df.iloc[0] #Grab the first row for the header
df = df[1:] #Take the data less the header row
df.columns = new_header #Set the header row as the df header


#Drop the column with all NaNs
df = df.dropna(axis=1, how='all')
df = df.T #Transpose

#Must find a way to do this part programtically
#Manually changing the index currently

df.index = [245.0, 245.1, 867.0, 867.1] 

iPrev = ""

l1 = []
for i in df.index:

    indexNow = str(i)[:3]
    #print(indexNow)
    if iPrev == indexNow:

        #print(df.at[i, 3], df.at[i, 4])
        l2.append(df.at[i, 3])

        l3.append(df.at[i, 4])

        l1.append(l2)
        l1.append(l3)
        l2 = []
        l3 = []
    else:

        iPrev = indexNow

        l2 = [i, df.at[i, 1], df.at[i, 3]]
        l3 = [i, df.at[i, 1], df.at[i, 4]]
        #print(l2)

result = pd.DataFrame(l1, columns = ['ID','Company','ColumnNeeded','ColumnValue'])

print(result)

给予

      ID   Company      ColumnNeeded ColumnValue
0  245.0    Reddit     RedditInsight           C
1  245.0    Reddit        RedditText           H
2  867.0  Facebook  FacebookInsights           A
3  867.0  Facebook       FacbookText           L

【讨论】：

df.index = [245.0, 245.1, 867.0, 867.1] 有一个缺失值245.2。它给了我一个不同的答案:(
@user9431057 提供的代码应该可以工作，您的 DataFrame 就像您在问题中发布的 Here is my df looks like: 一样！看来您改变了阅读方式！我的回答将适用于您的 DataFrame 最初的外观。
@user9431057 你能不能也运行第一段代码！然后print(df) 告诉我显示的DataFrame 是否相同？
我得到了 6 行结果，ColumnValues C,H 在 ID 中，Facebook 的看起来不错！
@user9431057 你上传你的excel怎么样，我看一下？发送 Google 云端硬盘链接！