【问题标题】:Pandas Pivot_table error when executing -Type error执行 -Type 错误时出现 Pandas Pivot_table 错误
【发布时间】:2013-08-23 03:14:53
【问题描述】:

我是 Pandas 的新手,正在测试和学习。从 Excel 导入的数据框有以下问题: - 数据框包含以下变量:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 48062 entries, 0 to 48061
Data columns (total 11 columns):
Konskund_MEAB         48062  non-null values
Strukturordn          48062  non-null values
Antal_forsandelser    48062  non-null values
ProdID                48062  non-null values
Sort                  48062  non-null values
Storstad              48062  non-null values
Year                  48062  non-null values
snittvikt             48062  non-null values
Totsum                48062  non-null values
Prodsum               48062  non-null values
snittpris             48062  non-null values
dtypes: float64(9), object(2)
  • 跑步:

    np.average(df['snittpris'],weights=df['Antal_forsandelser'])

产生正确的结果

  • 当我尝试使用以下命令运行数据透视表时:

    df_sum=pd.pivot_table(df,rows=['Konskund_MEAB','ProdID'],cols=['Year'], aggfunc=np.average(df ['snittpris'],weights=df['Antal_forsandelser']))

我收到以下错误消息。

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-90-9fd03896c806> in <module>()
----> 1 df_sum=pd.pivot_table(df,rows=['Konskund_MEAB','ProdID'],cols=['Year'],
aggfunc=np.average(df['snittpris'],weights=df['Antal_forsandelser']))

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\tools\pivot.pyc
in pivot_table(data, values, rows, cols, aggfunc, fill_value, margins, dropna)
    101 
    102     grouped = data.groupby(keys)
--> 103     agged = grouped.agg(aggfunc)
    104 
    105     table = agged

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in agg(self, func, *args, **kwargs)
342     @Appender(_agg_doc)
343     def agg(self, func, *args, **kwargs):
--> 344         return self.aggregate(func, *args, **kwargs)
345 
346     def _iterate_slices(self):

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in aggregate(self, arg, *args, **kwargs)
   1741 
   1742             if self.grouper.nkeys > 1:
-> 1743                 return self._python_agg_general(arg, *args, **kwargs)
   1744             else:
   1745                 result = self._aggregate_generic(arg, *args, **kwargs)

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in _python_agg_general(self, func, *args, **kwargs)
    480 
    481         if len(output) == 0:
--> 482             return self._python_apply_general(f)
    483 
    484         if self.grouper._filter_empty_groups:

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in _python_apply_general(self, f)
    332 
    333     def _python_apply_general(self, f):
--> 334         keys, values, mutated = self.grouper.apply(f, self.obj, self.axis)
    335 
    336         return self._wrap_applied_output(keys, values,

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in apply(self, f, data, axis, keep_internal)
    628             # group might be modified
    629             group_axes = _get_axes(group)
--> 630             res = f(group)
    631             if not _is_indexed_like(res, group_axes):
    632                 mutated = True

C:\Users\Bengtw\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\groupby.pyc
 in <lambda>(x)
    468     def _python_agg_general(self, func, *args, **kwargs):
    469         func = _intercept_function(func)
--> 470         f = lambda x: func(x, *args, **kwargs)
    471 
    472         # iterate through "columns" ex exclusions to populate output dict

TypeError: 'numpy.float64' object is not callable

有什么问题??行变量 Konskund_MEAB 包含字符串(几百个不同的),ProdID 是数字并且有 4 个唯一值。年份就是这样(4 个离散值)。

【问题讨论】:

    标签: python numpy pandas


    【解决方案1】:

    参数aggfunc 应该是一个函数,但是你传递的是一个浮点数。
    因此类型错误:

    TypeError: 'numpy.float64' object is not callable
    

    你可以传入一个匿名 (lambda) 函数,可能就是你所追求的:

    aggfunc=lambda x: np.average(x['snittpris'], weights=x['Antal_forsandelser'])
    

    不幸的是,这在这种情况下不起作用(因为 aggfunc 无权访问未使用的列)...

    你可以使用groupby:

    rows = ['Konskund_MEAB','ProdID']
    cols = ['Year']
    g = df.groupby(rows + columns)
    

    并将函数应用于每个组,然后将 unstack 从 Series 应用到 DataFrame:

    s_av = g.apply(lambda x: np.average(x['snittpris'], weights=x['Antal_forsandelser']))
    df_av = s_av.unstack(cols)
    

    【讨论】:

    • 我认为是aggfunc,根据您关于 color 的其他回答 :)。
    • 试过你的建议,这似乎是我想要的。获取一组以“KeyError: 'snittpris'”结尾的新错误消息
    • @user1160760 hmmm 这个函数似乎无法访问该列,也似乎得到了一些涉及 SNDArray 的东西......很奇怪。 :(
    • 安迪:非常感谢您的帮助!不太明白为什么你的第一个解决方案没有成功。您能解释一下您对 aggfunc 无法访问未使用的列的评论吗?
    • @user1160760 也不确定我是否完全做到了,我想我应该把它作为一个问题放在 github 上讨论/修复,怀疑这是未经测试的行为,但似乎你只能应用 aggfunc对于将在您的 pivot_table 中的列(IIRC 其余部分未传递给函数,因此无法使用),我还看到 SNDArrays 令人困惑......我需要进一步调查。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-07-06
    • 2017-08-29
    • 2015-09-27
    • 1970-01-01
    相关资源
    最近更新 更多