熊猫数据框的 groupby 给出了错误的结果答案

【问题标题】：groupby for pandas data frame gives wrong results熊猫数据框的 groupby 给出了错误的结果
【发布时间】：2020-06-16 12:38:42
【问题描述】：

我正在尝试复制一篇论文，其代码是在 Stata 中为我的课程项目使用 Python 编写的。我很难在他们的 do 文件中复制折叠命令的结果。 do-file中对应的行是

collapse lexptot, by(clwpop right)

虽然我有

df.groupby(['cwpop', 'right'])['lexptot'].agg(['mean'])

lexptot 变量是我之前使用 np.log(dfs['exptot]) 计算的变量“exptot”的对数。

有人知道这里出了什么问题吗？我计算的平均值通常比在 Stata 中计算的平均值高 1.5 左右。

【问题讨论】：

请用数据添加一个例子，让你的问题的读者能够复制问题（如果有的话）
这里的许多细节中都包含对数的含义。 Python 中的 np.log() 显然是自然对数：在 Stata 中，log() 或 ln() 是等价的。 .

【解决方案1】：

一旦您用更多相关细节更新问题，也许我可以回答更多。但这就是我认为可能对您有所帮助的方法！

df.groupby(['cwpop', 'right']).mean()['lexptot']

【讨论】：