【问题标题】:groupby for pandas data frame gives wrong results熊猫数据框的 groupby 给出了错误的结果
【发布时间】:2020-06-16 12:38:42
【问题描述】:

我正在尝试复制一篇论文,其代码是在 Stata 中为我的课程项目使用 Python 编写的。我很难在他们的 do 文件中复制折叠命令的结果。 do-file中对应的行是

collapse lexptot, by(clwpop right)

虽然我有

df.groupby(['cwpop', 'right'])['lexptot'].agg(['mean'])

lexptot 变量是我之前使用 np.log(dfs['exptot]) 计算的变量“exptot”的对数。

有人知道这里出了什么问题吗?我计算的平均值通常比在 Stata 中计算的平均值高 1.5 左右。

【问题讨论】:

  • 请用数据添加一个例子,让你的问题的读者能够复制问题(如果有的话)
  • 这里的许多细节中都包含对数的含义。 Python 中的 np.log() 显然是自然对数:在 Stata 中,log()ln() 是等价的。 .

标签: python pandas pandas-groupby stata logarithm


【解决方案1】:

一旦您用更多相关细节更新问题,也许我可以回答更多。但这就是我认为可能对您有所帮助的方法!

df.groupby(['cwpop', 'right']).mean()['lexptot']

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-10-09
    • 2013-12-19
    • 2021-04-30
    • 1970-01-01
    • 1970-01-01
    • 2021-12-06
    • 1970-01-01
    相关资源
    最近更新 更多