【发布时间】:2017-10-11 12:26:03
【问题描述】:
我有一个这样的数据框:
date sales company country
16/03/2012 3000 H&M US
13/04/2012 2300 H&M US
26/03/2012 1230 H&M FR
13/04/2012 1300 H&M FR
23/03/2012 2230 H&M IT
19/04/2012 1100 H&M IT
16/03/2012 3000 ABC US
13/04/2012 2300 ABC US
26/03/2012 100 ABC FR
13/04/2012 60 ABC FR
23/03/2012 435 ABC IT
19/04/2012 300 ABC IT
我想定义一个标准:如果一家公司的(平均)销售额少于 50% 来自单一国家/地区,则该公司被视为国际公司。我想创建一个新列,如果它是国际的,则值为 1,否则为 0。最终输出应如下所示:
date sales company country international
16/03/2012 3000 H&M US 1
13/04/2012 2300 H&M US 1
26/03/2012 1230 H&M FR 1
13/04/2012 1300 H&M FR 1
23/03/2012 2230 H&M IT 1
19/04/2012 1100 H&M IT 1
16/03/2012 3000 ABC US 0
13/04/2012 2300 ABC US 0
26/03/2012 100 ABC FR 0
13/04/2012 60 ABC FR 0
23/03/2012 435 ABC IT 0
19/04/2012 300 ABC IT 0
我怎么能做到这一点? P.S:数据集中可能缺少销售值,我怎么能说忽略这些值?
【问题讨论】:
标签: python pandas dummy-variable