【发布时间】:2019-12-17 15:50:15
【问题描述】:
我正在使用 jupyter 笔记本编写一些毛利润报告。我已将数据作为 csv 从我们的 CRM 中导出,并正在使用 Pandas 处理数据。一些数据在几列中重复。我需要删除这些列中的那些重复值,但保留行的其余部分。
我尝试在两列的一个子集上删除重复项,但它删除了整行。
INV INV SUB PO Number PO Subtotal \
0 INV-002504 USD 350.00 PO-03977 240
1 INV-002507 USD 1,400.00 PO-03846 603.56
2 NaN NaN PO-03847 295
3 INV-002489 USD 891.25 PO-03861 658.31
4 INV-002453 USD 3,132.50 PO-03889 4751.19
5 INV-002537 USD 3,856.29 PO-03889 4751.19
6 INV-002420 USD 592.43 PO-03577 1188.46
7 INV-002415 USD 10,779.00 PO-03727 5389.21
第 4 行和第 5 行是在采购订单编号和采购订单小计列中重复的示例。
我希望输出删除重复项,因此该值在所有情况下仅显示一次。
INV INV SUB PO Number PO Subtotal \
0 INV-002504 USD 350.00 PO-03977 240
1 INV-002507 USD 1,400.00 PO-03846 603.56
2 NaN NaN PO-03847 295
3 INV-002489 USD 891.25 PO-03861 658.31
4 INV-002453 USD 3,132.50 PO-03889 4751.19
5 INV-002537 USD 3,856.29
6 INV-002420 USD 592.43 PO-03577 1188.46
7 INV-002415 USD 10,779.00 PO-03727 5389.21
【问题讨论】:
标签: python-3.x pandas duplicates jupyter-notebook