【发布时间】:2020-08-09 02:19:03
【问题描述】:
我有一个数据框df,其中包含我需要整齐格式化的公司名称。名称已经在标题中:
Company Name
0 Visa Inc
1 Msci Inc
2 Coca Cola Inc
3 Pnc Bank
4 Aig Corp
5 Td Ameritrade
6 Uber Inc
7 Costco Inc
8 New York Times
由于许多公司都使用首字母缩略词或缩写(行1、3、4、5),我只希望这些公司名称中的第一个字符串是大写的,就像这样:
Company Name
0 Visa Inc
1 MSCI Inc
2 Coca Cola Inc
3 PNC Bank
4 AIG Corp
5 TD Ameritrade
6 Uber Inc
7 Costco Inc
8 New York Times
我知道我不能得到 100% 准确的替换,但我相信我可以通过只大写第一个字符串来接近:
- 不超过 4 个字符
- 并且第一个字符串不是字典中的单词
我怎样才能做到这一点:df['Company Name'] = df['Company Name'].replace()?
【问题讨论】:
-
老实说,这不是一件容易的事,因为例如,如果您尝试手动执行这些操作。你的逻辑是什么?
-
是的,我知道这不会是完美的,但我认为通过使用上述规则的组合我可以达到大约 80%。其余的我可以手动清理。
标签: python string pandas replace