【问题标题】:Data Cleaning - removing trailing phrases数据清洗 - 删除尾随短语
【发布时间】:2021-12-23 12:55:14
【问题描述】:

我正在清理一些数据并想知道如何删除尾随短语。我不想去掉所有的数字,因为有些口味有数字。第一个表是预清理的数据,第二个表是我想要的。

Flavor
Orange 5 ml
Cherry
Strawberry 5 mg/ml
#1 flavor
Passion fruit 1.
Cherry Blossom
Flavor
Orange
Cherry
Strawberry
#1 flavor
Passion fruit
Cherry Blossom

【问题讨论】:

    标签: python pandas data-analysis data-cleaning


    【解决方案1】:

    与所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我已经编写了一个正则表达式,您可以使用它从 end 中删除数字、空格、单位(mlmg)、斜杠(/)和句点(. 个字符串:

    \s*\b[/mgl\d\s.]+$
    

    你可以这样使用它:

    df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)
    

    【讨论】:

      猜你喜欢
      • 2021-09-10
      • 2020-10-01
      • 2011-05-30
      • 1970-01-01
      • 2021-02-04
      • 2019-03-15
      • 2021-11-21
      • 2018-07-01
      • 1970-01-01
      相关资源
      最近更新 更多