【发布时间】:2023-03-22 13:06:01
【问题描述】:
我是一名在 NCAA 足球项目中工作的初学者数据科学家。我们在练习过程中记录重复测量数据,需要对其进行组织和分析。我有这个示例数据集,由于“活动”列中的变化/错别字,我无法分析。我需要一种方法来重命名/组织数据框中的活动。
原始数据集如下所示:
| Position | Activity | Max_Velocity (mph) |
|---|---|---|
| WR | Special Team 1 | 20 |
| WR | special team 1 | 19 |
| WR | Special team 1 | 18 |
| WR | special Team 2 | 13 |
| WR | ST 2 | 16 |
| WR | St 2 | 19 |
| WR | team 1 | 12 |
| WR | team 1 | 20 |
| WR | team 1 | 23 |
| WR | team 2 | 21 |
| WR | team 2 | 10 |
| WR | team 2 | 3 |
| WR | team 3 | 21 |
| WR | team 3 | 11 |
| WR | team 3 | 16 |
| WR | Indy 1 | 20 |
| WR | indy 2 | 21 |
| WR | INDY 3 | 22 |
我需要它看起来像这样:
| Position | Activity | Max_Velocity (mph) | Activity_Catagory |
|---|---|---|---|
| WR | Special Team 1 | 20 | Special Team |
| WR | special team 1 | 19 | Special Team |
| WR | Special team 1 | 18 | Special Team |
| WR | special Team 2 | 13 | Special Team |
| WR | ST 2 | 16 | Special Team |
| WR | St 2 | 19 | Special Team |
| WR | team 1 | 12 | Team |
| WR | team 1 | 20 | Team |
| WR | team 1 | 23 | Team |
| WR | team 2 | 21 | Team |
| WR | team 2 | 10 | Team |
| WR | team 2 | 3 | Team |
| WR | team 3 | 21 | Team |
| WR | team 3 | 11 | Team |
| WR | team 3 | 16 | Team |
| WR | Indy 1 | 20 | Indy |
| WR | indy 2 | 21 | Indy |
| WR | INDY 3 | 22 | Indy |
这样我可以分析每种活动类型中因变量“Max_velocity”的平均值。我宁愿不制作单独的代码行来纠正“活动”列中的每个错字。我认为这可以通过循环来完成,但我是初学者,不知道从哪里开始。我将不胜感激任何帮助,使其成为一个简单的修复。
【问题讨论】:
-
不应该是
indy1行有indy而不是team?? -
您需要创建一组规则。如果你有超过 1 个单词。然后取它们的初始值并将它们组合起来。特别队-> ST。您需要创建一个字典来映射单词。并且还使用正则表达式仅捕获单词(而不是数字)
-
你能用代码证明吗?我不熟悉正则表达式
-
检查我的答案。
-
所以我需要创建一个字典来将“活动拼写错误”链接到我想要的输出。我不明白正则表达式。那是函数、库等吗?
标签: r list dataframe data-science