【发布时间】:2021-10-13 19:52:38
【问题描述】:
我的数据框包含许多行,包括:
- 仅限数字;
- 数字和空格;
- 字符串与数字混合(参见 Hell0 guy34 g00d j0b.);
+--------------------------+--------+
| Content | Score |
+--------------------------+--------+
| Hello my name is Tim. | 3 |
| 081332111333 | 4 |
| 08 97 5524 | 1 |
| 10 08 2021 | 1 |
| Great App | 3 |
| Hell0 guys34 g00d j0b. | 5 |
. . . . . . . . . . . . .
| 122345324 2331 111111 | 3 |
+--------------------------+--------+
有没有办法清理,即使用 withColumn 或任何其他快速方法删除我的数据框中出现的这 3 种可能的行?
我创建了一个 for 循环,它遍历 Dataframe 中的所有行,但是 超过 100 万行,这需要很长时间。
我的环境是 Google Colab
非常感谢!
【问题讨论】:
标签: dataframe apache-spark pyspark bigdata google-colaboratory