【发布时间】:2021-12-11 15:40:24
【问题描述】:
我有一个字符串,由一些机器学习算法产生,一般由多行组成。在开头和结尾可以有一些不包含任何字符的行(空格除外),中间应该有 2 行,每行包含一个单词,后跟一些数字和(有时)其他字符。
类似的东西
first_word 3 5 7 @ 4
second_word 4 5 67| 5 [
我需要提取两个单词和数字字符。
我可以通过执行以下操作来消除空行:
lines_list = initial_string.split("\n")
for line in lines_list:
if len(line) > 0 and not line.isspace():
print(line)
但现在我想知道:
- 如果有更稳健、更通用的方法
- 如何通过提取单词和数字来解析剩余的 2 条中心线中的每一条(如果有的话,丢弃混合在数字之间的其他字符)
我认为 reg 表达式可能很有用,但我从来没有真正使用过它们,所以我现在有点挣扎
【问题讨论】:
-
您期望的确切输出是什么?
标签: python string text-parsing