【发布时间】:2018-06-09 06:05:12
【问题描述】:
我知道还有很多其他类似的问题,但我已经建立了其他答案但没有成功。 我挖了here、here、here、here和here 但是这个question 最接近我想要做的事情,但是它在 php 中,我正在使用 python3
我的目标是从正文中提取子字符串。 正文已格式化:
**Header1**
thing1
thing2
thing3
thing4
**Header2**
dsfgs
sdgsg
rrrrrr
**Hello Dolly**
abider
abcder
ffffff
etc.
在 SO 上格式化很困难。但在实际文本中,没有空格,每行只有换行符。
我想要 Header2 下的内容,所以目前我有:
found = re.search("\*\*Header2\*\*\n[^*]+",body)
if found:
list = found.group(0)
list = list[11:]
list = list.split('\n')
print(list)
但这会返回“无”。我尝试过的各种其他正则表达式也没有工作,或者抓取太多(所有剩余的标题)。
对于它的价值,我也尝试过:
\*\*Header2\*\*.+?^\**$
\*\*Header2\*\*[^*\s\S]+\*\* 和大约 10 个其他排列。
【问题讨论】:
-
\n在**Header**之后不存在,因为有空格。 -
@ctwheels 删除 \n 解决了我的问题!如果您想将其发布为答案,我会接受它
标签: python regex python-3.x search python-3.5