【问题标题】:Regular expression tags on multiple lines多行正则表达式标签
【发布时间】:2016-10-04 09:47:41
【问题描述】:

当这些标签位于多行/不同行时,如何提取它们之间的内容?

<link>
https://widget.websta.me/rss/n/bleh
</link>

我试过了: 内容 = findall('(.*)', web_page_contents, re.DOTALL) 但我得到的是下一个而不是这个^

【问题讨论】:

标签: python html regex


【解决方案1】:

您可以使用BeautifulSoup 来执行此操作。它有一个很好的documentation,而且很容易。

以下代码将起作用:

import requests
from bs4 import BeautifulSoup

r = requests.get(webpage_url)
soup = BeautifulSoup(r.content, 'lxml')
for link in soup.find_all('link'):
    print link.text

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-11-25
    • 2021-09-30
    相关资源
    最近更新 更多