多行正则表达式标签答案

【问题标题】：Regular expression tags on multiple lines多行正则表达式标签
【发布时间】：2016-10-04 09:47:41
【问题描述】：

当这些标签位于多行/不同行时，如何提取它们之间的内容？

<link>
https://widget.websta.me/rss/n/bleh
</link>

我试过了：内容 = findall('(.*)', web_page_contents, re.DOTALL) 但我得到的是下一个而不是这个^

【问题讨论】：

stackoverflow.com/a/1732454/847552
正则表达式不适合解析 XML，除非它非常简单，即常规 :P 你应该使用一些 xml 处理库。例如阅读：docs.python.org/2/library/…

标签： python html regex

【解决方案1】：

您可以使用BeautifulSoup 来执行此操作。它有一个很好的documentation，而且很容易。

以下代码将起作用：

import requests
from bs4 import BeautifulSoup

r = requests.get(webpage_url)
soup = BeautifulSoup(r.content, 'lxml')
for link in soup.find_all('link'):
    print link.text

【讨论】：