【发布时间】:2018-12-02 12:07:51
【问题描述】:
所以我有这个 HTML:
div class="price" itemprop="offers" itemscope itemtype="http://schema.org Offer"
我正在尝试将其拆分为类似这样的列表:
[class="price", itemprop="offers", itemscope, itemtype="http://schema.org Offer"]
但我不确定如何拆分itemscope 的部分。
我当前的正则表达式看起来像这样(\s.*?\"\s*.*?\s*\"),但是这个问题是当我将它拆分成一个列表时,itemscope 和 itemtype="http:/ /schema.org Offer" 只是一个元素,所以我的列表将是这样的:
[class="price", itemprop="offers", itemscope itemtype="http://schema.org Offer"]
知道如何解决这个问题吗?
【问题讨论】:
-
我已经将 BS 用于其他用途。我在这里尝试做的是将类似的 HTML 标记转换为 XPath 以使某些东西自动化。为了做到这一点,我需要拆分那个 HTML 标签
-
可以在 BeautifulSoup 中获取属性列表,见answer。
-
查看这个问题,了解为什么正则表达式不是最好的工具:stackoverflow.com/questions/6751105/…