【发布时间】:2014-05-13 14:39:42
【问题描述】:
我从 BeautifulSoup 得到一个特定标签的列表,其中一些标签只包含链接,没有进一步的文本。当我在这些上使用get_text() 方法时,我得到了链接的描述。
但是当标签only包含<a href>元素时,我想忽略它。
Tag: <p class="abc">text1 <a href=...>desc</a> text2</p> -> result: text1 desc text2 (OKAY)
Tag: <p class="abc"><a href=...>desc</a></p> -> result: desc (NOT OKAY)
当标签只包含一个链接时,我想将它们过滤掉。我该怎么做?
【问题讨论】:
-
如果你能提供一些示例输入,你会得到更多有用的答案。
标签: python python-2.7 html-parsing beautifulsoup