【发布时间】:2020-12-16 09:42:06
【问题描述】:
这是我正在抓取的网站:biharjobportal.com
详细信息页面有多个 <p 标签,但我专门寻找其中包含 biharjobportal.com 的
<p>बिहार में निकलने वाली सारी एडमिशन, रिजल्ट और नौकरी की जानकारी इस वेबसाइट पर प्रदान की जाएगी | इसलिए इस वेबसाइट पर आने के लिए हमें गूगल में <strong>biharjobportal.com</strong> टाइप करे |</p>
如您所见,它的文本biharjobportal.com 存在。我想知道是否可以使用biharjobportal.com 和decompose() 找到标签。
这是我尝试过的:
getptags = entry_content.find_all('p')
if 'biharjobportal.com' in getptags:
#decompose() code here
else:
print('nothing to decompose')
entry_content 是根元素。上述代码的输出始终执行 else 部分,即使其中存在 biharjobportal.com。
请指导我。谢谢
【问题讨论】:
-
帖子需要进一步澄清,您是要在汤中找到
<strong>标签,还是满足于decompose()包含目标字符串的p 元素中的整个文本?无论如何,这里缺少的成分是手动循环内容并适当使用in tag.text,这只会提取标签下的字符串值 -
如果找到文本,我会尝试删除整个
标签: python html beautifulsoup