【发布时间】:2017-04-13 11:28:23
【问题描述】:
我在用 beautifulsoup 抓取网站“http://www.queensbronxba.com/directory/”时卡住了。我几乎完成了抓取,我只留下了在段落标签中找到的列表中的公司名称。问题是同一个 div 中有更多的段落标签,但我只需要第一个,因为它给出了公司名称。所以我需要关于以下 div 的第一段,而不仅仅是第一段。这是我用来 srcape 的代码:
page = requests.get("http://www.queensbronxba.com/directory/")
soup = BeautifulSoup(page.content, 'html.parser')
company = soup.find(class_="boardMemberWrap")
contact = company.find_all(class_="boardMember")
info = contact[0]
print(info.prettify())
name_tags = company.select("h4")
names = [nt.get_text() for nt in company_tags]
names
company_tags = company.select("p") #here I need help to get only first paragraphs of following div containers
companies = [ct.get_text() for ct in company_tags]
companies
phone_tags = company.select('a[href^="tel"]')
phones = [pt.get_text() for pt in phone_tags]
phones
email_tags = company.select('a[href^="mailto"]')
emails = [et.get_text() for et in email_tags]
emails
【问题讨论】:
-
具体说明您的问题。现在你还在纠结什么?
-
company_tags 上有评论说我需要帮助。
-
您应该在问题中描述代码之外的问题,因此明确说明。如果您只想要获得的所有文本中的一个段落,请解析文本,也许将文本拆分为
\n
标签: python beautifulsoup