【发布时间】:2017-03-21 23:33:13
【问题描述】:
我正在使用 beautifulsoup4 解析网页并使用此代码收集所有 href 值
#Collect links from 'new' page
pageRequest = requests.get('http://www.supremenewyork.com/shop/all/shirts')
soup = BeautifulSoup(pageRequest.content, "html.parser")
links = soup.select("div.turbolink_scroller a")
allProductInfo = soup.find_all("a", class_="name-link")
print allProductInfo
linksList1 = []
for href in allProductInfo:
linksList1.append(href.get('href'))
print(linksList1)
linksList1 打印两个链接。我相信这是因为它从标题中获取链接以及项目颜色。我已经尝试了一些事情,但无法让 BS 仅解析标题链接,并列出每个链接中的一个而不是两个。我想它真的很简单,但我想念它。提前致谢
【问题讨论】:
-
将 linksList1 设为 set() 而不是 list()
-
非常感谢
标签: python parsing beautifulsoup href