【发布时间】:2016-04-01 06:48:44
【问题描述】:
我在从https://www.symantec.com/index.jsp 中提取“a”标签时遇到问题。
以下是代码,它给了我一组空的“链接”。
from bs4 import BeautifulSoup
import urllib2
response = urllib2.urlopen('https://www.symantec.com/index.jsp').read()
soup = BeautifulSoup(response, 'html.parser')
links = soup.find_all('a')
print(links)
对于其他 url,该代码可以正常工作,但它不适用于这个。是因为 index.jsp 是动态的吗?解决方案可能是什么?
我正在使用 python 2.7。
【问题讨论】:
-
https://www.symantec.com和/index.jsp之间有一个空格,也许删除它可以解决您的问题? -
尝试使用 python 请求来获取 html...它真的很好用。
-
@hd1 修复了空间,这显然是一个错字。谢谢。
-
@Rhea 是 OP,alecxe,可能不是错字。
标签: python python-2.7 beautifulsoup web-crawler