【发布时间】:2015-05-12 09:11:23
【问题描述】:
我正在尝试从以下网站 (http://thedataweb.rm.census.gov/ftp/cps_ftp.html) 中抓取 URL 列表,但是按照教程我的运气为零。这是我尝试过的代码示例:
from bs4 import BeautifulSoup
import urllib2
url = "http://thedataweb.rm.census.gov/ftp/cps_ftp.html"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
cpsLinks = soup.findAll(text =
"http://thedataweb.rm.census.gov/pub/cps/basic/")
print(cpsLinks)
我正在尝试提取这些链接:
http://thedataweb.rm.census.gov/pub/cps/basic/201501-/jan15pub.dat.gz
可能有大约 200 个这些链接。我怎样才能得到它们?
【问题讨论】:
-
到底出了什么问题?
-
如果只是您要查找的那些 URL,为什么不使用简单的模式匹配?
标签: python html web-scraping beautifulsoup html-parsing