【发布时间】:2016-02-27 16:25:40
【问题描述】:
我正在抓取一个没有页面的网页,我怎样才能抓取这些页面以获得我想要的信息。假设我正在抓取一个 URL http://i.cantonfair.org.cn/en/ExpProduct.aspx?corpid=0776011226&categoryno=446 这个页面有两页我怎样才能抓取这些总页面并获取总产品列表。
到目前为止我做了什么: 我正在从他们那里抓取一个网址我正在通过正则表达式抓取一个特定的网址 并尝试转到该 url 并从该链接他们没有其他页面包含信息链接产品名称。我想从所有页面中获取该产品名称。
我的代码:
from bs4 import BeautifulSoup
import urllib.request
import re
import json
response = urllib.request.urlopen("http://i.cantonfair.org.cn/en/ExpProduct.aspx?corpid=0776011226&categoryno=446")
soup = BeautifulSoup(response, "html.parser")
productlink = soup.find_all("a", href=re.compile(r"ExpProduct\.aspx\?corpid=[0-9]+.categoryno=[0-9]+"))
productlink = ([link["href"] for link in productlink])
print (productlink)
在这之后我被卡住了。我正在使用 python 3.5.1 和 Beautifulsoup
【问题讨论】:
标签: python web-scraping beautifulsoup