用selenium爬取淘宝商品

1. 目标

利用 Selenium抓取淘宝商品并用 pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到 MongoDB。

2.准备工作

Chrome 浏览器并配置好了 ChromeDriver;另外，还需要正确安装 Python 的 Selenium库;最后，还对接了 PhantomJS和 Firefox，请确保安装好 PhantomJS和 Firefox并配置好了 GeckoDriver。

3.分析接口

无法直接发现Ajax接口的参数（_ksTS，rn)的规律，所以用selenium来模拟浏览器，不用关注这些接口函数。

4.页面分析：

包含商品的基本信息，包括商品图片、名称、价格、购买人数、店铺名称和店铺所在地。

抓取入口就是淘宝的搜索’页面，这个链接可以通过直接构造参数访问。

有一个分页导航，其中既包括前 5页的链接，也包括下一页的链接，同时还有一个输入任意页码跳转的链接

taobao.py

  1 from selenium import webdriver
  2 from selenium.webdriver.support.wait import WebDriverWait
  3 from selenium.webdriver.support import expected_conditions as EC
  4 from urllib.parse import quote
  5 from selenium.webdriver.common.by import By
  6 from selenium.common.exceptions import TimeoutException
  7 import pymongo
  8 from pyquery import PyQuery as pq
  9 from config import *
 10 
 11 
 12 browser = webdriver.Firefox()
 13 #browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)
 14 
 15 \'\'\'chrome_options = webdriver.ChromeOptions()
 16 chrome_options.add_argument(\'--headless\')
 17 browser = webdriver.Chrome(chrome_options=chrome_options)
 18 \'\'\'
 19 
 20 wait = WebDriverWait(browser, 10)
 21 client = pymongo.MongoClient(MONGO_URL)
 22 db = client[MONGO_DB]
 23 
 24 \'\'\'
 25 MONGO_URL = \'localhost\'
 26 MONGO_DB = \'taobao\'
 27 MONGO_COLLECTION = \'products\'
 28 MAX_PAGE = 100
 29 client = pymongo.MongoClient(MONGO_URL)
 30 db = client[MONGO_DB]
 31 
 32 KEYWORD = \'iPad\'
 33 \'\'\'
 34 def index_page(page):
 35     \'\'\'
 36     抓取索引页
 37     :param page:
 38     :return:
 39     \'\'\'
 40     print("正在爬取第 ", page, "页")
 41     try:
 42         url = \'https://s.taobao.com/search?q=\' + quote(KEYWORD)
 43         browser.get(url)
 44         if page > 1:#判断页码
 45             input = wait.until(
 46                 EC.presence_of_element_located((By.CSS_SELECTOR, \'#mainsrp-pager div.form > input\'))
 47             )
 48             submit = wait.until(
 49                 EC.presence_of_element_located((By.CSS_SELECTOR, \'#mainsrp-pager div.form > span.btn J_Submit\'))
 50             )
 51             input.clear()
 52             input.send_keys(page)
 53             submit.click()
 54         wait.until(
 55             EC.text_to_be_present_in_element((By.CSS_SELECTOR, \'#mainsrp-pager li.item.active > span\'), str(page))
 56         )
 57         wait.until(
 58             EC.presence_of_element_located((By.CSS_SELECTOR, \'.m-itemlist .items .item\'))
 59             #这个选择器对应的页面内容就是每个商品的信息块
 60         )
 61         get_products()
 62     except TimeoutException:
 63         index_page(page)
 64 
 65 def get_products():
 66     \'\'\'
 67     提取商品数据
 68     :return:
 69     \'\'\'
 70     html = browser.page_source#属性获取页码的源代码
 71     doc = pq(html)#构造了 PyQuery解析对象
 72     items = doc(\'#mainsrp-itemlist .items .item\').items()
 73     for item in items:
 74         #每次循环把它赋值为item变量，
 75         #每个item变量都是一个PyQuery对象
 76         product = {
 77             \'image\': item.find(\'.pic .img\').attr(\'data-src\'),
 78             \'price\': item.find(\'.price\').text(),
 79             \'deal\': item.find(\'.deal-cnt\').text(),
 80             \'title\': item.find(\'.title\').text(),
 81             \'shop\': item.find(\'.shop\').text(),
 82             \'location\': item.find(\'.location\').text()
 83         }
 84         print(product)
 85         save_to_mongo(product)
 86 
 87 def save_to_mongo(result):
 88     \'\'\'
 89     保存至DB
 90     :param result:
 91     :return:
 92     \'\'\'
 93     try:
 94         if db[MONGO_COLLECTION].insert(result):
 95             print(\'存储到MongoDB成功\')
 96     except Exception:
 97         print(\'存储到MongoDB失败\')
 98 
 99 
100 def main():
101     """
102        遍历每一页
103     """
104     for i in range(1, MAX_PAGE + 1):
105         index_page(i)
106     browser.close()
107 
108 if __name__ == \'__main__\':
109     main()

config.py

1 MONGO_URL = \'localhost\'
2 MONGO_DB = \'taobao\'
3 MONGO_COLLECTION = \'products\'
4 
5 KEYWORD = \'ipad\'
6 
7 MAX_PAGE = 100
8 
9 SERVICE_ARGS = [\'--load-images=false\', \'--disk-cache=true\']

每次测试都需要拿手机扫描二维码登陆，并且一直爬取第一页，无法进入下一页。