array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容 - 华天清 - 爱码网</title>
     
<meta name="keywords" content="Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容 - 华天清" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-683989.html" title="Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容 - 华天清">Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容 - 华天清</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc"> gooseeker 
                <time class="post-date" datetime="2021-11-03">2021-11-03</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
    <div class="post">
        <h3>
            
<a id="cb_post_title_url" class="postTitle2 vertical-middle" href="/default/index/url?u=aHR0cHM6Ly93d3cuY25ibG9ncy5jb20vZ29vc2Vla2VyL3AvNTY0NjQ0NC5odG1s" target="_blank">
    <span role="heading" aria-level="2">Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容</span>
    

</a>

        </h3>
        <div class="postbody">
                <div id="likecs_post_description" style="display: none">
        
        最近一直在看Scrapy 爬虫框架，并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题，希望大家多多指教。
    </div>
<div id="likecs_post_body" class="blogpost-body blogpost-body-html">
<h3 style="text-align: center"><strong><img src="/default/index/img?u=aHR0cHM6Ly9pbWFnZXMyMDE1LmNuYmxvZ3MuY29tL2Jsb2cvOTUzNzg2LzIwMTYwNy85NTM3ODYtMjAxNjA3MDYxMTU2MDU0NTItMTA5ODQ0NjMzOC5wbmc%3D" alt=""></strong></h3>
<h3 id="-1，引言"><strong>1，引言</strong></h3>
<p>最近一直在看Scrapy 爬虫框架，并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题，希望大家多多指教。</p>
<p>本文主要介绍如何使用Scrapy结合PhantomJS采集天猫商品内容，文中自定义了一个DOWNLOADER_MIDDLEWARES，用来采集需要加载js的动态网页内容。看了很多介绍DOWNLOADER_MIDDLEWARES资料，总结来说就是使用简单，但会阻塞框架，所以性能方面不佳。一些资料中提到了自定义DOWNLOADER_HANDLER或使用scrapyjs可以解决阻塞框架的问题，有兴趣的小伙伴可以去研究一下，这里就不多说了。</p>
<h3 id="-2，具体实现"><strong>2，具体实现</strong></h3>
<h4 id="-2-1，环境需求"><strong>2.1，环境需求</strong></h4>
<p>需要执行以下步骤，准备Python开发和运行环境：</p>
<ul>
<li>Python--<a href="https://www.python.org/downloads/" rel="nofollow" target="_blank">官网</a>下载安装并部署好环境变量 （本文使用Python版本为3.5.1）</li>
<li>lxml-- <a href="https://pypi.python.org/simple/lxml" rel="nofollow" target="_blank">官网库</a>下载对应版本的.whl文件，然后命令行界面执行 "pip install .whl文件路径"</li>
<li>Scrapy--命令行界面执行 "pip install Scrapy"，详细请参考<a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9nb29zZWVrZXIvcC81NTkzOTM5Lmh0bWw%3D" target="_blank" rel="noopener">《Scrapy的第一次运行测试》</a>
</li>
<li>selenium--命令行界面执行 "pip install selenium"</li>
<li>PhantomJS -- <a href="http://phantomjs.org/download.html" rel="nofollow" target="_blank">官网</a>下载</li>
</ul>
<p>上述步骤展示了两种安装：1，安装下载到本地的wheel包；2，用Python安装管理器执行远程下载和安装。注：包的版本需要和python版本配套</p>
<h4 id="-2-2，开发和测试过程"><strong>2.2，开发和测试过程</strong></h4>
<p style="text-align: left">首先找到需要采集的网页，这里简单找了一个天猫商品，网址<a href="https://world.tmall.com/item/526449276263.htm%EF%BC%8C" rel="nofollow" target="_blank">https://world.tmall.com/item/526449276263.htm，</a> 页面如下： </p>
<p style="text-align: center"><img src="/default/index/img?u=aHR0cHM6Ly9pbWFnZXMyMDE1LmNuYmxvZ3MuY29tL2Jsb2cvOTUzNzg2LzIwMTYwNy85NTM3ODYtMjAxNjA3MDYxMTU2MTc0NTItMjEyMjY5Mzk4Ny5qcGc%3D" alt=""></p>
<p>然后开始编写代码，以下代码默认都是在命令行界面执行</p>
<p><strong>1)，创建scrapy爬虫项目tmSpider</strong></p>
<div class="likecs_code">
<pre>E:\python-3.5.1&gt;scrapy startproject tmSpider</pre>
</div>
<p> </p>
<p><strong>2)，修改settings.py配置</strong></p>
<ul>
<li>更改ROBOTSTXT_OBEY的值为False；</li>
<li>关闭scrapy默认的下载器中间件；</li>
<li>加入自定义DOWNLOADER_MIDDLEWARES。</li>
</ul>
<p>配置如下：</p>
<div class="likecs_code">
<pre>DOWNLOADER_MIDDLEWARES =<span style="color: rgba(0, 0, 0, 1)"> {
    </span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">tmSpider.middlewares.middleware.CustomMiddlewares</span><span style="color: rgba(128, 0, 0, 1)">\'</span>: 543<span style="color: rgba(0, 0, 0, 1)">,
    </span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">: None
}</span></pre>
</div>
<p> </p>
<p><strong>3)，在项目目录下创建middlewares文件夹,然后在文件夹下创建middleware.py文件，代码如下：</strong></p>
<div class="likecs_code">
<pre><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> -*- coding: utf-8 -*-</span>

<span style="color: rgba(0, 0, 255, 1)">from</span> scrapy.exceptions <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> IgnoreRequest
</span><span style="color: rgba(0, 0, 255, 1)">from</span> scrapy.http <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> HtmlResponse, Response

</span><span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> tmSpider.middlewares.downloader as downloader

</span><span style="color: rgba(0, 0, 255, 1)">class</span><span style="color: rgba(0, 0, 0, 1)"> CustomMiddlewares(object):
    </span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> process_request(self, request, spider):
        url </span>=<span style="color: rgba(0, 0, 0, 1)"> str(request.url)
        dl </span>=<span style="color: rgba(0, 0, 0, 1)"> downloader.CustomDownloader()
        content </span>=<span style="color: rgba(0, 0, 0, 1)"> dl.VisitPersonPage(url)
        </span><span style="color: rgba(0, 0, 255, 1)">return</span> HtmlResponse(url, status = 200, body =<span style="color: rgba(0, 0, 0, 1)"> content)
    
    </span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> process_response(self, request, response, spider):
        </span><span style="color: rgba(0, 0, 255, 1)">if</span> len(response.body) == 100<span style="color: rgba(0, 0, 0, 1)">:
            </span><span style="color: rgba(0, 0, 255, 1)">return</span> IgnoreRequest(<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">body length == 100</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">)
        </span><span style="color: rgba(0, 0, 255, 1)">else</span><span style="color: rgba(0, 0, 0, 1)">:
            </span><span style="color: rgba(0, 0, 255, 1)">return</span> response</pre>
</div>
<p> </p>
<p><strong>4)，使用selenium和PhantomJS写一个网页内容下载器，同样在上一步创建好的middlewares文件夹中创建downloader.py文件，代码如下：</strong></p>
<div class="likecs_code">
<pre><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> -*- coding: utf-8 -*-</span>
<span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> time
</span><span style="color: rgba(0, 0, 255, 1)">from</span> scrapy.exceptions <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> IgnoreRequest
</span><span style="color: rgba(0, 0, 255, 1)">from</span> scrapy.http <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> HtmlResponse, Response
</span><span style="color: rgba(0, 0, 255, 1)">from</span> selenium <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> webdriver
</span><span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> selenium.webdriver.support.ui as ui 

</span><span style="color: rgba(0, 0, 255, 1)">class</span><span style="color: rgba(0, 0, 0, 1)"> CustomDownloader(object):
    </span><span style="color: rgba(0, 0, 255, 1)">def</span> <span style="color: rgba(128, 0, 128, 1)">__init__</span><span style="color: rgba(0, 0, 0, 1)">(self):
        </span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> use any browser you wish</span>
        cap =<span style="color: rgba(0, 0, 0, 1)"> webdriver.DesiredCapabilities.PHANTOMJS
        cap[</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">phantomjs.page.settings.resourceTimeout</span><span style="color: rgba(128, 0, 0, 1)">"</span>] = 1000<span style="color: rgba(0, 0, 0, 1)">
        cap[</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">phantomjs.page.settings.loadImages</span><span style="color: rgba(128, 0, 0, 1)">"</span>] =<span style="color: rgba(0, 0, 0, 1)"> True
        cap[</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">phantomjs.page.settings.disk-cache</span><span style="color: rgba(128, 0, 0, 1)">"</span>] =<span style="color: rgba(0, 0, 0, 1)"> True
        cap[</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">phantomjs.page.customHeaders.Cookie</span><span style="color: rgba(128, 0, 0, 1)">"</span>] = <span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">SINAGLOBAL=3955422793326.2764.1451802953297; </span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">
        self.driver </span>= webdriver.PhantomJS(executable_path=<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">F:/phantomjs/bin/phantomjs.exe</span><span style="color: rgba(128, 0, 0, 1)">\'</span>, desired_capabilities=<span style="color: rgba(0, 0, 0, 1)">cap)
        wait </span>= ui.WebDriverWait(self.driver,10<span style="color: rgba(0, 0, 0, 1)">)
    
    </span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> VisitPersonPage(self, url):
        </span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">正在加载网站.....</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">)
        self.driver.get(url)
        time.sleep(</span>1<span style="color: rgba(0, 0, 0, 1)">)
        </span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> 翻到底，详情加载</span>
        js=<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">var q=document.documentElement.scrollTop=10000</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">
        self.driver.execute_script(js)
        time.sleep(</span>5<span style="color: rgba(0, 0, 0, 1)">)
        content </span>= self.driver.page_source.encode(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">gbk</span><span style="color: rgba(128, 0, 0, 1)">\'</span>, <span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">ignore</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">)
        </span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">网页加载完毕.....</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">)
        </span><span style="color: rgba(0, 0, 255, 1)">return</span><span style="color: rgba(0, 0, 0, 1)"> content

    </span><span style="color: rgba(0, 0, 255, 1)">def</span> <span style="color: rgba(128, 0, 128, 1)">__del__</span><span style="color: rgba(0, 0, 0, 1)">(self):
        self.driver.quit()</span></pre>
</div>
<p> </p>
<p><strong>5) 创建爬虫模块</strong></p>
<p>在项目目录E:\python-3.5.1\tmSpider，执行如下代码：</p>
<div class="likecs_code">
<pre>E:\python-3.5.1\tmSpider&gt;scrapy genspider tmall <span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">tmall.com</span><span style="color: rgba(128, 0, 0, 1)">\'</span></pre>
</div>
<p>执行后，项目目录E:\python-3.5.1\tmSpider\tmSpider\spiders下会自动生成tmall.py程序文件。该程序中parse函数处理scrapy下载器返回的网页内容，采集网页信息的方法可以是：</p>
<ul>
<li>使用xpath或正则方式从response.body中采集所需字段，</li>
<li>通过gooseeker api获取的内容提取器实现一站转换所有字段，而且不用手工编写转换用的xpath（如何获取内容提取器请参考<a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9nb29zZWVrZXIvcC81NTAxNzE2Lmh0bWw%3D" target="_blank" rel="noopener">python使用xslt提取网页数据</a>）,代码如下：</li>
</ul>
<div class="likecs_code">
<pre><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> -*- coding: utf-8 -*-</span>
<span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> time
</span><span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> scrapy

</span><span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> tmSpider.gooseeker.gsextractor as gsextractor

</span><span style="color: rgba(0, 0, 255, 1)">class</span><span style="color: rgba(0, 0, 0, 1)"> TmallSpider(scrapy.Spider):
    name </span>= <span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">tmall</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">
    allowed_domains </span>= [<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">tmall.com</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">]
    start_urls </span>=<span style="color: rgba(0, 0, 0, 1)"> (
        </span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">https://world.tmall.com/item/526449276263.htm</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">,
    )
    
    </span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> 获得当前时间戳</span>
    <span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> getTime(self):
        current_time </span>=<span style="color: rgba(0, 0, 0, 1)"> str(time.time())
        m </span>= current_time.find(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">.</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">)
        current_time </span>=<span style="color: rgba(0, 0, 0, 1)"> current_time[0:m]
        </span><span style="color: rgba(0, 0, 255, 1)">return</span><span style="color: rgba(0, 0, 0, 1)"> current_time

    </span><span style="color: rgba(0, 0, 255, 1)">def</span><span style="color: rgba(0, 0, 0, 1)"> parse(self, response):
        html </span>=<span style="color: rgba(0, 0, 0, 1)"> response.body
        </span><span style="color: rgba(0, 0, 255, 1)">print</span>(<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">----------------------------------------------------------------------------</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">)
        extra</span>=<span style="color: rgba(0, 0, 0, 1)">gsextractor.GsExtractor()
        extra.setXsltFromAPI(</span><span style="color: rgba(128, 0, 0, 1)">"31d24931e043e2d5364d03b8ff9cc77e</span><span style="color: rgba(128, 0, 0, 1)">"</span>, <span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">淘宝天猫_商品详情30474</span><span style="color: rgba(128, 0, 0, 1)">"</span>,<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">tmall</span><span style="color: rgba(128, 0, 0, 1)">"</span>,<span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(128, 0, 0, 1)">list</span><span style="color: rgba(128, 0, 0, 1)">"</span><span style="color: rgba(0, 0, 0, 1)">)

        result </span>=<span style="color: rgba(0, 0, 0, 1)"> extra.extract(html)
        </span><span style="color: rgba(0, 0, 255, 1)">print</span>(str(result).encode(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">gbk</span><span style="color: rgba(128, 0, 0, 1)">\'</span>, <span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">ignore</span><span style="color: rgba(128, 0, 0, 1)">\'</span>).decode(<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">gbk</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">))
        </span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)">file_name = \'F:/temp/淘宝天猫_商品详情30474_\' + self.getTime() + \'.xml\'</span>
        <span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)">open(file_name,"wb").write(result)</span></pre>
</div>
<p> </p>
<p><strong>6)，启动爬虫</strong></p>
<p>在E:\python-3.5.1\tmSpider项目目录下执行命令</p>
<div class="likecs_code">
<pre>E:\python-3.5.1\simpleSpider&gt;scrapy crawl tmall</pre>
</div>
<p>输出结果:</p>
<p><img style="display: block; margin-left: auto; margin-right: auto" src="/default/index/img?u=aHR0cHM6Ly9pbWFnZXMyMDE1LmNuYmxvZ3MuY29tL2Jsb2cvOTUzNzg2LzIwMTYwNy85NTM3ODYtMjAxNjA3MDYxMTU2NDIwMzAtMTMxODg1MDM1My5wbmc%3D" alt=""></p>
<p>提一下，上述命令只能一次启动一个爬虫，如果想同时启动多个呢？那就需要自定义一个爬虫启动模块了，在spiders下创建模块文件runcrawl.py，代码如下</p>
<div class="likecs_code">
<pre><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)"> -*- coding: utf-8 -*-</span>

<span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> scrapy
</span><span style="color: rgba(0, 0, 255, 1)">from</span> twisted.internet <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> reactor
</span><span style="color: rgba(0, 0, 255, 1)">from</span> scrapy.crawler <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> CrawlerRunner

</span><span style="color: rgba(0, 0, 255, 1)">from</span> tmall <span style="color: rgba(0, 0, 255, 1)">import</span><span style="color: rgba(0, 0, 0, 1)"> TmallSpider
...
spider </span>= TmallSpider(domain=<span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(128, 0, 0, 1)">tmall.com</span><span style="color: rgba(128, 0, 0, 1)">\'</span><span style="color: rgba(0, 0, 0, 1)">)
runner </span>=<span style="color: rgba(0, 0, 0, 1)"> CrawlerRunner()
runner.crawl(spider)
...
d </span>=<span style="color: rgba(0, 0, 0, 1)"> runner.join()
d.addBoth(</span><span style="color: rgba(0, 0, 255, 1)">lambda</span><span style="color: rgba(0, 0, 0, 1)"> _: reactor.stop())
reactor.run()</span></pre>
</div>
<p>执行runcrawl.py文件，输出结果：</p>
<p style="text-align: center"><img src="/default/index/img?u=aHR0cHM6Ly9pbWFnZXMyMDE1LmNuYmxvZ3MuY29tL2Jsb2cvOTUzNzg2LzIwMTYwNy85NTM3ODYtMjAxNjA3MDYxMTU2NTI3ODAtMjIyOTM2ODk5LnBuZw%3D%3D" alt=""></p>
<h3 id="-3，展望"><strong>3，展望</strong></h3>
<p>以自定义DOWNLOADER_MIDDLEWARES调用PhantomJs的方式实现爬虫后，在阻塞框架的问题上纠结了很长的时间，一直在想解决的方式。后续会研究一下scrapyjs，splash等其他调用浏览器的方式看是否能有效的解决这个问题。</p>
<h3 id="-4，相关文档"><strong>4，相关文档</strong></h3>
<p>1， <a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9nb29zZWVrZXIvcC81NjA5NzQ1Lmh0bWw%3D" rel="noopener" target="_blank">Python即时网络爬虫：API说明</a></p>
<h3 id="-5，集搜客gooseeker开源代码下载源"><strong>5，集搜客GooSeeker开源代码下载源</strong></h3>
<p>1， <a href="https://github.com/FullerHua/gooseeker" rel="nofollow" target="_blank">GooSeeker开源Python网络爬虫GitHub源</a></p>
<h3 id="-6，文档修改历史"><strong>6，文档修改历史</strong></h3>
<p>1，2016-07-06：V1.0</p>
</div>


        </div>
        
    </div>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                <p>分类：</p> 
                                                                <p>技术点：</p>
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">原文链接：https://www.cnblogs.com/gooseeker/p/5646444.html</p>')  
            }) 
</script> 
</body>
</html>