array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>数据分析——数据处理实例 - 爱码网</title>
     
<meta name="keywords" content="数据分析——数据处理实例" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-699476.html" title="数据分析——数据处理实例">数据分析——数据处理实例</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc"> Tao-RY 
                <time class="post-date" datetime="2021-11-04">2021-11-04</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
    <!--done-->
    <div id="topics">
        <div class="post">
            
            
            <div class="postBody">
                <div id="likecs_post_body" class="blogpost-body blogpost-body-html">

                    
                    <svg xmlns="http://www.w3.org/2000/svg" style="display: none"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0)"></path></svg><p><strong>前言</strong>：自己也是小白，主要用作练习和熟悉方法，其实里面很多处理方法还是花了心思去想的（可能还是不是特别简便，特别是膜拜的那个问题，欢迎指正），不涉及算法知识，仅锻炼自己的数据处理能力，数据集如有需要指明用处可共享，这里推荐一篇文章<a href="https://mp.weixin.qq.com/s/9_fOrtB3z7979j_wJWR4hQ" rel="nofollow" target="_blank">Python数据分析实战基础</a><br><br><strong>数据分析专栏：</strong></p>
<ol>
<li><a href="https://blog.csdn.net/weixin_43008804/article/details/103108478" rel="nofollow" target="_blank">数据分析——python基础</a></li>
<li><a href="https://blog.csdn.net/weixin_43008804/article/details/101473747" rel="nofollow" target="_blank">数据分析——numpy</a></li>
<li><a href="https://blog.csdn.net/weixin_43008804/article/details/103108513" rel="nofollow" target="_blank">数据分析——pandas</a></li>
<li><a href="https://blog.csdn.net/weixin_43008804/article/details/103108533" rel="nofollow" target="_blank">数据分析——数据可视化</a></li>
<li><a href="https://blog.csdn.net/weixin_43008804/article/details/103045716" rel="nofollow" target="_blank">数据分析——数据处理实例</a></li>
</ol>
<p></p>
<div class="toc">
<h3>文章目录</h3>
<ul>
<li><a href="#_11" rel="nofollow" target="_blank">一、微博热点话题发现</a></li>
<li><a href="#_68" rel="nofollow" target="_blank">二、膜拜单车数据分析</a></li>
<li><a href="#2017B_121" rel="nofollow" target="_blank">三、2017国赛数模B题数据处理</a></li>
<li><a href="#_161" rel="nofollow" target="_blank">四、杭电宣讲会信息爬取</a></li>
<li><a href="#groupby_250" rel="nofollow" target="_blank">五、宣讲会信息统计——groupby</a></li>
</ul>
</div>
<p></p>
<h2>
<a id="_11" rel="noopener"></a>一、微博热点话题发现</h2>
<p><strong>数据介绍</strong>： Use of this dataset in publications must be acknowledged by referencing the following publication:<br>
King-wa Fu, CH Chan, Michael Chau. Assessing Censorship on Microblogs in China: Discriminatory Keyword Analysis and Impact Evaluation of the ‘Real Name Registration’ Policy. IEEE Internet Computing. 2013; 17(3): 42-50. http://doi.ieeecomputersociety.org/10.1109/MIC.2013.28<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTEzMTA0NzEyMzkxLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"><br><strong>我们的任务是提取热点话题，代码如下</strong>：</p>
<pre><code class="prism language-python"><span class="token comment"># -*- coding: utf-8 -*-</span>
<span class="token triple-quoted-string string">"""
Created on Sat Oct 12 18:51:28 2019
@author: try
"""</span>
 
<span class="token keyword">import</span> pandas <span class="token keyword">as</span> pd
<span class="token keyword">import</span> matplotlib<span class="token punctuation">.</span>pyplot <span class="token keyword">as</span> plt
<span class="token comment">#import re</span>
 
 
<span class="token comment">#读取数据</span>
user_data<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_table<span class="token punctuation">(</span>r<span class="token string">\'userdata.csv\'</span><span class="token punctuation">,</span>sep<span class="token operator">=</span><span class="token string">\',\'</span><span class="token punctuation">)</span>
week_data<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_table<span class="token punctuation">(</span>r<span class="token string">\'week1.csv\'</span><span class="token punctuation">,</span>sep<span class="token operator">=</span><span class="token string">\',\'</span><span class="token punctuation">,</span>encoding<span class="token operator">=</span><span class="token string">\'utf-8\'</span><span class="token punctuation">,</span>error_bad_lines<span class="token operator">=</span><span class="token boolean">False</span><span class="token punctuation">)</span>
V_count<span class="token operator">=</span>user_data<span class="token punctuation">[</span><span class="token string">\'verified\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token comment">#统计是否认证人数</span>
plt<span class="token punctuation">.</span>figure<span class="token punctuation">(</span><span class="token number">1</span><span class="token punctuation">)</span>
V_count<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'bar\'</span><span class="token punctuation">)</span><span class="token comment">#画是否认证人数对比图</span>
 
<span class="token comment">#统计发博和被转发次数</span>
uid_count<span class="token operator">=</span>week_data<span class="token punctuation">[</span><span class="token string">\'uid\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
retweeted_uid_count<span class="token operator">=</span>week_data<span class="token punctuation">[</span><span class="token string">\'retweeted_uid\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
<span class="token comment">#mid_data=mid_count.loc[mid_count&gt;10]</span>
 
<span class="token comment">#用dataframe进行正则提取，提取话题</span>
data_text<span class="token operator">=</span>week_data<span class="token punctuation">[</span><span class="token string">\'text\'</span><span class="token punctuation">]</span>
<span class="token comment">#str.extract用正则从字符数据中抽取匹配的数据，只返回第一个匹配的数据</span>
out_text<span class="token operator">=</span>data_text<span class="token punctuation">.</span><span class="token builtin">str</span><span class="token punctuation">.</span>extract<span class="token punctuation">(</span>r<span class="token string">\'#(.*?)#\'</span><span class="token punctuation">,</span>expand<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span>
out_text1<span class="token operator">=</span>out_text<span class="token punctuation">.</span>dropna<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token comment">#删除空行</span>
out_text1<span class="token operator">=</span>out_text1<span class="token punctuation">.</span>reset_index<span class="token punctuation">(</span>drop<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span><span class="token comment">#重新设置index</span>
out_text1<span class="token punctuation">.</span>columns<span class="token operator">=</span><span class="token punctuation">[</span><span class="token string">\'text_R\'</span><span class="token punctuation">]</span>
out_text1<span class="token punctuation">.</span>rename<span class="token punctuation">(</span>columns<span class="token operator">=</span><span class="token punctuation">{</span><span class="token string">\'text_R\'</span><span class="token punctuation">:</span><span class="token string">\'text\'</span><span class="token punctuation">}</span><span class="token punctuation">,</span>inplace<span class="token operator">=</span><span class="token boolean">True</span><span class="token punctuation">)</span>
 
<span class="token comment">#对话题统计</span>
out_text_count<span class="token operator">=</span>out_text1<span class="token punctuation">[</span><span class="token string">\'text\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token comment">#统计话题数目</span>
out_text_count<span class="token operator">=</span>out_text_count<span class="token punctuation">.</span>loc<span class="token punctuation">[</span>out_text_count<span class="token operator">&gt;</span><span class="token number">1000</span><span class="token punctuation">]</span>
plt<span class="token punctuation">.</span>figure<span class="token punctuation">(</span><span class="token number">2</span><span class="token punctuation">)</span>
out_text_count<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'bar\'</span><span class="token punctuation">,</span>width<span class="token operator">=</span><span class="token number">0.8</span><span class="token punctuation">)</span>
 
<span class="token comment">#转发次数分区间统计</span>
t_data<span class="token operator">=</span>week_data<span class="token punctuation">[</span><span class="token string">\'retweeted_uid\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
Se_t<span class="token operator">=</span>pd<span class="token punctuation">.</span>Series<span class="token punctuation">(</span>t_data<span class="token punctuation">)</span>
<span class="token comment">#分区间统计</span>
bin_t<span class="token operator">=</span><span class="token builtin">range</span><span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">,</span><span class="token number">3000</span><span class="token punctuation">,</span><span class="token number">100</span><span class="token punctuation">)</span>
count_t<span class="token operator">=</span>pd<span class="token punctuation">.</span>cut<span class="token punctuation">(</span>Se_t<span class="token punctuation">,</span>bin_t<span class="token punctuation">)</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>figure<span class="token punctuation">(</span><span class="token number">3</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>title<span class="token punctuation">(</span><span class="token string">\'被转发次数统计\'</span><span class="token punctuation">)</span>
count_t<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'bar\'</span><span class="token punctuation">)</span>
</code></pre>
<p><strong>提取结果如下</strong>：<br>
​​<img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTEzMTA1NDQzMzk1LnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"><br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTEzMTA1NTAzNTA0LnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"></p>
<h2>
<a id="_68" rel="noopener"></a>二、膜拜单车数据分析</h2>
<p><strong>数据</strong>：2017年5月两周内，北京40余万辆摩拜单车被30余万摩拜用户的使用情况(该开源数据来源于2017年摩拜算法挑战赛)。数据包含300余万条出行记录数据，每条的数据包含了订单号(orderid )、用户编号(userid )、单车编号(bikeid)、单车类(biketype)、开始使用单车时间(starttime)、使用起点坐标(startloc)和使用终点坐标(endloc)，其中起点和终点坐标经过了geohash加密（数据考虑到各方面原因，就不放出来了）<br><strong>python代码如下</strong>：</p>
<pre><code class="prism language-python"><span class="token comment"># -*- coding: utf-8 -*-</span>
<span class="token triple-quoted-string string">"""
Spyder Editor
This is a temporary script file.
"""</span>
 
<span class="token keyword">import</span> pandas <span class="token keyword">as</span> pd
<span class="token keyword">import</span> geohash
 
<span class="token comment">#读取</span>
data<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_csv<span class="token punctuation">(</span>r<span class="token string">\'mobike_train_data.csv\'</span><span class="token punctuation">,</span>sep<span class="token operator">=</span><span class="token string">\',\'</span><span class="token punctuation">)</span>
 
<span class="token comment">#日期格式处理</span>
data<span class="token punctuation">.</span>starttime<span class="token operator">=</span>data<span class="token punctuation">.</span>starttime<span class="token punctuation">.</span>astype<span class="token punctuation">(</span><span class="token string">\'str\'</span><span class="token punctuation">)</span>
data<span class="token punctuation">.</span>starttime<span class="token operator">=</span>pd<span class="token punctuation">.</span>to_datetime<span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token punctuation">,</span><span class="token builtin">format</span><span class="token operator">=</span><span class="token string">\'%Y-%m-%d %H:%M:%S\'</span><span class="token punctuation">)</span>
data<span class="token operator">=</span>data<span class="token punctuation">.</span>dropna<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token comment">#缺失值删除</span>
 
<span class="token comment">#geohash解码</span>
data<span class="token punctuation">[</span><span class="token string">"start_lat_lng"</span><span class="token punctuation">]</span> <span class="token operator">=</span> data<span class="token punctuation">[</span><span class="token string">"geohashed_start_loc"</span><span class="token punctuation">]</span><span class="token punctuation">.</span><span class="token builtin">apply</span><span class="token punctuation">(</span><span class="token keyword">lambda</span> s<span class="token punctuation">:</span> geohash<span class="token punctuation">.</span>decode<span class="token punctuation">(</span>s<span class="token punctuation">)</span><span class="token punctuation">)</span>   
data<span class="token punctuation">[</span><span class="token string">"end_lat_lng"</span><span class="token punctuation">]</span> <span class="token operator">=</span> data<span class="token punctuation">[</span><span class="token string">"geohashed_end_loc"</span><span class="token punctuation">]</span><span class="token punctuation">.</span><span class="token builtin">apply</span><span class="token punctuation">(</span><span class="token keyword">lambda</span> s<span class="token punctuation">:</span> geohash<span class="token punctuation">.</span>decode<span class="token punctuation">(</span>s<span class="token punctuation">)</span><span class="token punctuation">)</span>
 
 
<span class="token comment">#筛选14-24号的数据</span>
data_14<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-14 23:59:59\'</span><span class="token punctuation">]</span>
data_15<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-15 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-14 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_16<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-16 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-15 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
<span class="token comment">#data_17=data.loc[(data.starttime&lt;=\'2017-05-17 23:59:59\')&amp;(data.starttime&gt;\'2017-05-16 23:59:59\')]</span>
<span class="token comment">#17号数据是空的</span>
data_18<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-18 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-17 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_19<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-19 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-18 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_20<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-20 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-19 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_21<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-21 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-20 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_22<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-22 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-21 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_23<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-23 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-22 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
data_24<span class="token operator">=</span>data<span class="token punctuation">.</span>loc<span class="token punctuation">[</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&lt;=</span><span class="token string">\'2017-05-24 23:59:59\'</span><span class="token punctuation">)</span><span class="token operator">&amp;</span><span class="token punctuation">(</span>data<span class="token punctuation">.</span>starttime<span class="token operator">&gt;</span><span class="token string">\'2017-05-23 23:59:59\'</span><span class="token punctuation">)</span><span class="token punctuation">]</span>
 
<span class="token comment">#统计14号数据</span>
bike_count_14<span class="token operator">=</span>data_14<span class="token punctuation">[</span><span class="token string">\'bikeid\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
user_count_14<span class="token operator">=</span>data_14<span class="token punctuation">[</span><span class="token string">\'userid\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span>
 
<span class="token comment">#时间分区间统计</span>
<span class="token builtin">bin</span><span class="token operator">=</span>pd<span class="token punctuation">.</span>date_range<span class="token punctuation">(</span>start<span class="token operator">=</span><span class="token string">\'2017-05-14 00:00:00\'</span><span class="token punctuation">,</span>end<span class="token operator">=</span><span class="token string">\'2017-05-15 00:00:00\'</span><span class="token punctuation">,</span>freq<span class="token operator">=</span><span class="token string">\'0.5H\'</span><span class="token punctuation">)</span>
data_scattertime<span class="token operator">=</span>pd<span class="token punctuation">.</span>cut<span class="token punctuation">(</span>data_14<span class="token punctuation">[</span><span class="token string">\'starttime\'</span><span class="token punctuation">]</span><span class="token punctuation">,</span><span class="token builtin">bin</span><span class="token punctuation">)</span>
scattertime_count<span class="token operator">=</span>data_scattertime<span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span>sort<span class="token operator">=</span><span class="token boolean">False</span><span class="token punctuation">)</span>
scattertime_count<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'line\'</span><span class="token punctuation">)</span>
</code></pre>
<p><strong>14号的分时间段的订单量结果图</strong>：<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTEzMTA1NzAzOTkxLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"></p>
<h2>
<a id="2017B_121" rel="noopener"></a>三、2017国赛数模B题数据处理</h2>
<p>之所以选择这一题进行练习，是因为这一题涉及地图、经纬度相关模块和方法<br><strong>代码如下</strong>：</p>
<pre><code class="prism language-python"><span class="token comment"># -*- coding: utf-8 -*-</span>
<span class="token triple-quoted-string string">"""
Created on Fri Oct 18 20:17:00 2019
@author: 1
"""</span>
 
<span class="token keyword">import</span> pandas <span class="token keyword">as</span> pd
<span class="token keyword">import</span> matplotlib<span class="token punctuation">.</span>pyplot <span class="token keyword">as</span> plt
<span class="token keyword">import</span> smopy
 
<span class="token comment">#读取数据</span>
df<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_excel<span class="token punctuation">(</span><span class="token string">\'附件一：已结束项目任务数据.xls\'</span><span class="token punctuation">)</span>
 
<span class="token comment">#地图上画出任务的坐标</span>
hz<span class="token operator">=</span>smopy<span class="token punctuation">.</span>Map<span class="token punctuation">(</span><span class="token punctuation">(</span><span class="token number">22.45</span><span class="token punctuation">,</span> <span class="token number">112.65</span><span class="token punctuation">,</span> <span class="token number">23.9</span><span class="token punctuation">,</span> <span class="token number">114.5</span><span class="token punctuation">)</span><span class="token punctuation">,</span>z<span class="token operator">=</span><span class="token number">10</span><span class="token punctuation">)</span>
<span class="token comment">#hz.show_ipython()</span>
<span class="token comment">#其中需要输入的参数为(lat_min, lon_min, lat_max, lon_max)，即区域的经纬度范围。z为缩放程度，如果不指定的话smopy会自动使用最大缩放程度。</span>
x<span class="token punctuation">,</span> y <span class="token operator">=</span> hz<span class="token punctuation">.</span>to_pixels<span class="token punctuation">(</span>df<span class="token punctuation">[</span><span class="token string">\'任务gps 纬度\'</span><span class="token punctuation">]</span><span class="token punctuation">,</span> df<span class="token punctuation">[</span><span class="token string">\'任务gps经度\'</span><span class="token punctuation">]</span><span class="token punctuation">)</span>
ax <span class="token operator">=</span> hz<span class="token punctuation">.</span>show_mpl<span class="token punctuation">(</span>figsize<span class="token operator">=</span><span class="token punctuation">(</span><span class="token number">8</span><span class="token punctuation">,</span> <span class="token number">6</span><span class="token punctuation">)</span><span class="token punctuation">)</span>
ax<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>x<span class="token punctuation">,</span> y<span class="token punctuation">,</span> <span class="token string">\'or\'</span><span class="token punctuation">,</span> ms<span class="token operator">=</span><span class="token number">2</span><span class="token punctuation">)</span>
 
 
<span class="token comment">#找定价高的地方</span>
df_max<span class="token operator">=</span>df<span class="token punctuation">.</span>loc<span class="token punctuation">[</span>df<span class="token punctuation">[</span><span class="token string">\'任务标价\'</span><span class="token punctuation">]</span><span class="token operator">&gt;=</span><span class="token number">70</span><span class="token punctuation">]</span>
x1<span class="token punctuation">,</span> y1 <span class="token operator">=</span> hz<span class="token punctuation">.</span>to_pixels<span class="token punctuation">(</span>df_max<span class="token punctuation">[</span><span class="token string">\'任务gps 纬度\'</span><span class="token punctuation">]</span><span class="token punctuation">,</span> df_max<span class="token punctuation">[</span><span class="token string">\'任务gps经度\'</span><span class="token punctuation">]</span><span class="token punctuation">)</span>
ax<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>x1<span class="token punctuation">,</span>y1<span class="token punctuation">,</span><span class="token string">\'ob\'</span><span class="token punctuation">,</span>ms<span class="token operator">=</span><span class="token number">2</span><span class="token punctuation">)</span>
 
<span class="token comment">#读取会员数据</span>
df_vip<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_table<span class="token punctuation">(</span><span class="token string">\'附件二：会员信息数据.csv\'</span><span class="token punctuation">,</span>sep<span class="token operator">=</span><span class="token string">\'\\s+\'</span><span class="token punctuation">)</span>
x2<span class="token punctuation">,</span>y2<span class="token operator">=</span>hz<span class="token punctuation">.</span>to_pixels<span class="token punctuation">(</span>df_vip<span class="token punctuation">[</span><span class="token string">\'纬度\'</span><span class="token punctuation">]</span><span class="token punctuation">,</span>df_vip<span class="token punctuation">[</span><span class="token string">\'纬度\'</span><span class="token punctuation">]</span><span class="token punctuation">)</span>
ax<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>x2<span class="token punctuation">,</span>y2<span class="token punctuation">,</span><span class="token string">\'og\'</span><span class="token punctuation">,</span>ms<span class="token operator">=</span><span class="token number">2</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>show<span class="token punctuation">(</span><span class="token punctuation">)</span>
</code></pre>
<p><strong>处理结果</strong>：<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTEzMTEwMTQ3NDcyLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"></p>
<h2>
<a id="_161" rel="noopener"></a>四、杭电宣讲会信息爬取</h2>
<p><strong>爬取内容：</strong> 宣讲单位，宣讲时间，所在学校，宣讲地点，单位简介等<br><strong>项目需求</strong></p>
<ol>
<li>实现两层网页的信息爬取，并将爬取的信息进行整合保存到 excel 文件中。<br>
（1） 基础：爬取一个外层页中，所有内层页的信息<br>
（2） 进阶：爬取多个外层页中， 所有内层页的信息</li>
<li>每个题目中， 至少爬取上述给定爬取内容中的五项。</li>
<li>自学数据可视化方法，将爬取结果以曲线图、 柱状图等方式显示。<br><strong>代码如下</strong>：</li>
</ol>
<pre><code class="prism language-python"><span class="token comment"># -*- coding: utf-8 -*-</span>
<span class="token triple-quoted-string string">"""
Created on Sat Nov  2 20:29:39 2019

@author: 1
"""</span>

<span class="token keyword">import</span> requests <span class="token comment"># 导入网页请求库</span>
<span class="token keyword">from</span> bs4 <span class="token keyword">import</span> BeautifulSoup <span class="token comment"># 导入网页解析库</span>
<span class="token keyword">import</span> pandas <span class="token keyword">as</span> pd
<span class="token keyword">import</span> json
<span class="token keyword">import</span> re

<span class="token comment">#http://career.hdu.edu.cn/module/getcareers?start_page=1&amp;k=&amp;panel_name=&amp;type=inner&amp;day=&amp;count=15&amp;start=1&amp;_=1572698708166    第一页</span>
<span class="token comment">#http://career.hdu.edu.cn/module/getcareers?start_page=1&amp;k=&amp;panel_name=&amp;type=inner&amp;day=&amp;count=15&amp;start=2&amp;_=1572698708167    第二页</span>
<span class="token comment">#http://career.hdu.edu.cn/module/getcareers?start_page=1&amp;k=&amp;panel_name=&amp;type=inner&amp;day=&amp;count=15&amp;start=3&amp;_=1572698708168    第三页</span>
<span class="token comment">#http://career.hdu.edu.cn/module/careers?menu_id=6438</span>

<span class="token comment">#http://career.hdu.edu.cn/detail/career?id=career_talk_id 二级网页</span>
<span class="token comment"># 发起请求</span>
<span class="token keyword">def</span> <span class="token function">start_requests</span><span class="token punctuation">(</span>url<span class="token punctuation">)</span><span class="token punctuation">:</span>
    <span class="token comment">#print(url) # 查看在抓取哪个链接</span>
    r <span class="token operator">=</span> requests<span class="token punctuation">.</span>get<span class="token punctuation">(</span>url<span class="token punctuation">)</span>
    <span class="token keyword">return</span> r<span class="token punctuation">.</span>text

<span class="token comment"># 解析一级网页，获取career_talk_id列表</span>
<span class="token keyword">def</span> <span class="token function">get_id</span><span class="token punctuation">(</span>text<span class="token punctuation">)</span><span class="token punctuation">:</span>
    <span class="token comment">#soup = BeautifulSoup(text, \'html.parser\')</span>
    list_id<span class="token operator">=</span><span class="token punctuation">[</span><span class="token punctuation">]</span>
    content<span class="token operator">=</span>json<span class="token punctuation">.</span>loads<span class="token punctuation">(</span>text<span class="token punctuation">)</span>
    <span class="token keyword">for</span> item <span class="token keyword">in</span> content<span class="token punctuation">[</span><span class="token string">\'data\'</span><span class="token punctuation">]</span><span class="token punctuation">:</span>
        list_id<span class="token punctuation">.</span>append<span class="token punctuation">(</span>item<span class="token punctuation">[</span><span class="token string">\'career_talk_id\'</span><span class="token punctuation">]</span><span class="token punctuation">)</span>
    <span class="token keyword">return</span> list_id<span class="token comment">#返回序列</span>

<span class="token comment"># 解析二级网页，获取公司简介信息</span>
<span class="token keyword">def</span> <span class="token function">parse_page</span><span class="token punctuation">(</span>text<span class="token punctuation">)</span><span class="token punctuation">:</span>
    mydict<span class="token operator">=</span><span class="token punctuation">{</span><span class="token punctuation">}</span>
    soup <span class="token operator">=</span> BeautifulSoup<span class="token punctuation">(</span>text<span class="token punctuation">,</span> <span class="token string">\'html.parser\'</span><span class="token punctuation">)</span>
    pattern<span class="token operator">=</span>re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span>r<span class="token string">\'[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5\d+]\'</span><span class="token punctuation">)</span>
    <span class="token comment">#data_name=soup.find(\'h1\',class_="dm-text",style="font-weight:normal;").text.split(\'宣讲单位：\')[1]</span>
    data_name<span class="token operator">=</span>pattern<span class="token punctuation">.</span>findall<span class="token punctuation">(</span>soup<span class="token punctuation">.</span>find<span class="token punctuation">(</span><span class="token string">\'h1\'</span><span class="token punctuation">,</span>class_<span class="token operator">=</span><span class="token string">"dm-text"</span><span class="token punctuation">,</span>style<span class="token operator">=</span><span class="token string">"font-weight:normal;"</span><span class="token punctuation">)</span><span class="token punctuation">.</span>text<span class="token punctuation">.</span>split<span class="token punctuation">(</span><span class="token string">\'宣讲单位：\'</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">1</span><span class="token punctuation">]</span><span class="token punctuation">)</span>
    data_company<span class="token operator">=</span>pattern<span class="token punctuation">.</span>findall<span class="token punctuation">(</span><span class="token builtin">str</span><span class="token punctuation">(</span>soup<span class="token punctuation">.</span>select<span class="token punctuation">(</span><span class="token string">\'#data_details &gt; div.main &gt; div &gt; div:nth-child(2) &gt; div.dm-cont\'</span><span class="token punctuation">)</span><span class="token punctuation">)</span><span class="token punctuation">)</span>
    <span class="token comment">#div class="dm-cont" style="font-size:14px;line-height:22px;"</span>
    data_time<span class="token operator">=</span>soup<span class="token punctuation">.</span>find_all<span class="token punctuation">(</span><span class="token string">\'p\'</span><span class="token punctuation">,</span>class_<span class="token operator">=</span><span class="token string">"dm-text"</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">0</span><span class="token punctuation">]</span><span class="token punctuation">.</span>text<span class="token punctuation">.</span>split<span class="token punctuation">(</span><span class="token string">\'宣讲时间：\'</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">1</span><span class="token punctuation">]</span>
    data_school<span class="token operator">=</span>soup<span class="token punctuation">.</span>find_all<span class="token punctuation">(</span><span class="token string">\'p\'</span><span class="token punctuation">,</span>class_<span class="token operator">=</span><span class="token string">"dm-text"</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">1</span><span class="token punctuation">]</span><span class="token punctuation">.</span>text<span class="token punctuation">.</span>split<span class="token punctuation">(</span><span class="token string">\'所在学校：\'</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">1</span><span class="token punctuation">]</span>
    data_place<span class="token operator">=</span>soup<span class="token punctuation">.</span>find_all<span class="token punctuation">(</span><span class="token string">\'p\'</span><span class="token punctuation">,</span>class_<span class="token operator">=</span><span class="token string">"dm-text"</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">2</span><span class="token punctuation">]</span><span class="token punctuation">.</span>text<span class="token punctuation">.</span>split<span class="token punctuation">(</span><span class="token string">\'宣讲地点：\'</span><span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">1</span><span class="token punctuation">]</span>
    str_data<span class="token operator">=</span><span class="token string">\'\'</span><span class="token punctuation">.</span>join<span class="token punctuation">(</span>data_company<span class="token punctuation">)</span>
    str_name<span class="token operator">=</span><span class="token string">\'\'</span><span class="token punctuation">.</span>join<span class="token punctuation">(</span>data_name<span class="token punctuation">)</span>
    mydict<span class="token punctuation">[</span><span class="token string">\'宣讲地点\'</span><span class="token punctuation">]</span><span class="token operator">=</span>data_place
    mydict<span class="token punctuation">[</span><span class="token string">\'公司简介\'</span><span class="token punctuation">]</span><span class="token operator">=</span>str_data<span class="token punctuation">.</span>replace<span class="token punctuation">(</span><span class="token string">\'1422\'</span><span class="token punctuation">,</span><span class="token string">\'\'</span><span class="token punctuation">)</span>
    mydict<span class="token punctuation">[</span><span class="token string">\'宣讲学校\'</span><span class="token punctuation">]</span><span class="token operator">=</span>data_school
    mydict<span class="token punctuation">[</span><span class="token string">\'宣讲单位\'</span><span class="token punctuation">]</span><span class="token operator">=</span>str_name
    mydict<span class="token punctuation">[</span><span class="token string">\'宣讲时间\'</span><span class="token punctuation">]</span><span class="token operator">=</span>data_time
    <span class="token keyword">return</span> mydict<span class="token comment">#返回字典</span>

<span class="token comment">#数据整理</span>
<span class="token keyword">def</span> <span class="token function">get_result</span><span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">:</span>
    <span class="token keyword">for</span> i <span class="token keyword">in</span> <span class="token builtin">range</span><span class="token punctuation">(</span><span class="token number">1572698708166</span><span class="token punctuation">,</span> <span class="token number">1572698708168</span><span class="token punctuation">)</span><span class="token punctuation">:</span>
        url <span class="token operator">=</span> <span class="token string">\'http://career.hdu.edu.cn/module/getcareers?start_page=1&amp;k=&amp;panel_name=&amp;type=inner&amp;day=&amp;count=15&amp;start={}&amp;_={}\'</span><span class="token punctuation">.</span><span class="token builtin">format</span><span class="token punctuation">(</span>i<span class="token operator">-</span><span class="token number">1572698708165</span><span class="token punctuation">,</span>i<span class="token punctuation">)</span>
        text <span class="token operator">=</span> start_requests<span class="token punctuation">(</span>url<span class="token punctuation">)</span>
        list_id<span class="token operator">=</span> get_id<span class="token punctuation">(</span>text<span class="token punctuation">)</span> <span class="token comment"># 解析一级页面,获取二级页面的career_talk_id</span>
        <span class="token keyword">for</span> career_id <span class="token keyword">in</span> list_id<span class="token punctuation">:</span> <span class="token comment"># 解析二级页面 </span>
            url_2<span class="token operator">=</span><span class="token string">\'http://career.hdu.edu.cn/detail/career?id={}\'</span><span class="token punctuation">.</span><span class="token builtin">format</span><span class="token punctuation">(</span>career_id<span class="token punctuation">)</span>
            page <span class="token operator">=</span> start_requests<span class="token punctuation">(</span>url_2<span class="token punctuation">)</span>
            mydict<span class="token operator">=</span> parse_page<span class="token punctuation">(</span>page<span class="token punctuation">)</span><span class="token comment">#dict的信息</span>
            result_list<span class="token punctuation">.</span>append<span class="token punctuation">(</span>mydict<span class="token punctuation">)</span>
    <span class="token keyword">return</span> result_list<span class="token comment">#返回列表    </span>

<span class="token comment">#运行，可视化+写入excel</span>
<span class="token keyword">if</span> __name__ <span class="token operator">==</span> <span class="token string">\'__main__\'</span><span class="token punctuation">:</span>
    result_list<span class="token operator">=</span><span class="token punctuation">[</span><span class="token punctuation">]</span>
    result_list<span class="token operator">=</span>get_result<span class="token punctuation">(</span><span class="token punctuation">)</span>
    df<span class="token operator">=</span>pd<span class="token punctuation">.</span>DataFrame<span class="token punctuation">(</span>result_list<span class="token punctuation">)</span>
    df<span class="token punctuation">[</span><span class="token string">\'宣讲时间\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>value_counts<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'bar\'</span><span class="token punctuation">)</span>
    df<span class="token punctuation">.</span>to_excel<span class="token punctuation">(</span><span class="token string">\'data.xlsx\'</span><span class="token punctuation">)</span>
 
</code></pre>
<p>最终得到data.xlsx和一个宣讲时间数量统计图（属实无聊，但是作业要做hhhhh）：<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTA5MjAwMDA3OTYxLnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"></p>
<h2>
<a id="groupby_250" rel="noopener"></a>五、宣讲会信息统计——groupby</h2>
<p>现有数据如下格式：<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTA3MTk0MzQ1MzQ4LnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzEwLHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzE2LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"><br>
我们需要根据日期统计日点击量，画出日点击量图<br><strong>代码如下</strong>：</p>
<pre><code class="prism language-python"><span class="token comment"># -*- coding: utf-8 -*-</span>
<span class="token triple-quoted-string string">"""
Created on Thu Nov  7 18:39:18 2019

@author: 1
"""</span>

<span class="token keyword">import</span> pandas <span class="token keyword">as</span> pd
<span class="token keyword">from</span> matplotlib <span class="token keyword">import</span> pyplot <span class="token keyword">as</span> plt

df<span class="token operator">=</span>pd<span class="token punctuation">.</span>read_excel<span class="token punctuation">(</span><span class="token string">\'test.xls\'</span><span class="token punctuation">,</span>header<span class="token operator">=</span><span class="token boolean">None</span><span class="token punctuation">)</span>
df<span class="token punctuation">.</span>columns<span class="token operator">=</span><span class="token punctuation">[</span><span class="token string">\'公司\'</span><span class="token punctuation">,</span><span class="token string">\'时间\'</span><span class="token punctuation">,</span><span class="token string">\'地点\'</span><span class="token punctuation">,</span><span class="token string">\'学校\'</span><span class="token punctuation">,</span><span class="token string">\'地点\'</span><span class="token punctuation">,</span><span class="token string">\'点击量\'</span><span class="token punctuation">]</span>
df<span class="token punctuation">[</span><span class="token string">\'time\'</span><span class="token punctuation">]</span><span class="token operator">=</span>df<span class="token punctuation">[</span><span class="token string">\'时间\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span><span class="token builtin">str</span><span class="token punctuation">.</span>extract<span class="token punctuation">(</span>r<span class="token string">\'(\d+年\d+月\d+日)\'</span><span class="token punctuation">,</span> expand<span class="token operator">=</span><span class="token boolean">False</span><span class="token punctuation">)</span>
df_new<span class="token operator">=</span>df<span class="token punctuation">.</span>iloc<span class="token punctuation">[</span><span class="token punctuation">:</span><span class="token punctuation">,</span><span class="token punctuation">[</span><span class="token number">5</span><span class="token punctuation">,</span><span class="token number">6</span><span class="token punctuation">]</span><span class="token punctuation">]</span>
df_sum<span class="token operator">=</span>df_new<span class="token punctuation">[</span><span class="token string">\'点击量\'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>groupby<span class="token punctuation">(</span>df_new<span class="token punctuation">[</span><span class="token string">\'time\'</span><span class="token punctuation">]</span><span class="token punctuation">)</span><span class="token punctuation">.</span><span class="token builtin">sum</span><span class="token punctuation">(</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>figure<span class="token punctuation">(</span><span class="token number">1</span><span class="token punctuation">)</span>
df_sum<span class="token punctuation">.</span>plot<span class="token punctuation">(</span>kind<span class="token operator">=</span><span class="token string">\'bar\'</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>xlabel<span class="token punctuation">(</span><span class="token string">\'日期\'</span><span class="token punctuation">)</span>
plt<span class="token punctuation">.</span>ylabel<span class="token punctuation">(</span><span class="token string">\'点击量\'</span><span class="token punctuation">)</span>
</code></pre>
<p>df.groupby会生成GroupBy的对象，可以调用mean(), count(), sum()等方法产生一个Series，其中索引为‘id’中的唯一值，去除重复值。格式：df.groupby（df[‘含重复值的列’]）.计算函数（）</p>
<p><strong>得出结果如下</strong>：<br><img src="/default/index/img?u=aHR0cHM6Ly9pbWctYmxvZy5jc2RuaW1nLmNuLzIwMTkxMTA3MTk1NzQ5ODg2LnBuZz94LW9zcy1wcm9jZXNzPWltYWdlL3dhdGVybWFyayx0eXBlX1ptRnVaM3BvWlc1bmFHVnBkR2ssc2hhZG93XzE1LHRleHRfYUhSMGNITTZMeTlpYkc5bkxtTnpaRzR1Ym1WMEwzZGxhWGhwYmw4ME16QXdPRGd3TkE9PSxzaXplXzI1LGNvbG9yX0ZGRkZGRix0Xzcw" alt="在这里插入图片描述"></p>

                                    
</div>


            </div>
            
        </div>
	    
	    
    </div>
<!--end: topics 文章、评论容器-->
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                <p>分类：</p> 
                                                                <p>技术点：</p>
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">原文链接：https://www.cnblogs.com/Tao-RY/p/11945687.html</p>')  
            }) 
</script> 
</body>
</html>