数据分析

R数据分析:扫盲贴,什么是多重插补

好多同学跑来问,用spss的时候使用多重插补的数据集,怎么选怎么用?是不是简单的选一个做分析?今天写写这个问题。 什么时候用多重插补 首先回顾下三种缺失机制或者叫缺失类型: 上面的内容之前写过,这儿就不给大家翻译了,完全随机缺失,缺失量较小的情况下你直接扔掉或者任你怎么插补都可以,影响不大的。随机缺 ... »

巧用VBA实现:基于多个关键词模糊匹配Excel多行数据

在用Excel处理实际业务中,我们会碰到如下场景: 1、从一堆人名中找到包含某些关键字的名字; 2、从银行流水文件中根据【备注】字段找到包含某些关键字的,统一识别为【手续费业务】等。 这本质说的都是一类问题:如何从数据集中,根据业务需求配置的多个关键字,匹配得到对应的行项目。这个问题有好的办法吗? ... »

new-june

Pandas数据分析之groupby函数用法实例详解

目录 正文 一、了解groupby 二、数据文件简介 三、求各个商品购买量 四、求各个商品转化率 五、转化率最高的30个商品及其转化率 小小の总结 正文 今天本人在赶学校课程作业的时候突然发现groupby这个分组函数还是蛮有用的,有了这个分组之后你可以实现很多统计目标。 当然,最主要的 »

Seaborn数据分析NBA球员信息数据集

目录 1. 数据介绍 2. 案例演示 2.1 获取数据 2.2 查看数据基本信息 2.3 数据分析 2.3.1 效率值相关性分析 本案例使用 Jupyter Notebook进行案例演示,数据集为NBA球员信息数据集。本项目将进行完整的数据分析演示。 1. 数据介绍 数据集共有34 »

Python数据分析之matplotlib绘图详解

目录 多子图 散点图 水平柱状图 同位置柱状图 多子图 figure是绘制对象(可以理解为一个空白的画布),一个figure对象可以包含多个Axes子图,一个Axes是一个绘图区域,不加设置时,Axes为1,且每次绘图其实都是在figure上的Axes上绘图。 我们是在图形对象上面的Ax »

【可视化大屏教程】用Python开发智慧城市数据分析大屏!

一、开发背景 您好,我是 @马哥python说 ,这是我独立开发的Python可视化大屏,看下演示效果: 截图: 视频演示效果: https://www.zhihu.com/zvideo/1556218745923821568 这个大屏,是通过pyecharts可视化开发框架实现。 下面详细介绍,这 ... »

mashukui

Python爬取奶茶店数据分析哪家最好喝以及性价比

目录 序篇 数据获取 数据清洗 数据可视化 热门城市奶茶店铺数量情况 特色奶茶分布情况 大众奶茶分布情况 总结 序篇 天气真的很热啊… 很想有一杯冰冰凉凉的奶茶来解渴~ 但是现在奶茶店这么多, 到底哪一家最好喝、性价比最高呢? 数据获取 本文抓取了12个热门城市的奶茶店名单, 城 »

Python数据分析教程(二):Pandas

Pandas导入 Pandas是Python第三方库,提供高性能易用数据类型和分析工具 Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用 两个数据类型:Series, DataFrame import pandas as pd Pandas与numpy的比较 Pandas ... »

Python数据分析教程(一):Numpy

原文链接:https://blog.onefly.top/posts/13140.html 数据的纬度 一维数据:列表和集合类型 二维数据:列表类型 多维数据:列表类型 高维数据:字典类型或数据表示格式,如json、xml、yaml 维度:一组数据的组织形式 列表和数组:一组数据的有序结构 Nump ... »

大规模数据分析统一引擎Spark最新版本3.3.0入门实战

本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spar... ... »

itxiaoshen

数据分析与数据挖掘研究之一

前言:之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。 一、标题:Ef ... »

wydilearn

Python利用Pandas进行数据分析的方法详解

目录 Series 代码 #1 代码 #2 代码#3 代码 #4 数据框 代码 #1 代码 #2 代码 #3 代码 #4 Pandas是最流行的用于数据分析的 Python 库。它提供高度优化的性能,后端源代码完全用C或Python编写。 我们可以通过以下方式分析 pandas 中的 »

(WebFlux)003、多数据源R2dbc事务失效分析

一、背景 最近项目持续改造,然后把SpringMVC换成了SpringWebflux,然后把Mybatis换成了R2dbc。中间没有遇到什么问题,一切都那么的美滋滋,直到最近一个新需求的出现,打破了往日的宁静。 在对需求分析了一番后,需要引入新的数据源,那就是MongoDb。然后出现了MongoDb ... »

python文件数据分析治理提取

目录 前提提要 要求 思路 代码 运行结果 分析 1)读取文件 2)读取数据 3)数据整理 4)正则表达式匹配外加数据去重 6)数据导出保存 前提提要 python2.0有无法直接读取中文路径的问题,需要另外写函数。python3.0在2018年的时候也无法直接读取。 现在使用的时候 »