jinzhuduoduo

1. 数据采集

 

2.数据存储

 

无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。

 

比如:

 

数据存储系统是MySql、Oracle、SQL Server还是其他系统。

 

数据仓库结构及各库表如何关联,星型、雪花型还是其他。

 

生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。

 

生产数据库面对异常值如何处理,强制转换、留空还是返回错误。

 

生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。

 

接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。

 

数据仓库数据的更新更新机制是什么,全量更新还是增量更新。

 

不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。

 

3.数据提取

 

数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。

 

从哪取,数据来源——不同的数据源得到的数据结果未必一致。

 

何时取,提取时间——不同时间取出来的数据结果未必一致。

 

如何取,提取规则——不同提取规则下的数据结果很难一致。

 

 

4.数据挖掘

数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:

没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。

 

没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。

 

挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。

 

在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。

 

5.数据分析

数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。

 

6.数据展现

数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。

基本素质要求如下:

工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。

 

7.数据应用

数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。

 

在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。

 

 

 

在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。

 

分类:

技术点:

相关文章:

  • 2021-12-05
  • 2021-09-09
  • 2021-09-17
  • 2021-10-31
  • 2021-06-04
  • 2021-09-21
  • 2021-08-30
猜你喜欢
  • 2021-10-02
  • 2021-06-16
  • 2021-05-16
  • 2022-01-08
  • 2021-04-03
  • 2021-07-08
  • 2021-10-07
相关资源
相似解决方案