特征理解

  1. 结构化与非结构化数据
  2. 定量与定性数据
  3. 数据的4个等级
  4. EDA与数据可视化
  5. 描述性统计

一、结构化与非结构化

  • 结构化数据
    一般以表格形式组织,行是观察值,列是特征

  • 非结构化数据
    不遵循标准组织结构的数据,通常是一团的,或只有一列。例如服务器日志和推文

二、定量数据与定性数据

  • 定量数据本质上是数值,应该是衡量某样东西的数量。
  • 定性数据本质上是类别,应该是描述某样东西的性质。

如:今天的降雨量是定量,今天的天气是晴天还是阴天是定性。
数据可能同时是定量和定性,如餐厅评分,虽然是数值,但是这个数也可以代表类别。要按照实际问题去看,如果是星级系统打分,那么是定量。如果是评价(讨厌、一般、喜欢),那么是定性。

数据的4个等级

  • 定类等级 nominal level
  • 定序等级 ordinal level
  • 定距等级 interval level
  • 定比等级 ratio level

不同等级决定了它可以执行的可视化类型和操作。按照以上顺序,逐渐包含上一层的所有属性。

  1. 定类等级
    结构最弱,数据只按名称分类,如人名、物种名。都是定性的
    不可执行数学操作
    可以查看不同类别出现频率,可以绘制图表,如条形图、饼图
    例子:最普通的种类划分,如工种,既没有可比性,也无法计算

  2. 定序等级
    数据可以自然排序,代表数据之间有比较性。也是处理定性数据
    不可执行数学操作
    可以计数,同时可以比较和排序,能计算中位数和百分位数,可绘制茎叶图和箱线图
    例子:星级评价,分数代表着类别,评分有大小比较关系

  3. 定距等级
    可以研究定量数据,值之间的差异有意义,
    可执行数学操作,可以加减,均值、标准差等
    用直方图,不同桶代表不同数据。也可以绘制散点图
    例子:气温随着时间的变化,差值比较可以呈现温差的变化

  4. 定比等级
    处理定量数据
    有了绝对零点的概念,可以做乘除运算
    因为存在0这个概念,所以比值是有意义的
    例子:货币的价值,100块是50块的两倍

总结:

【特征工程入门与实践】【特征理解】
数学执行:
【特征工程入门与实践】【特征理解】
画图:
【特征工程入门与实践】【特征理解】
了解数据时的一个简单流程:【特征工程入门与实践】【特征理解】

相关文章:

  • 2021-09-21
  • 2021-07-28
  • 2021-11-19
  • 2021-04-07
  • 2021-07-12
  • 2021-10-10
  • 2022-12-23
  • 2021-10-11
猜你喜欢
  • 2021-11-26
  • 2021-09-16
  • 2021-09-21
  • 2021-06-06
  • 2021-08-03
  • 2021-09-26
相关资源
相似解决方案