【问题标题】:How to know if the Variable is Categorical or Numerical if all it contains is Digits?如果变量只包含数字,如何知道变量是分类变量还是数值变量?
【发布时间】:2019-07-14 23:16:33
【问题描述】:

我有一个包含多个Variables 的数据集。

我想确定,除了唯一值计数方法之外,我们如何判断一个变量是分类变量还是数字变量,例如我的变量疾病类型之一有 31 个唯一值,而其他 Variable Distance 来自 @ 987654323@ 有 25 个唯一值,均为数字形式。

【问题讨论】:

  • 检查df.dtypes
  • 您是否尝试查看数据类型?
  • @SandeepKadapa 是的,默认情况下它们都是 int。但作为探索性数据分析的一部分,我必须将其转换为合适的类别。
  • @coldspeed 是的,默认情况下它们都是 int。但作为探索性数据分析的一部分,我必须将其转换为合适的类别。

标签: python pandas dataframe statistics data-analysis


【解决方案1】:

<dataframename>.info() 将给出每个变量的总数以及它是否为非空及其数据类型,如float64objectint64

【讨论】:

  • 是的,dataframe.info() 应该给出数据类型,默认情况下加载到数据帧中的数据是什么。我正在寻找的是一种逻辑或数字方式来确定变量的类型是什么,通过对其包含的数据进行分析,在我的情况下这些数据都是数字,以便我可以将其转换为适当的类型。
【解决方案2】:

简短的回答是:你对问题领域/应用领域的了解会告诉你。

您需要寻找一些差异,但要应用这些差异,您仍然需要使用一些领域知识(有时是常识)。

以下是一些有助于区分的区别:

  1. 对于分类变量,允许值的集合通常是固定的,并且很少改变,如果有的话。相比之下,对于数值变量,值集可能会发生变化,例如,当您收到同一数据集的新记录时。
  2. 数值变量可能具有不是整数的值。在您的示例中,即使“与办公室的距离”碰巧具有整数值,这可能纯粹是偶然的,或者可能是某些人对他们想要的数据中的数字精度做出的选择.
  3. 对于分类变量,谈论平均值通常没有意义。例如,有 2 种类型的糖尿病,分别称为 1 型和 2 型,但谈论这些类型的平均值(1.2357 型?)是没有意义的。
  4. 问自己这个经验法则问题:当我执行数据分析时,我可以根据这个变量的特定值来表达我的推论吗?这个变量的范围如何(“0 到 5 公里”、“5 到 10 公里”等)。例如,我是否可以报告从我的数据分析中得出的任何推论,即“离办公室距离为 123 的人,在他们的职业生涯中很容易取得成功”?这个具体的价值听起来很傻,对吧?相反,如果它是一个分类变量,例如 2 型糖尿病,您总是可以根据具体值进行推断。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-05-16
    • 1970-01-01
    • 2017-12-27
    • 2015-08-29
    • 2015-12-14
    • 2011-03-17
    • 1970-01-01
    相关资源
    最近更新 更多