【问题标题】:Can I apply "classification" first and then "regression" to the same data set?我可以先对同一数据集应用“分类”,然后再应用“回归”吗?
【发布时间】:2021-02-26 07:03:25
【问题描述】:

我是数据科学的初学者,需要某个主题的帮助。

我有一个关于某机构客户的数据集。我的目标是首先找出哪些客户会向该机构付款,然后再找出付费客户将支付多少钱。

在这种情况下,我认为我可以先通过“分类”找出哪些客户会支付,然后通过应用“回归”找出会支付多少。

所以,首先我想应用“分类”,然后对这个输出应用“回归”。我该怎么做?

【问题讨论】:

    标签: machine-learning regression classification data-science prediction


    【解决方案1】:

    当然,您绝对可以应用分类方法,然后进行回归分析。这实际上是探索性数据分析过程中的常见模式。

    对于您的用例,根据您分享的基本信息,我会直观地选择 1) logistic regression 和 2) multiple linear regression

    逻辑回归实际上是一种分类工具,尽管名称另有说明。在二元逻辑回归模型中,因变量有两个级别(分类),您需要预测您的客户是愿意支付还是不支付(二元决定)

    多元线性回归,应用于您可用数据集中的相同自变量,然后将为您提供一个线性模型来预测您的客户将支付多少(即推理的输出将是一个连续变量 - 实际预期的美元价值)。

    这将是我建议实施的方法,因为您是该领域的新手。现在,显然有许多不同的方法来定义这些模型,基于可用数据、数据性质、客户需求等,但逻辑 + 多元回归方法应该是肯定的选择带你去吧。

    【讨论】:

    • 我有一点让我感到困惑,我有客户的“身份”。在进行逻辑回归之前,我在我拥有的“火车”集中添加了一个名为“标签”的列,如果客户已付款,则该列的值为“1”,否则为“0”。我坚持的一点是,在对测试数据应用“逻辑回归”之后,我是否应该从那里学习客户“id”信息并找出这些客户将支付多少钱?
    • 我认为客户 ID不应是线性回归模型的因变量。预测不应该基于客户是谁——这应该是一个“盲目”的决定,纯粹基于你对每个客户的有形信息(他们的购买行为/模式)。 “告诉”模型客户是谁(即使用“id”作为输入之一)会引入不必要的偏见。
    • 首先感谢您的关注。在将“逻辑回归”应用于我的数据集后,我不知道如何进行。到目前为止,我在示例中遇到了单个模型应用程序。我应用了“逻辑回归”,然后我该怎么做呢?非常感谢。
    • 假设您的模型有 3 个输入变量:income_levelhistorical_weekly_spendingage,用于每个客户。第一个模型(二元逻辑回归),使用目标变量 will_buy 的二元标签进行训练。训练后,您可以根据每个全新客户的特征(收入、支出、年龄)预测每个全新客户是否会购买。
    • 现在,您的第二个模型(线性多元回归)将使用相同的 3 个因变量作为输入(income_levelhistorical_weekly_spendingage)。目标变量将是expected_spend。您使用历史支出金额(标签)对其进行训练。一旦经过训练,您就可以根据 3 个给定的特征预测(推断)任何新客户的预期支出。希望它能澄清一下整体方法。
    【解决方案2】:

    另一种方法是仅使其成为纯回归。无需处理级联模型。哪个更容易处理

    例如,您可以将不愿意支付 0 值的人与花费金额相关联,并在这些实例上拟合模型。

    对于企业,您可以应用一个阈值,如果预测金额低于或多或少的固定阈值,您将用户归类为“不愿意支付”

    【讨论】:

      【解决方案3】:

      当然,您可以通过垂直堆叠模型来做到这一点。假设您使用的是二元分类,在预测之后您将拥有一个目标值为 0 和 1 的数据框。您将过滤 where target==1 并创建一个新的数据框。然后运行回归。

      此外,如果您没有标签,您可以使用聚类而不是分类,因为成本较低。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2020-04-09
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-08-17
        • 2011-12-20
        相关资源
        最近更新 更多