我可以先对同一数据集应用“分类”，然后再应用“回归”吗？答案

【问题标题】：Can I apply "classification" first and then "regression" to the same data set?我可以先对同一数据集应用“分类”，然后再应用“回归”吗？
【发布时间】：2021-02-26 07:03:25
【问题描述】：

我是数据科学的初学者，需要某个主题的帮助。

我有一个关于某机构客户的数据集。我的目标是首先找出哪些客户会向该机构付款，然后再找出付费客户将支付多少钱。

在这种情况下，我认为我可以先通过“分类”找出哪些客户会支付，然后通过应用“回归”找出会支付多少。

所以，首先我想应用“分类”，然后对这个输出应用“回归”。我该怎么做？

【问题讨论】：

标签： machine-learning regression classification data-science prediction

【解决方案1】：

当然，您绝对可以应用分类方法，然后进行回归分析。这实际上是探索性数据分析过程中的常见模式。

对于您的用例，根据您分享的基本信息，我会直观地选择 1) logistic regression 和 2) multiple linear regression。

逻辑回归实际上是一种分类工具，尽管名称另有说明。在二元逻辑回归模型中，因变量有两个级别（分类），您需要预测您的客户是愿意支付还是不支付（二元决定）

多元线性回归，应用于您可用数据集中的相同自变量，然后将为您提供一个线性模型来预测您的客户将支付多少（即推理的输出将是一个连续变量 - 实际预期的美元价值）。

这将是我建议实施的方法，因为您是该领域的新手。现在，显然有许多不同的方法来定义这些模型，基于可用数据、数据性质、客户需求等，但逻辑 + 多元回归方法应该是肯定的选择带你去吧。

【讨论】：

我有一点让我感到困惑，我有客户的“身份”。在进行逻辑回归之前，我在我拥有的“火车”集中添加了一个名为“标签”的列，如果客户已付款，则该列的值为“1”，否则为“0”。我坚持的一点是，在对测试数据应用“逻辑回归”之后，我是否应该从那里学习客户“id”信息并找出这些客户将支付多少钱？
我认为客户 ID不应是线性回归模型的因变量。预测不应该基于客户是谁——这应该是一个“盲目”的决定，纯粹基于你对每个客户的有形信息（他们的购买行为/模式）。 “告诉”模型客户是谁（即使用“id”作为输入之一）会引入不必要的偏见。
首先感谢您的关注。在将“逻辑回归”应用于我的数据集后，我不知道如何进行。到目前为止，我在示例中遇到了单个模型应用程序。我应用了“逻辑回归”，然后我该怎么做呢？非常感谢。
假设您的模型有 3 个输入变量：income_level、historical_weekly_spending 和 age，用于每个客户。第一个模型（二元逻辑回归），使用目标变量 will_buy 的二元标签进行训练。训练后，您可以根据每个全新客户的特征（收入、支出、年龄）预测每个全新客户是否会购买。
现在，您的第二个模型（线性多元回归）将使用相同的 3 个因变量作为输入（income_level、historical_weekly_spending 和 age）。目标变量将是expected_spend。您使用历史支出金额（标签）对其进行训练。一旦经过训练，您就可以根据 3 个给定的特征预测（推断）任何新客户的预期支出。希望它能澄清一下整体方法。

【解决方案2】：

另一种方法是仅使其成为纯回归。无需处理级联模型。哪个更容易处理

例如，您可以将不愿意支付 0 值的人与花费金额相关联，并在这些实例上拟合模型。

对于企业，您可以应用一个阈值，如果预测金额低于或多或少的固定阈值，您将用户归类为“不愿意支付”

【讨论】：

【解决方案3】：

当然，您可以通过垂直堆叠模型来做到这一点。假设您使用的是二元分类，在预测之后您将拥有一个目标值为 0 和 1 的数据框。您将过滤 where target==1 并创建一个新的数据框。然后运行回归。

此外，如果您没有标签，您可以使用聚类而不是分类，因为成本较低。

【讨论】：