【问题标题】:Is this problem a classification or regression?这个问题是分类还是回归?
【发布时间】:2020-07-05 14:25:48
【问题描述】:

在 Andrew Ng 的一次演讲中,他问下面的问题是分类问题还是回归问题。答:这是一个回归问题。

您有大量相同物品的库存。你想预测如何 其中许多商品将在未来 3 个月内售出。

看起来我错过了什么。根据我的理解,它应该是分类问题。原因是我们必须将每个项目分为两类,即可以出售或不出售,它们是离散值而不是连续值。

不知道我的理解差距在哪里。

【问题讨论】:

  • 在问题陈述中,“这些项目中有多少”意味着结果应该是一个实际值 [0, inf]。所以,这是一个回归问题而不是分类问题。
  • @twcmchang 是不是说如果我问个别商品能不能卖,那就是分类问题了?
  • how many 意味着确定一个数量,这意味着它是一个回归问题。分类问题会声明类似whether or not 或类似what type of 的内容。
  • @stackoverflowuser2010 你说how many implies determining an amount, which means it is a classification problem我希望你的意思不是分类问题?
  • @user3198603:已修复。应该是“回归问题”。

标签: machine-learning regression classification


【解决方案1】:

您的想法是,您拥有一个具有各自特征的商品数据库,并希望预测每件商品是否会售出。最后,您只需计算可以出售的商品数量。如果你这样描述问题,那它确实是一个分类问题。

但是,请注意您问题中的以下句子:

您有大量相同物品的库存。

相同的项目意味着所有项目都将具有完全相同的功能。如果你想出一个二元分类器来判断一个产品是否可以销售,因为所有的特征值都完全相同,你的分类器会将所有商品归为同一类别。

我猜想,为了解决这个问题,您可能可以访问过去 5 年中每月销售商品的时间序列。然后,您将不得不处理这些数据并插入到未来。您不会单独对每件商品进行分类,而是实际计算一个数值,表示未来 1、2 和 3 个月的已售商品数量。

根据Pattern Recognition and Machine Learning (Christopher M. Bishop, 2006)

诸如数字识别示例的情况,其目的是将每个输入向量分配给有限数量的离散类别之一,称为分类问题。如果所需的输出由一个或多个连续变量组成,则该任务称为回归

除此之外,重要的是要了解categorical, ordinal, and numerical variables 之间的区别,如统计中所定义:

分类变量(有时称为名义变量)是具有两个或多个类别的变量,但这些类别没有内在顺序。例如,性别是一个具有两个类别(男性和女性)的分类变量,并且这些类别没有内在的顺序。

(...)

序数变量类似于分类变量。两者的区别在于变量有明确的顺序。例如,假设您有一个变量,经济状况,具有三个类别(低、中和高)。除了能够将人分为这三个类别之外,您还可以将类别排序为低、中和高。

(...)

数值变量类似于序数变量,只是数值变量的值之间的间隔是等距的。例如,假设您有一个变量,例如以美元衡量的年收入,而我们有 3 个人的收入分别为 10,000 美元、15,000 美元和 20,000 美元。

虽然您的最终结果将是一个整数(一组离散的数字),但请注意它仍然是 numerical value, not a category。您可以在数学上操作数值(例如计算下一年的平均售出物品数量,找到未来 3 个月内售出物品的峰值数量......)但您不能使用离散类别(例如一部手机和一部电话的平均值?)。

分类问题是输出是分类的或有序的(离散类别,根据 Bishop)。回归问题输出数值(连续变量,根据 Bishop)。

您的系统可能仅限于输出整数,而不是实数,但不会将变量的性质从数值改变。因此,您的问题是回归问题。

【讨论】:

  • 谢谢马修斯。但是如果我按照你引用的回归的克里斯托弗定义,这里的输出将是离散值,即在接下来的 3 个月内每个月可以售出多少件商品?
  • @user3198603 重点是分类器预测离散的类别,而不是数值。我用一个链接更新了我的答案,更详细地解释了分类、序数和数值之间的区别,这是统计学中的一个概念,对于理解分类和回归之间的区别至关重要。
  • 是的,你是对的。实际上,为了更好地理解,我们可以说分类器从预定义的类预测离散值(或类),但回归结果可以是任何无法预定义的连续值。
  • 一个与you would probably have access to the time-series of sold items ...相关的问题我的问题是告诉回归模型选择月份的具体特征(如销售月份、节日、经济放缓)进行预测是否可行。我相信我们可以指定功能,但如果我们不指定,它将自动选择它认为相关的任何功能。对吗?
猜你喜欢
  • 2020-03-22
  • 2018-06-11
  • 2018-09-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多