使用 TensorFlow 加载波士顿住房数据集答案

【问题标题】：Loading Boston housing dataset using TensorFlow使用 TensorFlow 加载波士顿住房数据集
【发布时间】：2017-05-12 03:03:15
【问题描述】：

我正在尝试理解代码示例Deep Neural Network Regression with Boston Data。

数据集描述为here。它有 14 个属性。

示例使用以下代码加载数据。

# Load dataset
boston = learn.datasets.load_dataset('boston')
x, y = boston.data, boston.target

当我想了解更多关于x 和y 的信息时，我有以下内容。

>>> type(x)
<type 'numpy.ndarray'>
>>> type(y)
<type 'numpy.ndarray'>
>>> x.shape
(506, 13)
>>> y.shape
(506,)
>>>

我的问题：

为什么将数据集分为两个对象，一个具有 13 个属性，另一个具有 1 个属性？
这种划分的依据是什么？

【问题讨论】：

标签： machine-learning tensorflow regression linear-regression logistic-regression

【解决方案1】：

boston.data 中的 13 列是您的特征。 boston.target 中的 1 列是您的目标。进行拆分的原因是因为大多数时候，机器学习算法需要特征和目标作为单独的数据结构。 load_datasets 函数只是通过拆分 MDEV 列让您更轻松，因为大多数时候，这是人们想要预测的功能。换句话说，load_data 集的设计者假设您想尝试根据其他 13 个特征找到房价中值。

您不必这样做。您可以选择任何功能作为目标。假设您想预测 RM，即每套住宅的平均房间数。只需将 MDEV 列合并回 boston.data 并拆分出 RM。然后使用 RM 作为目标。

顺便说一句，您提供的链接已损坏，所以我用谷歌搜索并想出了这个Boston Housing price tutorial。如果你想在 tensorflow 中做回归，它看起来很完整

【讨论】：