将数组数据转换为熊猫数据框[重复]答案

【问题标题】：convert an array data into a pandas data frame [duplicate]将数组数据转换为熊猫数据框[重复]
【发布时间】：2020-09-08 09:43:44
【问题描述】：

我是 python 的初学者，想从 datasets 包中导入 diabetes 数据以执行以下操作： 1-查看此数组数据的前几条记录并查看变量列表及其摘要统计信息 2-将其转换为熊猫数据框

例如，在糖尿病数据集中，如果我想在将它们转换为 pandas DF 之前查看变量名称及其类型和摘要统计信息，我应该怎么做？以及如何将其转换为 pandas DF

from sklearn import datasets
import pandas as pd

# Load the diabetes dataset
diabetes = datasets.load_diabetes()
print(diabetes) 
# convert the diabetes array into pandas
diabetes2 = pd.DataFrame(diabetes)    # DID NOT WORK

【问题讨论】：

这能回答你的问题吗？ How to convert a Scikit-learn dataset to a Pandas dataset?。 df = pd.DataFrame(data=np.c_[diabetes['data'], diabetes['target']], columns=diabetes['feature_names']+['target']).
它起作用了，但是当我尝试使用波士顿数据时，这是一个回归问题，它不起作用
h1ros.github.io/posts/…

标签： arrays pandas dataframe

【解决方案1】：

你可以试试这个：

diabetes_data = pd.DataFrame(diabetes['data'])
diabetes_target = pd.DataFrame(diabetes['target'])
df_c = pd.concat([diabetes_data, diabetes_target], axis=1)
print(df_c)

            0         1         2         3         4         5         6         7         8         9      0
0    0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401 -0.002592  0.019908 -0.017646  151.0
1   -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412 -0.039493 -0.068330 -0.092204   75.0
2    0.085299  0.050680  0.044451 -0.005671 -0.045599 -0.034194 -0.032356 -0.002592  0.002864 -0.025930  141.0
3   -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038  0.034309  0.022692 -0.009362  206.0
4    0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142 -0.002592 -0.031991 -0.046641  135.0
..        ...       ...       ...       ...       ...       ...       ...       ...       ...       ...    ...
437  0.041708  0.050680  0.019662  0.059744 -0.005697 -0.002566 -0.028674 -0.002592  0.031193  0.007207  178.0
438 -0.005515  0.050680 -0.015906 -0.067642  0.049341  0.079165 -0.028674  0.034309 -0.018118  0.044485  104.0
439  0.041708  0.050680 -0.015906  0.017282 -0.037344 -0.013840 -0.024993 -0.011080 -0.046879  0.015491  132.0
440 -0.045472 -0.044642  0.039062  0.001215  0.016318  0.015283 -0.028674  0.026560  0.044528 -0.025930  220.0
441 -0.045472 -0.044642 -0.073030 -0.081414  0.083740  0.027809  0.173816 -0.039493 -0.004220  0.003064   57.0

要查看糖尿病数据中的所有键：

print(diabetes.keys()) 

dict_keys(['data', 'target', 'DESCR', 'feature_names', 'data_filename', 'target_filename'])

【讨论】：

我怎样才能使用功能名称而不是 0--9 作为列标题？
diabetes_data.columns = [diabetes['feature_names']]