pandas Series 和单列 DataFrame 有什么区别？答案

【问题标题】：What is the difference between a pandas Series and a single-column DataFrame?pandas Series 和单列 DataFrame 有什么区别？
【发布时间】：2014-11-20 17:39:34
【问题描述】：

为什么 pandas 会区分 Series 和单列 DataFrame？
换句话说：Series 类存在的原因是什么？

我主要使用带有日期时间索引的时间序列，也许这有助于设置上下文。

【问题讨论】：

嗯，它们显然不同，我认为您指的是某些仍返回数据帧的操作，因为您只有一个列数据帧，或者因为该操作导致单列数据帧。但是选择单列时，没有模糊性，并且这对一个系列分解。您必须显示示例代码来解释您的问题。
可能相关：stackoverflow.com/questions/16782323/…
主要问题是我认为不需要使用不同方法的 Series 对象。
一方面，存在命名空间差异。系列只有一个顶级名称，数据框有一个顶级名称和一个列名。这可能会导致处理/创建新系列与新列的语法存在显着差异。
据我所知，这个问题还是应该回答的。即使可以将DataFrame 视为Series 的dict（尽管这不是当前的实现），但仍然不清楚为什么您会返回Series 对象而不是DataFrame（即概念上是一个 dict 一个条目）。

标签： python pandas

【解决方案1】：

DataFrame 通常被描述为

具有可能不同类型的列的二维标记数据结构。您可以将其视为电子表格或 SQL 表

由于这个定义，我们可以将数据视为单元格，就像在 Excel 电子表格中一样，其中的行带有行号，列带有列标题。由于这种简单化的观点，底层数据结构可能有点令人惊讶。

DataFrame 实际上由用于坐标轴标签（行和列标签）的Index 对象和用于列数据的Series 对象组成。

Series 对象为每个列数据（保存在一维 numpy.ndarray）提供了封装，带有行标签和列标签。

因此，单个列 DataFrame 将有一个底层 Series 对象用于列数据。

请参阅DataFrame data structure 了解一个简单示例，其中包含底层数据结构的可视化表示。

【讨论】：

【解决方案2】：

引用Pandas docs

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

具有标记轴（行和列）的二维大小可变、可能异构的表格数据结构。算术运算在行标签和列标签上对齐。 可以被认为是 Series 对象的类 dict 容器。 主要的 pandas 数据结构。

因此，系列是DataFrame 的单列的数据结构，不仅在概念上，而且在字面上，即DataFrame 中的数据实际上存储在内存中作为Series的集合。

类似地：我们需要列表和矩阵，因为矩阵是用列表构建的。单行矩阵，虽然在功能上等同于列表，但如果没有它们组成的列表，仍然无法存在。

它们都有极其相似的 API，但您会发现 DataFrame 方法总是迎合您拥有多个列的可能性。当然，您始终可以将另一个 Series（或等效对象）添加到 DataFrame，而将 Series 添加到另一个 Series 涉及创建 DataFrame。

【讨论】：

感谢您的回答。当数据框上的选择突然返回一个系列并且我无法访问列属性时，我的代码中的一个错误启发了我的问题。我不是唯一一个困惑的人：stackoverflow.com/questions/16782323/…
您无法从Can be thought of as a dict-like container for Series objects 得出关于DataFrame 的实际内部数据结构的任何信息。事实上，它目前存储为BlockManager（这是一个你不应该依赖的实现细节）。
我仍然很困惑，那么我什么时候可以使用单列数据框而不是系列？
我可能很迂腐，但我没有看到 OP 关于为什么系列存在的问题得到解答。我看到一个描述系列和数据框之间关系的答案，但没有解释为什么我们应该将系列作为单独的数据类型而不是数据框的特殊情况（即只有一列的数据框）。
那么，为什么要在 Dataframe 上使用 Series？

【解决方案3】：

Series 是一个一维对象，可以保存任何数据类型，例如整数、浮点数和字符串，例如

   import pandas as pd
   x = pd.Series([A,B,C]) 

0 A
1 B
2 C

Series 的第一列称为索引，即 0,1,2 第二列是您的实际数据，即 A、B、C

DataFrames 是二维对象，可以保存系列、列表、字典

df=pd.DataFrame(rd(5,4),['A','B','C','D','E'],['W','X','Y','Z'])

【讨论】：

【解决方案4】：

导入汽车数据

import pandas as pd

cars = pd.read_csv('cars.csv', index_col = 0)

Here is how the cars.csv file looks.

将drives_right列打印为Series：

print(cars.loc[:,"drives_right"])

    US      True
    AUS    False
    JAP    False
    IN     False
    RU      True
    MOR     True
    EG      True
    Name: drives_right, dtype: bool

单括号版本给出 Pandas Series，双括号版本给出 Pandas DataFrame。

将drives_right列打印为DataFrame

print(cars.loc[:,["drives_right"]])

         drives_right
    US           True
    AUS         False
    JAP         False
    IN          False
    RU           True
    MOR          True
    EG           True

将一个系列添加到另一个系列会创建一个 DataFrame。

【讨论】：

【解决方案5】：

来自熊猫文档http://pandas.pydata.org/pandas-docs/stable/dsintro.html Series 是一个可以保存任何数据类型的一维标签数组。以 panda Series 的形式读取数据：

import pandas as pd
ds = pd.Series(data, index=index)

DataFrame 是一种二维标记数据结构，具有可能不同类型的列。

import pandas as pd
df = pd.DataFrame(data, index=index)

在上述两个索引中都是列表

例如：我有一个包含以下数据的 csv 文件：

,country,popuplation,area,capital
BR,Brazil,10210,12015,Brasile
RU,Russia,1025,457,Moscow
IN,India,10458,457787,New Delhi

将上述数据读取为系列和数据框：

import pandas as pd
file_data = pd.read_csv("file_path", index_col=0)
d = pd.Series(file_data.country, index=['BR','RU','IN'] or index =  file_data.index)

输出：

>>> d
BR           Brazil
RU           Russia
IN            India

df = pd.DataFrame(file_data.area, index=['BR','RU','IN'] or index = file_data.index )

输出：

>>> df
      area
BR   12015
RU     457
IN  457787

【讨论】：

我没有投反对票，但您的代码不起作用。您可能希望将file_data 更改为brics，将美国行添加到csv，并将['BR'....'US'] 更改为brics.index。也许是正确的pupuplation。
@RolfBly：感谢您指出这些错误。制作它们对我来说是愚蠢的。我已经改变了它们。谢谢！关于阅读这只是一个示例，我因此采用了随机值。

【解决方案6】：

Series 是一个带标签的一维数组，能够保存任何数据类型（整数、字符串、浮点数、Python 对象等）。轴标签统称为索引。创建Series的基本方法是调用：

s = pd.Series(data, index=index)

DataFrame 是一种二维标记数据结构，具有可能不同类型的列。您可以将其视为电子表格或 SQL 表，或 Series 对象的字典。

 d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
 two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
 df = pd.DataFrame(d)

【讨论】：