如何将两个熊猫列混合到一个数据框中，第一列的第一个元素，第二列的第二个元素等等？ [复制]答案

【问题标题】：How to mix two pandas columns into one dataframe with first element from first column, second element from second column and so on? [duplicate]如何将两个熊猫列混合到一个数据框中，第一列的第一个元素，第二列的第二个元素等等？ [复制]
【发布时间】：2021-02-28 18:00:00
【问题描述】：

想象一下我有 pandas 数据框：

Column1 Column2

A            D

B            E

C            F

如何获得这种形式的Dataframe？

列

 A
 D
 B
 E
 C
 F

【问题讨论】：

您的起始数据框中是否有空行？
不，都填满了。
df.stack().reset_index(drop=True)
您尝试过 df.values.flatten() 然后对其进行整形吗？它返回一个 numpy 数组，但如果需要，您可以将其转换回数据框。相关答案在这里：stackoverflow.com/questions/25440008/…
完美@MichaelSzczesny，它正在工作

标签： python python-3.x pandas dataframe

【解决方案1】：

编辑：请参阅下面的基准测试以获得稍快的解决方案。

你可以这样做：

# Import pandas library 
import pandas as pd

# The data
data = [["A", "D"], ["B", "E"], ["C", "F"]]

# Create DataFrame
df = pd.DataFrame(data, columns = ["Column1", "Column2"]) 

# Flatten and convert to DataFrame
new_df = pd.DataFrame(df.to_numpy().flatten())

print(df)

输出：

A
D
B
E
C
F

new_df 将是 pandas.DataFrame。

还要注意df.to_numpy() 的使用。

正如@Michael Szczesny 所建议的，您可以这样做：

new_series = df.stack().reset_index(drop=True)

这将返回pandas.Series。

添加基准：

根据@Mayank Porwal 的回答，我添加了这个基准测试结果。我将 timeit.repeat 与repeat = 7, number = 10000 一起使用。从最快到最慢排序：

new_df = pd.DataFrame(df.to_numpy().ravel('A')) # 51.0 µs
new_df = pd.DataFrame(df.to_numpy().ravel('K')) # 51.0 µs
new_df = pd.DataFrame(df.to_numpy().ravel('F')) # 51.1 µs
new_df = pd.DataFrame(df.to_numpy().flatten())  # 52.6 µs
new_df = pd.DataFrame(df.to_numpy().ravel('C')) # 53.4 µs
new_series = df.stack().reset_index(drop=True)  # 322.0 µs

使用numpy.ravel 最快主要是因为它返回一个视图，而numpy..to_numpy() 返回一个副本。有关numpy.ravel 的详细信息，请参阅：https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ravel.html

简而言之，如果数组在内存中是 Fortran 连续的，“A”将强制以类似 Fortran 的索引顺序读取元素，而“K”将按照元素在内存中出现的顺序读取元素。

【讨论】：

【解决方案2】：

将df.to_numpy 与numpy.ravel 一起使用：

In [2349]: x = pd.DataFrame(df.to_numpy().ravel('F'))

In [2350]: x
Out[2350]: 
     0
0    A
1    B
2    C
3    D
4    E
5    F
dtype: object

注意：这将非常高效。

时间比较：

In [2369]: dd = pd.concat([df] * 1000)

# Rivers' answers:

In [2369]: %timeit pd.DataFrame(dd.to_numpy().flatten())
95.6 µs ± 1.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

In [2371]: %timeit dd.stack().reset_index(drop=True)
919 µs ± 9.95 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# My answer:

In [2372]: %timeit pd.DataFrame(dd.to_numpy().ravel('F'))
62 µs ± 577 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

【讨论】：

@Augustas 请检查我的答案。它的性能最好。
我不认为速度性能对这项任务很重要，好主意，谢谢，我会编辑我的答案。