将 DataFrame 的集合组合成一个大 DataFrame答案

【问题标题】：Combine collection of DataFrames into one big DataFrame将 DataFrame 的集合组合成一个大 DataFrame
【发布时间】：2020-05-31 03:26:37
【问题描述】：

假设我有 3 个数据帧。一个这样的 DataFrame 的列名不在其他两个中。

using DataFrames

df1 = DataFrame([['a', 'b', 'c'], [1, 2, 3]], ["name", "id"])
df2 = DataFrame([['d', 'e', 'f'], [4, 5, 6]], ["name", "id"])
df3 = DataFrame([['x', 'y', 'z'], [7, 8, 9], [11, 22, 33]], ["name", "id", "num"])

每个DataFrame都是一个Vector的一个元素。

dfs = [df1, df2, df3]

我想将所有这些 DataFrame 组合成一个大 DataFrame。这是我尝试过的：

df = reduce(x -> vcat(x, cols=:union), dfs)
# MethodError: no method matching (::var"#55#56")(::DataFrame, ::DataFrame)

那么，我如何在 Julia 中做到这一点？

加分项：我可以在基础 Julia 中执行此操作，而无需 DataFrames.jl（注意：df3 的列比其他列多）吗？

由于有大量 Julia 包实现了类似 DataFrame 的结构，我愿意接受使用 DataFrames.jl 以外的包的解决方案。

这是我在 R 中的做法：

df1 = data.frame(name = c("a", "b", "c"),
                 id = c(1, 2, 3))

df2 = data.frame(name = c("d", "e", "f"),
                 id = c(4, 5, 6))

df3 = data.frame(name = c("x", "y", "z"),
                 id = c(7, 8, 9),
                 num = c(11, 22, 33))

dfs = list(df1, df2, df3)

library(dplyr)
dplyr::bind_rows(dfs)

还有 Python 3.7：

import pandas as pd

df1 = pd.DataFrame({"name": ["a", "b", "c"],
                    "id": [1, 2, 3]})

df2 = pd.DataFrame({"name": ["d", "e", "f"],
                    "id": [4, 5, 6]})

df3 = pd.DataFrame({"name": ["x", "y", "z"],
                    "id": [7, 8, 9],
                    "num": [11, 22, 33]})

dfs = [df1, df2, df3]

pd.concat(dfs)

【问题讨论】：

标签： dataframe julia

【解决方案1】：

只要做：

julia> vcat(dfs..., cols=:union)
9×3 DataFrame
│ Row │ name │ id    │ num     │
│     │ Char │ Int64 │ Int64?  │
├─────┼──────┼───────┼─────────┤
│ 1   │ 'a'  │ 1     │ missing │
│ 2   │ 'b'  │ 2     │ missing │
│ 3   │ 'c'  │ 3     │ missing │
│ 4   │ 'd'  │ 4     │ missing │
│ 5   │ 'e'  │ 5     │ missing │
│ 6   │ 'f'  │ 6     │ missing │
│ 7   │ 'x'  │ 7     │ 11      │
│ 8   │ 'y'  │ 8     │ 22      │
│ 9   │ 'z'  │ 9     │ 33      │

或

julia> reduce(vcat, dfs, cols=:union)
9×3 DataFrame
│ Row │ name │ id    │ num     │
│     │ Char │ Int64 │ Int64?  │
├─────┼──────┼───────┼─────────┤
│ 1   │ 'a'  │ 1     │ missing │
│ 2   │ 'b'  │ 2     │ missing │
│ 3   │ 'c'  │ 3     │ missing │
│ 4   │ 'd'  │ 4     │ missing │
│ 5   │ 'e'  │ 5     │ missing │
│ 6   │ 'f'  │ 6     │ missing │
│ 7   │ 'x'  │ 7     │ 11      │
│ 8   │ 'y'  │ 8     │ 22      │
│ 9   │ 'z'  │ 9     │ 33      │

【讨论】：