【问题标题】：ValueError when using pandas' crosstab使用 pandas 的交叉表时出现 ValueError
【发布时间】：2025-12-12 09:45:01
【问题描述】：

我确信必须有一个快速修复，但我找不到一个很好的解释。我正在寻找迭代数据框并为每对带有熊猫的列构建一个交叉表。我从原始数据中提取了 2 个列，并删除了包含不合适数据的行。对于剩余的数据，我希望做一个交叉表，最终构建一个列联表来进行 ChiX 测试。这是我的代码：

my_data = pd.read_csv(DATA_MATRIX, index_col=0) #GET DATA
AM = pd.DataFrame(columns=my_data.columns, index = my_data.columns) #INITIATE DF TO HOLD ChiX-result

for c1 in my_data.columns:
    for c2 in my_data.columns:
        sample_df = pd.DataFrame(my_data, columns=[c1,c2])  #make df to do ChiX on
        sample_df = sample_df[(sample_df[c1] != 0.5) | (sample_df[c2] != 0.5)].dropna() # remove unsuitable rows

        contingency = pd.crosstab(sample_df[c1], sample_df[c2]) ##This doesn't work?

        # DO ChiX AND STORE P-VALUE IN 'AM': CODE STILL TO WRITE

数据框包含值 0.0、0.5、1.0。 '0.5' 缺少数据，所以我在制作列联表之前删除了这些行，我希望从中制作列联表的剩余值都是 0.0 或 1.0。到目前为止，我已经检查了代码的工作原理。打印到控制台的错误是：

ValueError: If using all scalar values, you must pass an index

如果有人能解释为什么这不起作用？以任何方式帮助解决？或者甚至更好地提供一种替代方法来对列进行 ChiX 测试，这将非常有帮助，在此先感谢！

编辑：sample_df前几行的结构示例

           col1  col2
    sample1 1   1
    sample2 1   1
    sample3 0   0
    sample4 0   0
    sample5 0   0
    sample6 0   0
    sample7 0   0
    sample8 0   0
    sample9 0   0
    sample10    0   0
    sample11    0   0
    sample12    1   1

【问题讨论】：

当然，有一个快速修复。向我们展示您的数据怎么样？
它基本上是一个有 2 列和大约 100 行的数据框，所有值都是 1 或 0。原始数据框“my_data”是 sample_df 的派生位置，除了 ~3000 列和具有值为“0.5”的额外行，已在 sample_df 中删除
什么是样本？
它只是数据框的索引，而不是实际的数据列
如果我为您的样本调用pd.crosstab(df.col1, df.col2)，我会得到预期的输出。

标签： python pandas pivot-table chi-squared

【解决方案1】：

两个相同实体之间的交叉表是没有意义的。 pandas 会告诉你：

ValueError: The name col1 occurs multiple times, use a level number

意思是假设您从同名的多索引数据框中传递两个不同列。

在您的代码中，您在嵌套循环中迭代列，因此出现c1 == c2 的情况，因此pd.crosstab 出错。

修复将涉及添加if 检查并在列相等时跳过该迭代。所以，你会这样做：

for c1 in my_data.columns:
    for c2 in my_data.columns:
        if c1 == c2:
            continue

        ...  # rest of your code

【讨论】：