【问题标题】:Pandas find columns with unique valuesPandas 查找具有唯一值的列
【发布时间】:2018-08-24 15:27:28
【问题描述】:

我有两个数据库(每个都有 1000 个表),它们应该反映相同的数据,但它们来自两个不同的来源。我比较了两张表,看看有什么区别,但为了做到这一点,我将这两个表加入了一个公共 ID 键。我手动检查了表格以查看 ID 密钥是什么,但是当我必须检查 1000 个表格时,这样做并不实际。

pandas 有没有办法找到表中的哪些列(或哪些列)只有唯一值?

【问题讨论】:

  • 通过差异,您是指在表中找到的“ID”,还是您还需要比较与相同“ID”关联的列中的值。
  • 我还需要比较值
  • 在大多数情况下,所有 ID 都匹配,但在两个数据库之间进行比较时,特定记录的某些列值不同

标签: python sql pandas dataframe


【解决方案1】:

使用允许您查询数据库的 Python 库(pymysql、psycopg2 等)。以编程方式使用数据库中可用的元数据来迭代表和列。动态创建 SQL 查询以比较“select count(field) - count(distinct field) from table”。

或者您也可以使用元数据来查看每个表中的哪些列被索引。

提取相关元数据的 SQL 查询会因 DBMS 的种类而异。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-28
    • 1970-01-01
    相关资源
    最近更新 更多