【发布时间】:2026-01-06 19:35:01
【问题描述】:
我在 Azure DataLake Gen2 存储帐户中以 CSV 格式存储旧数据。我可以连接到这个并使用 DataBricks 询问它。我要求在某些记录的保留期到期后删除它们,或者如果 GDPR“被遗忘权”需要应用于数据。
使用 Delta 我可以将 CSV 加载到 Delta 表中并使用 SQL 定位和删除所需的行,但是保存这些更改的最佳方法是什么?理想情况下是回到原始文件,这样就可以从原始文件中删除数据。我在创建 Delta 表时使用 LOCATION 选项将生成的 Parquet 格式文件保存到 DataLake,但最好将其保留为原始 CSV 格式。
任何建议表示赞赏。
【问题讨论】:
标签: azure-data-lake databricks azure-databricks