【发布时间】:2012-02-23 21:55:17
【问题描述】:
我正在研究将平面文件导入数据库并随后导出 xml 文件的 ETL 工具。
许多工具支持生成代码以在您的应用程序中使用;但是,我还没有发现任何支持在您的应用程序中使用代码。我们的模型很复杂(关系、验证、多态关联、回调等)。
有哪些工具可以重用现有代码?还是我被困在 ETL 工具中重新创建(和维护)我的模型?
注意:我对 ETL(与批量插入或活动记录导入相反)的要求是转换。我们从 200 多个不同来源以各种格式、完整性和清洁度接收数据。此外,对于将定义转换的技术含量较低的用户来说,包含最多的“设计师”更为现实。
【问题讨论】:
-
变换逻辑在哪里?你想要它在哪里?
-
视情况而定。我们已经在应用程序中内置了一堆,但还有其他一些需要在每个源的基础上完成。我们在谈论汽车数据......我们的应用程序知道 99-01、1999-01、1999-2001 都是同一个东西,而 HND、HNDA、HONDA 和 HONDA/ACURA 都是同一个东西。这些只是冰山一角。我们的每个来源都有不同的格式。一个可以合并像 99-01 这样的年份,另一个将它们放在不同的列中。有些人会将多个品牌(HONDA、BMW)放在一行中,而另一些则使用 2 个。同样,这只是冰山一角,但这些是 ETL 工具应该处理的。
标签: ruby-on-rails activerecord model etl data-integration