【发布时间】:2016-01-25 14:28:25
【问题描述】:
我的增量加载项目遇到了麻烦 :)
背景:我基于 Postgres 的数据仓库每天都从基于 Mysql 的网上商店中提取数据。我们为此设置了一个只读从站,我认为这是 IT 将给我的最大支持,即不会对主站做任何事情来帮助我。
情况:我想将最近创建或更新的行从 MySQL 拉到 Postgres。每15-30分钟一次。因此,我的数据仓库中的延迟在流程结束时最多 30 分钟。 因此,在每个需要简单的日期条件的表上进行快速循环就足够了。
问题: 网店数据库很大,处理每张表需要一段时间(每张表最多 1 分钟,没有索引日期,也没有分区),这会影响整个项目...
问题:我可以优化那个只读的mysql slave(对master没有操作)吗?
非常感谢! 五、
干杯, 文森特
【问题讨论】:
-
您的表是否有自增主键?你可以用那个。无法将 bin 日志本身转换为 SQL 并在 postgres 上重放它? dev.mysql.com/doc/refman/5.6/en/mysqlbinlog-row-events.html
-
那么为什么日期上没有索引,为什么你排除了这个选项?
-
你有一个完美的 MySQL 从站?你可以在那里处理这些东西吗?为什么要通过将数据复制到另一台机器来增加 30 分钟的延迟?
-
DW“报告”的通常解决方案是构建和维护“汇总表”。如果您想讨论这个问题,请提供有关架构和报告的更多详细信息。
-
@JoeDoherty 他们有时会这样做,我没想过使用它们。我将对此进行一些测试,然后将结果回复给您。然而,行会不时更新,直到一年前......因为我们有一些特定的业务流程:)
标签: mysql postgresql optimization database-replication master-slave