MarkLogic 内容泵 (MLCP) - 性能 - 记录详细信息答案

【问题标题】：MarkLogic Content Pump (MLCP) - Performance - Logging detailsMarkLogic 内容泵 (MLCP) - 性能 - 记录详细信息
【发布时间】：2019-03-13 16:48:23
【问题描述】：

所以我们使用 MLCP 将 XML 数据（在 Zip 文件中）摄取到 MarkLogic 中。

它按预期工作。

当我查看屏幕上的输出时，我看到了一些奇怪的东西。

对于第一个 25%，需要 7 分钟，休息 1 分钟，这是真实的还是与后期记录有关？顺便说一句，在 0% - 25% 之后，屏幕上的输出需要一些时间。

我在执行 mlcp 时遗漏了什么？或者开始需要更多时间，然后执行得更快？

【问题讨论】：

【解决方案1】：

在使用 mlcp 时我更喜欢以下设置：

希望这能给你一些指导。

【讨论】：

感谢您的回复。我是 ML 新手，那么当锁定或日记功能关闭时会发生什么？我将尝试使用 split 和 thread_count 选项
您可以参考docs.marklogic.com/guide/admin/databases，搜索日志/锁定
感谢 Ranvir，我阅读了，非常有用。关于 split size 和 thread_count 数字，它谈到了 I/O bound，Ingestion 将始终是 I/O bound，那么我们可以根据什么来决定呢？在我们的例子中，它会像 >12M 记录（在大约 >1000 个 zip 文件中）一次活动（在每个环境中，然后在将来的活动中）。我的意思是，如果我按照你上面提到的那样去做，会提高这里的性能吗？
在设置日志 = 关闭后，进度 % 开始正常运行，并且如上所述设置拆分大小和线程数也将性能提高了 25-30% 左右。感谢您的帮助