【问题标题】:MarkLogic Content Pump (MLCP) - Performance - Logging detailsMarkLogic 内容泵 (MLCP) - 性能 - 记录详细信息
【发布时间】:2019-03-13 16:48:23
【问题描述】:

所以我们使用 MLCP 将 XML 数据(在 Zip 文件中)摄取到 MarkLogic 中。

它按预期工作。

当我查看屏幕上的输出时,我看到了一些奇怪的东西。

对于第一个 25%,需要 7 分钟,休息 1 分钟,这是真实的还是与后期记录有关? 顺便说一句,在 0% - 25% 之后,屏幕上的输出需要一些时间。

我在执行 mlcp 时遗漏了什么?或者 开始需要更多时间,然后执行得更快?

【问题讨论】:

    标签: performance logging marklogic mlcp


    【解决方案1】:

    在使用 mlcp 时我更喜欢以下设置:

    1. 禁用锁定或锁定 = 关闭
    2. 禁用日记或日记=关闭
    3. 调整 mlcp 选项中的 max_split_size 和 thread_count。我用了 分别为 1000 和 12 以在我的设置中获得最佳性能。

    希望这能给你一些指导。

    【讨论】:

    • 感谢您的回复。我是 ML 新手,那么当锁定或日记功能关闭时会发生什么?我将尝试使用 split 和 thread_count 选项
    • 您可以参考docs.marklogic.com/guide/admin/databases,搜索日志/锁定
    • 感谢 Ranvir,我阅读了,非常有用。关于 split size 和 thread_count 数字,它谈到了 I/O bound,Ingestion 将始终是 I/O bound,那么我们可以根据什么来决定呢?在我们的例子中,它会像 >12M 记录(在大约 >1000 个 zip 文件中)一次活动(在每个环境中,然后在将来的活动中)。我的意思是,如果我按照你上面提到的那样去做,会提高这里的性能吗?
    • 在设置日志 = 关闭后,进度 % 开始正常运行,并且如上所述设置拆分大小和线程数也将性能提高了 25-30% 左右。感谢您的帮助
    猜你喜欢
    • 1970-01-01
    • 2014-05-12
    • 1970-01-01
    • 2016-03-30
    • 1970-01-01
    • 2021-03-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多