【问题标题】:What caused (0) Abnormal termination (signal 11) in Condor什么原因导致 (0) Condor 异常终止(信号 11)
【发布时间】:2018-08-05 19:17:31
【问题描述】:

在 HTCondor 中运行 python 脚本时,作业终止并在 .log 文件中显示以下错误代码:

006 (4069.000.000) 02/19 15:02:29 Image size of job updated: 1393668
        1362  -  MemoryUsage of job (MB)
        1393668  -  ResidentSetSize of job (KB)
...
006 (4069.000.000) 02/19 15:03:12 Image size of job updated: 33197416
        1430  -  MemoryUsage of job (MB)
        1463300  -  ResidentSetSize of job (KB)
...
005 (4069.000.000) 02/19 15:03:12 Job terminated.
        (0) Abnormal termination (signal 11)
        (0) No core file
                Usr 0 00:00:09, Sys 0 00:00:40  -  Run Remote Usage
                Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
                Usr 0 00:00:09, Sys 0 00:00:40  -  Total Remote Usage
                Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage
        0  -  Run Bytes Sent By Job
        4477484  -  Run Bytes Received By Job
        0  -  Total Bytes Sent By Job
        4477484  -  Total Bytes Received By Job
        Partitionable Resources :    Usage  Request Allocated
           Cpus                 :                 1         1
           Disk (KB)            :     4500     4500   1699801
           Gpus                 :                           0
           Memory (MB)          :     1430        5         5
...

什么会导致这样的错误以及如何纠正它?

谷歌搜索后,我发现一个 mialing 列表建议添加该行

getenv=true

在提交文件上,我这样做了,但没有解决问题,我收到了同样的错误。

感谢您的帮助/建议

【问题讨论】:

    标签: condor


    【解决方案1】:

    信号 11 指的是SIGSEGV,这是分段错误。日志消息说您的脚本因分段错误而终止,Condor 无能为力。您需要调试您的脚本,以确保它不会进行会导致段错误的无效内存访问等。

    如果 Condor 设置正确,我还会在职位描述文件中添加通知:

    notification = Error
    notify_user = my@email.com
    

    这样在这些情况下它会通知您您的工作异常终止。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-04-23
      • 1970-01-01
      • 1970-01-01
      • 2017-09-19
      • 1970-01-01
      • 2018-09-14
      相关资源
      最近更新 更多