【问题标题】:MPICH output not printingMPICH输出不打印
【发布时间】:2021-01-25 04:20:57
【问题描述】:

问题

我正在运行使用 mpich-3.2 安装在 HPC 集群上的executable cp2k。可执行文件的输出打印在 out 文件中。问题是,在 some steps 打印之后,out 文件中没有 no output,但是当我在集群上看到我的作业状态时,结果是它仍在运行。基本上,问题是我的工作仍在运行,但没有打印输出。

脚本

我正在使用以下作业脚本:

#!/bin/bash
#PBS -N test
#PBS -o test.log
#PBS -j oe
#PBS -l nodes=2:ppn=20
#PBS -q mini
#PBS -l walltime=2:00:00
cd $PBS_O_WORKDIR
echo Master process running on `hostname`
echo Directory is `pwd`
echo PBS has allocated the following nodes:
echo `cat $PBS_NBODEFILE`
NPROCS=`wc -l < $PBS_NODEFILE`
echo This job has allocated $NPROCS nodes
export I_MPI_FABRICS=shm:dapl
export I_MPI_PROVIDER=psm2
export I_MPI_FALLBACK=0
export KMP_AFFINITY=verbose,scatter
export OMP_NUM_THREADS=1
export I_MPI_IFACE=ib0
echo Starting executation at `date`
EXEC="/home/arshil/software/cp2k-5.1.0/exe/local/cp2k.popt"
cp  $EXEC ./cp2k
mpiexec -np $NPROCS --machinefile $PBS_NODEFILE ./cp2k -i test.inp >& out
rm cp2k
echo Finished at `date`

错误

out 文件中的输出

SCF WAVEFUNCTION OPTIMIZATION

  ----------------------------------- OT ---------------------------------------
  Minimizer      : DIIS                : direct inversion
                                         in the iterative subspace
                                         using   7 DIIS vectors
                                         safer DIIS on
  Preconditioner : FULL_SINGLE_INVERSE : inversion of 
                                         H + eS - 2*(Sc)(c^T*H*c+const)(Sc)^T
  Precond_solver : DEFAULT
  stepsize       :    0.08000000                  energy_gap     :    0.08000000
  eps_taylor     :   0.10000E-15                  max_taylor     :             4
  ----------------------------------- OT ---------------------------------------

  Step     Update method      Time    Convergence         Total energy    Change
  ------------------------------------------------------------------------------
     1 OT DIIS     0.80E-01   21.3     0.00002878     -8797.2068024142 -8.80E+03
     2 OT DIIS     0.80E-01   10.9     0.00007114     -8797.2061897209  6.13E-04
     3 OT DIIS     0.80E-01   10.8     0.00001688     -8797.2073257531 -1.14E-03

可以看出,输出文件中的第3步之后没有没有打印,但作业在仍在运行背景。即使在 walltime 结束后,输出文件仍然与上面相同。输出去哪儿了?

可执行的 cp2k 用于执行量子化学计算,并与 mpich-3.2 一起安装在集群上。 CP2K 需要一个扩展名为.inp 的输入文件。就我而言,test.inp 是输入文件。

&FORCE_EVAL
  METHOD Quickstep
  &DFT
      BASIS_SET_FILE_NAME  GTH_BASIS_SETS
      POTENTIAL_FILE_NAME  GTH_POTENTIALS
    &MGRID
      NGRIDS 4
      CUTOFF 380
      REL_CUTOFF 60
    &END MGRID
    &QS
      METHOD GPW
      MAP_CONSISTENT
      EXTRAPOLATION ASPC
      EXTRAPOLATION_ORDER 3
    &END QS

    &SCF
      MAX_SCF 1000
      EPS_SCF 1.0E-5
      SCF_GUESS ATOMIC
      &OT
        PRECONDITIONER FULL_SINGLE_INVERSE
        MINIMIZER DIIS
        N_DIIS 7
      &END OT
      &PRINT
        &RESTART OFF
        &END RESTART
      &END PRINT
     &END SCF

     &XC
        &XC_FUNCTIONAL PBE
        &END XC_FUNCTIONAL
        &vdW_POTENTIAL
           DISPERSION_FUNCTIONAL PAIR_POTENTIAL
           &PAIR_POTENTIAL
              PARAMETER_FILE_NAME dftd3.dat
              TYPE DFTD3
              REFERENCE_FUNCTIONAL PBE
              R_CUTOFF  [angstrom] 12.3
           &END PAIR_POTENTIAL
        &END vdW_POTENTIAL
     &END XC

  &END DFT
  &SUBSYS
    &CELL
      ABC 24.6904 24.6904 24.6904
      PERIODIC XYZ
    &END CELL

    &KIND C
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q4
    &END KIND
    &KIND P
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q5
    &END KIND
    &KIND H
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q1
    &END KIND
    &KIND O
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q6
    &END KIND
    &KIND N
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q5
    &END KIND
    &KIND Mg
      BASIS_SET TZV2P-GTH
      POTENTIAL GTH-PBE-q10
    &END KIND

    &COLVAR
       &COORDINATION
          ATOMS_FROM 41
          ATOMS_TO 38
          R_0 [bohr] 4.5
          NN  6
          ND  12
       &END COORDINATION
    &END COLVAR

    &COLVAR
       &COORDINATION
          ATOMS_FROM 41
          ATOMS_TO 42 44 47 50 53 56 59 62 65 68 71 74 77 80 83 86 89 92 95 98 101 104 107 110 113 116 119 122 125 128 131 134 137 140 143 146 149 152 155 158 161 164 167 170 173 176 179 182 185 188 191 194 197 200 203 206 209 212 215 218 221 224 227 230 233 236 239 242 245 248 251 254 257 260 263 266 269 272 275 278 281 284 287 290 293 296 299 302 305 308 311 314 317 320 323 326 329 332 335 338 341 344 347 350 353 356 359 362 365 368 371 374 377 380 383 386 389 392 395 398 401 404 407 410 413 416 419 422 425 428 431 434 437 440 443 446 449 452 455 458 461 464 467 470 473 476 479 482 485 488 491 494 497 500 503 506 509 512 515 518 521 524 527 530 533 536 539 542 545 548 551 554 557 560 563 566 569 572 575 578 581 584 587 590 593 596 599 602 605 608 611 614 617 620 623 626 629 632 635 638 641 644 647 650 653 656 659 662 665 668 671 674 677 680 683 686 689 692 695 698 701 704 707 710 713 716 719 722 725 728 731 734 737 740 743 746 749 752 755 758 761 764 767 770 773 776 779 782 785 788 791 794 797 800 803 806 809 812 815 818 821 824 827 830 833 836 839 842 845 848 851 854 857 860 863 866 869 872 875 878 881 884 887 890 893 896 899 902 905 908 911 914 917 920 923 926 929 932 935 938 941 944 947 950 953 956 959 962 965 968 971 974 977 980 983 986 989 992 995 998 1001 1004 1007 1010 1013 1016 1019 1022 1025 1028 1031 1034 1037 1040 1043 1046 1049 1052 1055 1058 1061 1064 1067 1070 1073 1076 1079 1082 1085 1088 1091 1094 1097 1100 1103 1106 1109 1112 1115 1118 1121 1124 1127 1130 1133 1136 1139 1142 1145 1148 1151 1154 1157 1160 1163 1166 1169 1172 1175 1178 1181 1184 1187 1190 1193 1196 1199 1202 1205 1208 1211 1214 1217 1220 1223 1226 1229 1232 1235 1238 1241 1244 1247 1250 1253 1256 1259 1262 1265 1268 1271 1274 1277 1280 1283 1286 1289 1292 1295 1298 1301 1304 1307 1310 1313 1316 1319 1322 1325 1328 1331 1334 1337 1340 1343 1346 1349 1352 1355 1358 1361 1364 1367 1370 1373 1376 1379 1382 1385 1388 1391 1394 1397 1400 1403 1406 1409 1412 1415 1418 1421 1424 1427 1430 1433 1436 1439 1442 1445 1448 1451 1454 1457 
          ATOMS_TO 1460 1463 1466 1469 1472 1475 1478 1481 1484 1487 1490 1493 1496 1499 1502 1505
          R_0 [bohr]  4.5
          NN  6
          ND  12
       &END COORDINATION
    &END COLVAR
  &END SUBSYS
&END FORCE_EVAL

&GLOBAL
  PROJECT test
  RUN_TYPE MD
  PRINT_LEVEL LOW
&END GLOBAL

&MOTION
  &MD
    ENSEMBLE NVT
    STEPS 100000
    TIMESTEP 0.5
    TEMPERATURE 310
    TEMP_TOL 100
    &THERMOSTAT
      &NOSE
        LENGTH 3
        YOSHIDA 3
        TIMECON 100.0
        MTS 2
      &END NOSE
    &END
    &PRINT
      &ENERGY
        &EACH
           MD 10
        &END
      &END
      &PROGRAM_RUN_INFO
        &EACH
           MD 100
        &END
      &END
      FORCE_LAST
    &END PRINT
  &END MD

  &FREE_ENERGY
    &METADYN
      DO_HILLS 
      LAGRANGE .TRUE.
      NT_HILLS 40
      WW [kcalmol] 1
      TEMPERATURE 310
      TEMP_TOL 10

      &METAVAR
        SCALE 0.05
        COLVAR 1
        MASS 50
        LAMBDA 2
        &WALL
            POSITION 0.0
            TYPE QUARTIC
            &QUARTIC
               DIRECTION WALL_MINUS
               K  10.0
            &END
        &END
      &END METAVAR

      &METAVAR
        SCALE 0.05
        COLVAR 2
        MASS 50
        LAMBDA 2
        &WALL
            POSITION 0.0
            TYPE QUARTIC
            &QUARTIC
               DIRECTION WALL_MINUS
               K  10.0
            &END
        &END
      &END METAVAR

      &PRINT
        &COLVAR
           COMMON_ITERATION_LEVELS 3
           &EACH
             MD 1
           &END
        &END
        &HILLS
           COMMON_ITERATION_LEVELS 3
           &EACH
             MD 1
           &END
        &END
      &END
    &END METADYN
  &END

  &PRINT
    &TRAJECTORY
      &EACH
        MD 1
      &END
    &END
    &VELOCITIES OFF
    &END
    &RESTART
      &EACH
         MD 20
      &END
      ADD_LAST NUMERIC
    &END
    &RESTART_HISTORY 
      &EACH
         MD 2000
      &END
    &END
  &END
&END MOTION

&EXT_RESTART
  RESTART_FILE_NAME NVT-1.restart
  RESTART_COUNTERS .FALSE.
&END 

我认为问题不在于输入文件。它必须与 mpich-3.2 做一些事情。我真的很感激一些帮助。

【问题讨论】:

  • 您的症状很容易 (??) 解释为您的代码从未达到写入第 4 步结果的地步。我们或您为什么要不这样想?
  • @HighPerformanceMark 但相同的输入文件在 open-mpi-2.0.2 下运行良好。
  • 那是您应该在原始问题中包含的内容 - 或者您可能做了但我看不到它。所以现在的问题是使用两个不同版本的 MPI 诊断代码执行的差异之一。我希望代码对各种 MPI 例程的各种参数的大小或值等问题做出假设,但对于两个版本都不是这样,但是如果没有看到代码,除了做出模糊的猜测之外,不可能做更多的事情。和你一样,我不认为问题出在作业脚本或输入文件中。

标签: bash parallel-processing mpi hpc mpich


【解决方案1】:

这可能会发生类似的事情/可以在此处使用的解决方案:Python "print" not working when embedded into MPI program 这并不完美,因为您没有使用 python,但它可能会有所帮助。

在基本级别 MPI 启动许多进程 - 但只有启动它的命令才能访问 stdio 等。以 mpiexec 开头的行末尾的重定向发送 mpiexec 的 stdout em> 到一个文件。脚本的输出由 mpiexec 缓冲,直到进程结束(它们完成或停止)。

输出的去向是一个很好的问题,可能需要更改 test.np 或其他一些关闭方式(你提到你已经过了墙时间)。我正在寻求解决同样的问题 - 并且会更新这个(如果)我找到答案。

mpi 启动的不同进程的输出也可以以随机顺序到达。我不关心这个,但如果你这样做,你可能需要将消息传递回一些对其顺序进行排序的公共线程。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-07-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多