<div dir="ltr"><div dir="ltr">Hi,<div><br></div><div>I am facing the following error when trying to run horovod (which uses openmp) with tensorflow on the gpu nodes. What is interesting is that the error is not permanent. My code runs fine for sometime, and then the errors start appearing, after which I have to shift to a new GPU node. I suspect this is again related to the NFS and permissions like the previous GPU issue.</div><div><br></div><div>Please let me know if you have a solution to this. Thanks.</div><div><br></div><div>--------------------------------------------------------------------------------------------------------------</div><div>/zfsauton/home/bparia/anaconda3/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.</div><div>  from ._conv import register_converters as _register_converters</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file gds_dstore.c at line 1178</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file gds_dstore.c at line 1313</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file gds_dstore.c at line 2331</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file gds_dstore.c at line 3148</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file gds_dstore.c at line 3180</div><div>[<a href="http://gpu6.int.autonlab.org:17401">gpu6.int.autonlab.org:17401</a>] PMIX ERROR: OUT-OF-RESOURCE in file server/pmix_server.c at line 2151</div><div>[<a href="http://gpu6.int.autonlab.org:17406">gpu6.int.autonlab.org:17406</a>] PMIX ERROR: OUT-OF-RESOURCE in file client/pmix_client.c at line 228</div><div>[<a href="http://gpu6.int.autonlab.org:17406">gpu6.int.autonlab.org:17406</a>] OPAL ERROR: Error in file pmix2x_client.c at line 109</div><div>*** An error occurred in MPI_Init_thread</div><div>*** on a NULL communicator</div><div>*** MPI_ERRORS_ARE_FATAL (processes in this communicator will now abort,</div><div>***    and potentially your MPI job)</div><div>[<a href="http://gpu6.int.autonlab.org:17406">gpu6.int.autonlab.org:17406</a>] Local abort before MPI_INIT completed completed successfully, but am not able to aggregate error messages, and not able to guarantee that all other processes were killed!</div><div>-------------------------------------------------------</div><div>Primary job  terminated normally, but 1 process returned</div><div>a non-zero exit code. Per user-direction, the job has been aborted.</div><div>-------------------------------------------------------</div><div>--------------------------------------------------------------------------</div><div>mpirun detected that one or more processes exited with non-zero status, thus causing</div><div>the job to be terminated. The first process to do so was:</div><div><br></div><div>  Process name: [[30728,1],0]</div><div>  Exit code:    1</div><div>---------------------------------------------------------------------------- </div><div>--------------------------------------------------------------------------------------------------------------<br></div><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><br></div><div dir="ltr">Biswajit Paria<div>PhD student</div><div>MLD CMU</div></div></div></div></div></div></div></div></div></div></div>