<div dir="ltr"><div dir="ltr"><div><div>Hi Predrag,<br><br></div>With GPU10 the problem is probably because LD_LIBRARY_PATH directs to  /usr/local/cuda/lib64 but that's not where CUDA is installed (where is it?). </div><div><br></div><div>Yotam.</div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, Jan 7, 2019 at 9:00 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Yotam,<br>
<br>
Thank you so much for this report! I am CC-ing <a href="mailto:users@autonlab.org" target="_blank">users@autonlab.org</a> so<br>
that everyone is on the same page.  Could you please work with me on<br>
this one? Let's try to fix GPU10 first. GPU10 was recently<br>
provisioned. It has three (one was DoA) GeForce 1080Ti. I am running<br>
the latest  NVIDIA-Linux-x86_64-410.78 driver and the latest<br>
cuda-10.0.130-1. You have two versions of Python. /opt/rh/rh-python36<br>
will give you the latest 3.6.7. While /opt/miniconda3 will install<br>
python-3.7.2. Once we fix GPU10 we will move to other machines. Note<br>
that other machines are still running older version of NVidia driver<br>
and CUDA-9.2. I have changed nothing on them so whatever is broken it<br>
is broken upstream (Python,TensorFlow, NVidia, or CUDA).<br>
<br>
Please keep CC-ing users to this discussion so that people know what<br>
is going on.<br>
<br>
Predrag<br>
<br>
<br>
On Mon, Jan 7, 2019 at 8:02 AM Yotam Hechtlinger<br>
<<a href="mailto:yhechtli@andrew.cmu.edu" target="_blank">yhechtli@andrew.cmu.edu</a>> wrote:<br>
><br>
> Hi Predrag,<br>
><br>
> There might be some CUDA problem on GPU 5,6 & 10.<br>
> I get the following message when I try to import tensorflow:<br>
><br>
><br>
><br>
> >>> import tensorflow<br>
> Traceback (most recent call last):<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module><br>
>     from tensorflow.python.pywrap_tensorflow_internal import *<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in <module><br>
>     _pywrap_tensorflow_internal = swig_import_helper()<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper<br>
>     _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/imp.py", line 243, in load_module<br>
>     return load_dynamic(name, filename, file)<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/imp.py", line 343, in load_dynamic<br>
>     return _load(spec)<br>
> ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory<br>
><br>
> During handling of the above exception, another exception occurred:<br>
><br>
> Traceback (most recent call last):<br>
>   File "<stdin>", line 1, in <module><br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/__init__.py", line 24, in <module><br>
>     from tensorflow.python import pywrap_tensorflow  # pylint: disable=unused-import<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/__init__.py", line 49, in <module><br>
>     from tensorflow.python import pywrap_tensorflow<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow.py", line 74, in <module><br>
>     raise ImportError(msg)<br>
> ImportError: Traceback (most recent call last):<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module><br>
>     from tensorflow.python.pywrap_tensorflow_internal import *<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in <module><br>
>     _pywrap_tensorflow_internal = swig_import_helper()<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper<br>
>     _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/imp.py", line 243, in load_module<br>
>     return load_dynamic(name, filename, file)<br>
>   File "/zfsauton/home/yhechtli/anaconda3/lib/python3.6/imp.py", line 343, in load_dynamic<br>
>     return _load(spec)<br>
> ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory<br>
><br>
><br>
> Failed to load the native TensorFlow runtime.<br>
><br>
> See <a href="https://www.tensorflow.org/install/errors" rel="noreferrer" target="_blank">https://www.tensorflow.org/install/errors</a><br>
><br>
> for some common reasons and solutions.  Include the entire stack trace<br>
> above this error message when asking for help.<br>
><br>
</blockquote></div>