<div dir="ltr">Hi all,<div><br></div><div>Could anyone help give me a guide on how to install tensorflow (<2.0 beta) compatible with CUDA 10.1 on gpus? I haven't succeed on that. Thanks and sorry for the overhead. </div><div><br></div><div>Yours,</div><div>Yusha<br><div><br></div><div><br><div><br></div><div><br></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jul 24, 2019 at 10:16 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br>
<br>
I apologize for top posting. Just a quick update. As of 5 minutes ago<br>
machines gpu[2-10] appear to have no issues. After all the upgrades and<br>
reboots it appears that we don't have any dead GPU cards on them and<br>
that drivers and CUDA 10.1 work as expected. I understand that this is a<br>
little comfort to people who need to regenerate tensorflow, py-torch,<br>
and all that "deep-learning" stuff but I have no control over the<br>
upstream decisions. <br>
<br>
GPU1 appears to be broken at the moment. Without attaching consol to the<br>
machine it is difficult for me to asses the complexity of the problem. <br>
<br>
One more time sorry for the down time. <br>
<br>
Cheers,<br>
Predrag<br>
<br>
<br>
<br>
<br>
<br>
<br>
> A quick update on this issue and a resolution. I took a clue from the<br>
> fact that GPU10 was working as expected and narrowed down the issue to<br>
> CUDA 9.1 installation.  It appears that upstream has broken CUDA 9.1<br>
> purposely via dkms utility which is used to recompile kernel modules<br>
> to fit specific kernel release. They probably want people to move to<br>
> CUDA 10.1.<br>
> <br>
> Long story short. I upgraded NVidia driver and CUDA to 10.1 on GPU2<br>
> and GPU3 servers. They appear to be working flawlessly on my end as<br>
> tested with nvidia-smi utility as well as MATLAB. I have recreated<br>
> GPU3 scratch directory which was 100% used for almost half a year. I<br>
> have also reinstalled libcudnn library on both machines but I am<br>
> unable to test it.<br>
> <br>
> This is all good but it also means that people will have to regenerate<br>
> their tools from the scratch to match the kernel, driver, and CUDA<br>
> versions. If you have things on GPU10 you probably could just migrate<br>
> them. This is very time consuming but we have no choice.<br>
> <br>
> The major bad news is that one of the GPU servers I tried to work on<br>
> GPU1 (commissioned almost five years ago) didn't survive reboot. It<br>
> also uses older Tesla K80 cards. I will have to attach the screen and<br>
> troubleshoot this machine. That will not happen today or for that<br>
> matter this week.<br>
> <br>
> My plan is now to move and fix machines GPU[4-9] which would take the<br>
> rest of the day.Note that GPU7 is designated for a special project and<br>
> not generally accessible.<br>
> <br>
> Most Kind Regards,<br>
> Predrag Punosevac<br>
> <br>
> <br>
> <br>
> <br>
> On Wed, Jul 24, 2019 at 1:09 PM Predrag Punosevac<br>
> <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br>
> ><br>
> > Thank you so much for bringing this to my attention. GPU10 is not<br>
> > broken but sure enough you are right about the other machines. It<br>
> > appears that one of recent updates have broken the driver. I will<br>
> > reinstall drivers shortly and reboot the machines. This is also notice<br>
> > for everyone else that GPU1-9 will have to be rebooted.<br>
> ><br>
> > Predrag<br>
> ><br>
> > On Wed, Jul 24, 2019 at 10:52 AM Chufan Gao <<a href="mailto:chufang@andrew.cmu.edu" target="_blank">chufang@andrew.cmu.edu</a>> wrote:<br>
> > ><br>
> > > Hi Predrag,<br>
> > ><br>
> > ><br>
> > > I discovered today that when I run nvidia-smi, I get this error:<br>
> > ><br>
> > ><br>
> > > NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.<br>
> > ><br>
> > > The same happens for all of the gpu machines that I tried. I am confused - was there an update that broke it?<br>
> > ><br>
> > > Sincerely,<br>
> > > Andy Gao<br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail-m_-5729620142903199696gmail-m_-4672864522856352822gmail_signature"><div dir="ltr"><div><div dir="ltr">Yusha Liu, Master's Student<div>Machine Learning Department</div><div>Carnegie Mellon University</div></div></div></div></div>