<div dir="ltr">I just installed the RPM provided by you. However I am not sure that this is the correct RPM. In the past I used to install something like<div><br></div><div><br><br>libcudnn8-8.1.1.33-1.cuda11.2.x86_64.rpm<br>libcudnn8-devel-8.1.1.33-1.cuda11.2.x86_64.rpm<br>libcudnn8-samples-8.1.1.33-1.cuda11.2.x86_64.rpm<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 17, 2021 at 11:13 AM Viraj Mehta <<a href="mailto:virajm@cs.cmu.edu">virajm@cs.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi Predrag,<br><div><br></div><div>This should be sitting in the scratch. Let me know if there are any issues.</div><div><br></div><div>Cheers,</div><div>Viraj</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 17, 2021 at 9:38 AM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto">Yes. Please get me 5 RPS for RHEL 8.1 and put them in your scratch on GPU24. Make sure they are for 64 bit AMD/Intel. They have them for ARM and Power architecture.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 17, 2021, 10:31 AM Viraj Mehta <<a href="mailto:virajm@cs.cmu.edu" target="_blank">virajm@cs.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">Hey Predrag,<div><br></div><div>I can get it for you. Out of the options listed in the attached image, which one would make sense to install? I was thinking the RHEL x86  version would be most appropriate.</div><div><br></div><div>Best,</div><div>Viraj</div><div><br></div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 17, 2021 at 9:10 AM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" rel="noreferrer" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto">It is not installed right now. It is proprietary software and I have to locate my NVIDIA developer credentials to get RPS. If someone can download it quickly for me I will install it.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 17, 2021, 9:11 AM Ifigeneia Apostolopoulou <<a href="mailto:iapostol@andrew.cmu.edu" rel="noreferrer" target="_blank">iapostol@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hello Predrag,</div><div><br></div><div>could you also please provide the cuDNN version? I couldn't find cudnn.h in /usr/include, /usr/local/cuda-11/include, /usr/local/cuda/include, /usr/local/cuda-11/include, /usr/local/cuda-11.5/include</div><div><br></div><div>thanks!<br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 16, 2021 at 1:27 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" rel="noreferrer noreferrer" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Just to add to this info. The installed version of CUDA is <div><br></div><div>cuda-11.5.1-1.x86_64<br></div><div><br></div><div>We already have a bunch of servers using cuda 11.1 but perhaps nothing newer than 11.3. Rolling back to EOL version CUDA 10 is the option of the last resort.</div><div><br></div><div>I installed /opt/miniconda-py39</div><div><br></div><div>which is Python 3.9.5. Most older servers run Python 3.8 branch or even 3.7 branch.</div><div><br></div><div>I would like everyone to keep in mind that the OS packaging problem is NP hard so rolling things back to some "sweet spot" might be a prohibitively expensive approach. </div><div><br></div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 16, 2021 at 12:40 PM Ifigeneia Apostolopoulou <<a href="mailto:iapostol@andrew.cmu.edu" rel="noreferrer noreferrer" target="_blank">iapostol@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi all,</div><div><br></div><div>Has anyone tried to test the new servers?</div><div><br></div><div>I have not managed to run neither pytorch nor tensorflow processes. I am getting the following errors:</div><div><br></div><div><div>tensorflow: CUDA runtime implicit initialization on GPU:0 failed. Status: device kernel image is invalid</div><div><br></div><div>pytorch: RuntimeError: CUDA error: no kernel image is available for execution on the device</div><div><br></div><div>I am not sure whether this is a CUDA installation issue / incompatibility (however, I am facing a problem with both pytorch and tensorflow processes that can run on the rest of the servers).</div><div><br></div><div>thanks!<br></div><div><br></div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Dec 15, 2021 at 10:26 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" rel="noreferrer noreferrer" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Dear Autonians,<div><br></div><div>I just finished provisioning two new GPU nodes. The purchase was approved by Dr. Schneider in July but the order was not placed until late August due to CMU internal issues just in time to be affected by supply chain disruption. The servers were finally shipped on 11/24/2021</div><div>and received last Wednesday 12/8/2021. To add the final insult to the injury the nodes were not tagged until Monday afternoon. I had literally to hunt down people to do the work.</div><div>I spent half a day yesterday getting power cables and other misc supplies. Thus they are only done today. However, I think they are definitely worth the trouble.  <br></div><div><br></div><div>Each server comes with 8 NVIDIA RTX A6000 connected by high-speed GPU interconnect NVIDIA links beside PCIe. Each server has 2 AMD EPYC 7502 32-Core Processors for a total of 128 threads per server. These CPUs are almost as fast as your desktop processors 3.5 GHz. </div><div>Each server has 512GB of RAM and 2TB of scratch. These servers have 24 2'5" HDD bays so they could potentially be used as a storage space. I don't have 2'5" HDDs in the lab right now to populate the bays.</div><div><br></div><div>There is one thing which is for now done suboptimally. Namely the servers were shipped with 1Gbs copper NIC and 10Gbs fiber optical NIC. I could not locate long enough optical cables in our lab yesterday but I will try to address this issue soon. I have exactly 2 optical connectors on the switch so it is down to cabling. </div><div><br></div><div>Have fun and sorry for a long delay.</div><div><br></div><div>Predrag</div></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>