<div dir="ltr">Hi Ben,<div><br></div><div>That is super useful info. That is exactly the feedback I was hoping to get by CC-ing users@autonlab. There are just too many moving wheels and 90% of time changing nothing is the correct approach to system administration. </div><div><br></div><div>Best,</div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Apr 19, 2021 at 10:30 AM Benedikt Boecking <<a href="mailto:boecking@andrew.cmu.edu">boecking@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;">Just fyi, as far as I am aware, pytorch only supports cuda up to 11.1 for now. It would be great if we could wait with updating cuda to 11.3 since many lab members rely on pytorch. <div><br><div>
<div dir="auto" style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;text-decoration:none"><div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><div style="overflow-wrap: break-word;"><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><br></div><div style="color:rgb(0,0,0);font-family:Helvetica;font-size:12px;font-style:normal;font-variant-caps:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><br></div></div></div></div></div></div><div><blockquote type="cite"><div>On Apr 18, 2021, at 10:20 PM, Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:</div><br><div><div dir="ltr">Hi Ifigeneia,<div><br></div><div>I am CC-ing as this might be of wider interest to the lab members. </div><div><br></div><div>This seems to be a cuDNN issue. gpu1 runs cuda11.2 on RHEL 7.9 while gpu2 runs cuda11 on RHEL7.9. Current CUDA  release is 11.3 and all recently provisioned computing nodes run RHEL 8.3. In an ideal world I should firstly upgrade all computing nodes to 8.3 and CUDA installations to 11.3 before we talk about cuDNN libraries.  cuDNN is a proprietary software. I logged into my NVidia developer account and I am downloading RedHat 8.1 RPMs of cuDNN v8.1 released on February 26. That release supposedly should be compatible with all versions of CUDA branch 11 i.e. 11.0, 11.1, 11.2, and 11.3 but runs on RHEL 8.1 (so there is no guarantee that it will run on 8.3). I can download RMPs for RHEL 7.3 but obviously there is no guarantee that will work on RHEL 7.9. </div><div><br></div><div>Upgrading 7.9 to 8.3 on 30+ computing nodes is not realistic. The down time would be significant. Updating CUDA and cuDNN across 23+ servers is also non trivial as it requires reboot. Upgrading cuda on 5 GPU servers per week seems a more reasonable and less risky approach. Are there any impending deadlines that I should be aware of? If Ben who is CC to this email confirms that I would be happy to try to upgrade CUDA to 8.3 on GPU[1-5] and install cuDNN v8.1 but I will not upgrade OS to 8.3.  </div><div><br></div><div>Best,</div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Apr 17, 2021 at 10:40 AM Ifigeneia Apostolopoulou <<a href="mailto:iapostol@andrew.cmu.edu" target="_blank">iapostol@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Predrag,</div><div><br></div><div>on gpu1/gpu2, I'm getting the following error:</div><div><br></div><div>RuntimeError: Mixed dnn version. The header is version 8002 while the library is version 7605.</div><div><br></div><div>It seems that there exists an updated cudnn.h in /usr/include/ but no in</div><div><br></div><div>/usr/local/cuda-11/include</div><div>/usr/local/cuda-11/targets/include/</div><div><br></div><div>In gpu20, there seems to be  no cudnn.h.</div><div><br></div><div>would it be possible to sync cudnn.h??</div><div><br></div><div>thanks!<br></div><div><br></div><div><br></div></div>
</blockquote></div>
</div></blockquote></div><br></div></div></blockquote></div>