<div dir="ltr">Hi Ifigeneia,<div><br></div><div>I am CC-ing as this might be of wider interest to the lab members. </div><div><br></div><div>This seems to be a cuDNN issue. gpu1 runs cuda11.2 on RHEL 7.9 while gpu2 runs cuda11 on RHEL7.9. Current CUDA  release is 11.3 and all recently provisioned computing nodes run RHEL 8.3. In an ideal world I should firstly upgrade all computing nodes to 8.3 and CUDA installations to 11.3 before we talk about cuDNN libraries.  cuDNN is a proprietary software. I logged into my NVidia developer account and I am downloading RedHat 8.1 RPMs of cuDNN v8.1 released on February 26. That release supposedly should be compatible with all versions of CUDA branch 11 i.e. 11.0, 11.1, 11.2, and 11.3 but runs on RHEL 8.1 (so there is no guarantee that it will run on 8.3). I can download RMPs for RHEL 7.3 but obviously there is no guarantee that will work on RHEL 7.9. </div><div><br></div><div>Upgrading 7.9 to 8.3 on 30+ computing nodes is not realistic. The down time would be significant. Updating CUDA and cuDNN across 23+ servers is also non trivial as it requires reboot. Upgrading cuda on 5 GPU servers per week seems a more reasonable and less risky approach. Are there any impending deadlines that I should be aware of? If Ben who is CC to this email confirms that I would be happy to try to upgrade CUDA to 8.3 on GPU[1-5] and install cuDNN v8.1 but I will not upgrade OS to 8.3.  </div><div><br></div><div>Best,</div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Apr 17, 2021 at 10:40 AM Ifigeneia Apostolopoulou <<a href="mailto:iapostol@andrew.cmu.edu" target="_blank">iapostol@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi Predrag,</div><div><br></div><div>on gpu1/gpu2, I'm getting the following error:</div><div><br></div><div>RuntimeError: Mixed dnn version. The header is version 8002 while the library is version 7605.</div><div><br></div><div>It seems that there exists an updated cudnn.h in /usr/include/ but no in</div><div><br></div><div>/usr/local/cuda-11/include</div><div>/usr/local/cuda-11/targets/include/</div><div><br></div><div>In gpu20, there seems to be  no cudnn.h.</div><div><br></div><div>would it be possible to sync cudnn.h??</div><div><br></div><div>thanks!<br></div><div><br></div><div><br></div></div>
</blockquote></div>