<div dir="ltr">I used IPMI to power off/on GPU24. I am now logged into that node as well monitoring use.<div><br></div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Nov 9, 2022 at 12:36 AM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Dear Autonians,<br><div><br></div><div>I am noticing a pattern here. A few (less or equal than 5) are fighting over the four most potent computing nodes in our cluster GPU[24-27]. Those few users have managed to chase away everyone else and got into the  vicious cycle of running jobs too big even for those machines and killing all daemons and NFS mounts in the process. I don't know a thing about ML but this is not the way to conduct "scientific research". <br><br><br>This will have to stop. I am currently logging into GPU[25-27]. GPU24 is not reachable even with my root ssh access. ssh daemon is usually one of the very last daemons to be killed by overuse of resources. I will remain logged for a few days and monitor activity. Repeated offenders will be reported.<br></div><div><br></div><div>Cheers,</div><div>Predrag</div></div>
</blockquote></div>