<div dir="ltr">Fixed! All computing nodes are available.<div><br></div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 2, 2022 at 6:31 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Sorry for the delayed update. There is nothing wrong with electricity. The network switch is busted! I have two spare switches in the storage room. I am replacing it right now. Hopefully one of them will be good.<div><br></div><div>Best,</div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 1, 2022 at 11:38 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">PDU's master cable plug (IEC 60309 60 A 3P + PE) is still plugged into the floor outlet. Somebody was either  messing with the main electric switchboard or we have catastrophic failure of the PDU.<div><br></div><div>I emailed the director of CS computing facility Ed Walter. I would be very surprised that any major electric work (switchboard) was done without me not knowing about it. CMU doesn't have people who are licensed to do that kind of work. We hire external crew and such for is scheduled months in advance.</div><div><br></div><div>I will inspect the cables and the unit tomorrow after I hear back from Ed.  It looks like the replacement PDU is close to $4000. We used to buy them for about $1800.</div><div><br></div><div>Best,</div><div>Predrag</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 1, 2022 at 11:14 PM Predrag Punosevac <<a href="mailto:predragp@andrew.cmu.edu" target="_blank">predragp@andrew.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi Conor,<div><br></div><div>I just noticed myself. It is not just GPUs 1-9 it is also Denver. The common thing for all those 10 servers is that they draw electricity from the same Metered 17.3 kW PDU. Sure enough IPMI is off as well which confirms that there is no electric power in that server RACK. Somebody cut the electricity to the RACK A1-2A or PDU had a catastrophic failure. I am now calling the server room to have them physically inspect the rack. </div><div><br></div><div>Best,</div><div>Predrag </div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 1, 2022 at 6:37 PM Conor Igoe <<a href="mailto:cigoe@cs.cmu.edu" target="_blank">cigoe@cs.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Predrag,<div><br></div><div>Sorry to bother you, but I was wondering if you knew why GPUs 1-9 are offline since earlier today? </div><div><br></div><div>Best,</div><div><i>Conor</i></div></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>