<div dir="ltr">Dear all,<div><br></div><div><div>We look forward to seeing you <b>this Tuesday (12/5)</b> from <b><font color="#ff0000">1</font></b><font color="#ff0000"><b>2:00-1:00 PM (U.S. Eastern time)</b></font> for the next talk of this semester's <b>CMU AI Seminar</b>, sponsored by <a href="https://sambanova.ai/" target="_blank">SambaNova Systems</a>. The seminar will be held in NSH 3305 <b>with pizza provided </b>and will<b> </b>be streamed on Zoom.</div><div><br></div><div>To learn more about the seminar series or to see the future schedule, please visit the <a href="http://www.cs.cmu.edu/~aiseminar/" target="_blank">seminar website</a>.</div><div><br></div><font color="#0b5394"><span style="background-color:rgb(255,255,0)">On this Tuesday (12/5), <u>Elan Rosenfeld</u> </span><span style="background-color:rgb(255,255,0)">(CMU) will be giving a talk titled </span><b style="background-color:rgb(255,255,0)">"</b></font><span style="background-color:rgb(255,255,0)"><font color="#0b5394"><b>Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization</b></font></span><b style="color:rgb(11,83,148);background-color:rgb(255,255,0)">"</b><font color="#0b5394" style="background-color:rgb(255,255,0)">.</font></div><div><font color="#0b5394"><span style="background-color:rgb(255,255,0)"><br></span><b>Title</b>: Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization<br><br></font><div><font color="#0b5394"><b>Talk Abstract</b>: There is a growing list of intriguing properties of neural network optimization, including specific patterns in their training dynamics (e.g. simplicity bias, edge of stability, grokking) and the unexplained effectiveness of various tools (e.g. batch normalization, SAM, Adam). Extensive study of these properties has so far yielded only a partial understanding of their origins—and their relation to one another is even less clear. What is it about gradient descent on neural networks that gives rise to these phenomena?</font></div><div><font color="#0b5394"><br></font></div><font color="#0b5394">In this talk, I will present our recent experiments which offer a new perspective on many of these findings and suggest that they may have a shared underlying cause. Our investigation identifies and explores the significant influence of paired groups of outliers with what we call Opposing Signals: large magnitude features that dominate the network’s output throughout most of training and cause large gradients pointing in opposite directions.</font></div><div><font color="#0b5394"><br>Though our experiments shed some light on these outliers’ influence, we lack a complete understanding of their precise effect on network training dynamics. Instead, I’ll share our working hypothesis via a high-level explanation, and I’ll describe initial experiments which verify some of its qualitative predictions. We hope a deeper understanding of this phenomenon will enable future principled improvements to neural network optimization.</font></div><div><font color="#0b5394"> </font><div><div><div><font color="#0b5394"><b>Speaker Bio:</b> <a href="https://www.cs.cmu.edu/~elan/">Elan Rosenfeld</a> is a final year PhD student in CMU MLD advised by Profs. Andrej Risteski and Pradeep Ravikumar. His research focuses on principled approaches to understanding and improving robustness, representation learning, and generalization in deep learning.</font></div><div><font color="#0b5394"><br></font></div><div><font color="#0b5394"><b>In person: </b>NSH 3305</font></div><div><font color="#0b5394"><b>Zoom Link</b>:  <a href="https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09" target="_blank">https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09</a></font></div></div></div></div><div><br></div><div>Thanks,</div><div>Asher Trockman</div></div>