<div dir="ltr">Reminder this is happening today!</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Nov 11, 2023 at 5:43 PM Asher Trockman <<a href="mailto:ashert@cs.cmu.edu">ashert@cs.cmu.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex"><div dir="ltr">Dear all,<div><br></div><div><div>We look forward to seeing you <b>this Tuesday (11/14)</b> from <b><font color="#ff0000">1</font></b><font color="#ff0000"><b>2:00-1:00 PM (U.S. Eastern time)</b></font> for the next talk of this semester's <b>CMU AI Seminar</b>, sponsored by <a href="https://sambanova.ai/" target="_blank">SambaNova Systems</a>. The seminar will be held in GHC 6115 <b>with pizza provided </b>and will<b> </b>be streamed on Zoom.</div><div><br></div><div><b>🔜 Please email me if you would like to <u>schedule a meeting with Cyril.</u></b></div><div><b><br></b></div><div>To learn more about the seminar series or to see the future schedule, please visit the <a href="http://www.cs.cmu.edu/~aiseminar/" target="_blank">seminar website</a>.</div><div><br></div><font color="#0b5394"><span style="background-color:rgb(255,255,0)">On this Tuesday (11/14), <u>Cyril Zhang</u> </span><span style="background-color:rgb(255,255,0)">(Microsoft Research) will be giving a talk titled </span><b style="background-color:rgb(255,255,0)">"</b></font><b><font color="#0b5394" style="background-color:rgb(255,255,0)">Overstepping the Descent Lemma</font></b><b style="color:rgb(11,83,148);background-color:rgb(255,255,0)">"</b><font color="#0b5394" style="background-color:rgb(255,255,0)">.</font></div><div><font color="#0b5394"><span style="background-color:rgb(255,255,0)"><br></span><b>Title</b>: Overstepping the Descent Lemma<br><br></font><div><font color="#0b5394"><b>Talk Abstract</b>: What are the dynamics of gradient-based algorithms for optimizing neural networks? By what principles should we design update rules for deep learning? These are extremely messy questions, to which there are no canonical answers yet. In attempting to address these mysteries with our cherished theoretical frameworks, we face a recurring theme: a tension between over-idealization and intractability. We'll discuss how asking "non-standard" questions in clean theoretical models can shed light on weird, wonderful, and empirically-pertinent nuances of the trajectory of SGD:</font></div><font color="#0b5394"><br><i>    • Acceleration via large steps.</i> By staying within the paradise of low-noise convex quadratics, we show how making negative local progress can lead to faster global convergence, via a self-stabilizing “fractal” learning rate schedule.<br><i>    • Variance reduction without side effects.</i> We show how gradient stochasticity can cause catastrophic error amplification in the presence of feedback loops (like in offline RL or autoregressive language generation). Many variance reduction mechanisms help, but Polyak averaging is almost unreasonably effective; we discuss why it’s hard to analyze all these moving parts.<br><i>    • Non-convex feature learning.</i> By taking a close look at how deep learning overcomes a "mildly cryptographic" computational obstruction (namely, learning a sparse parity), we arrive at a clean testbed for neural representation learning. With this microscopic proxy for a single neuron’s training dynamics, mysteries such as grokking, lottery tickets, and scaling laws are recognizable and analyzable.</font></div><div><font color="#0b5394"><br>Another recurring theme is that hard mathematical questions in this space are more clearly exposed by running targeted numerical experiments, including training deep networks on GPUs. I’ll highlight some exciting progress that other groups have made in recent months.<br><br>Joint work with Naman Agarwal, Surbhi Goel, Adam Block, Dylan Foster, Akshay Krishnamurthy, Max Simchowitz, Boaz Barak, Ben Edelman, Sham Kakade, and Eran Malach.</font></div><div><font color="#0b5394"> </font><div><div><div><font color="#0b5394"><b>Speaker Bio:</b> <a href="https://cyrilzhang.com" target="_blank">Cyril Zhang</a> is a Senior Researcher at Microsoft Research NYC. He has worked on learning and control in dynamical systems, online & stochastic optimization, and (most recently) a nascent theoretical, scientific, and algorithmic toolbox for neural reasoning. He holds a Ph.D. in Computer Science from Princeton University.</font></div><div><font color="#0b5394"><br></font></div><div><font color="#0b5394"><b>In person: </b>GHC 6115</font></div><div><font color="#0b5394"><b>Zoom Link</b>:  <a href="https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09" target="_blank">https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09</a></font></div></div></div></div><div><br></div><div>Thanks,</div><div>Asher Trockman</div></div>
</blockquote></div>