<div dir="ltr">Dear all,<br><br>We look forward to seeing you next <b>Tuesday (02/04) from 12:00-1:00 PM (ET)</b> for the next talk of CMU AI Seminar, sponsored by <a href="https://sambanova.ai/" target="_blank">SambaNova Systems</a>. The seminar will be held in <b><span class="gmail-il">GHC</span> <span class="gmail-il">6115</span></b> with pizza provided and will be streamed on Zoom.<br><br>To learn more about the seminar series or to see the future schedule, please visit the seminar website (<a href="http://www.cs.cmu.edu/~aiseminar/" target="_blank">http://www.cs.cmu.edu/~aiseminar/</a>).<div><br></div><div><span style="background-color:rgb(255,255,0)">Next Tuesday (02/04) Yuchen Li (CMU) will be giving a talk titled: "Towards Mathematical Understanding of Modern Language Models".</span></div><div><b><br></b></div><div><b>Abstract</b><br><div><div>To mathematically reason about how neural networks learn languages, our methodology involves three major components: (1) mathematically characterizing key structures in language data distributions, (2) theoretically proving how neural networks capture such structures through self-supervision during pre-training, and (3) conducting controlled experiments using synthetic data. In this talk, I will survey a few applications of this methodology: understanding Transformers training dynamics via the lens of topic models, and proving pitfalls in common Transformer interpretability heuristics via the lens of a formal language (the Dyck grammar). These results illustrate some promises and challenges for this methodology. Finally, I will share some thoughts on key open questions.</div><div>Paper links:<br>1. Yuchen Li, Yuanzhi Li, and Andrej Risteski. How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding. ICML 2023. <a href="https://arxiv.org/abs/2303.04245" target="_blank">https://arxiv.org/abs/2303.04245</a><br>2. Kaiyue Wen, Yuchen Li, Bingbin Liu, Andrej Risteski. Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars. NeurIPS 2023. <a href="https://arxiv.org/abs/2312.01429" target="_blank">https://arxiv.org/abs/2312.01429</a><br><br><br><div><b><u>Speaker bio: </u></b></div><div>Yuchen Li (  <a href="https://www.cs.cmu.edu/~yuchenl4/" target="_blank">https://www.cs.cmu.edu/~yuchenl4/</a> ) is a Ph.D. student in the Machine Learning Department at Carnegie Mellon University, advised by Professor Andrej Risteski. Yuchen's research interest is in improving the mathematical understanding of language models (training dynamics, efficient sampling, mechanistic interpretability). <br></div><div><br></div></div><div><b>In person: GHC 6115</b></div><div>Zoom Link:<b><font color="#0b5394"> <a href="https://cmu.zoom.us/j/93599036899?pwd=oV45EL19Bp3I0PCRoM8afhKuQK7HHN.1">https://cmu.zoom.us/j/93599036899?pwd=oV45EL19Bp3I0PCRoM8afhKuQK7HHN.1</a></font></b></div><div><br></div></div></div></div>