<div dir="ltr">Dear all,<div><br></div><div><div>We look forward to seeing you <b>this Tuesday (3/19)</b> from <b><font color="#ff0000">1</font></b><font color="#ff0000"><b>2:00-1:00 PM (U.S. Eastern time)</b></font> for the next talk of this semester's <b>CMU AI Seminar</b>, sponsored by <a href="https://sambanova.ai/" target="_blank">SambaNova Systems</a>. The seminar will be held in GHC 6115 <b>with pizza provided </b>and will<b> </b>be streamed on Zoom.</div><div><br></div><div>To learn more about the seminar series or to see the future schedule, please visit the <a href="http://www.cs.cmu.edu/~aiseminar/" target="_blank">seminar website</a>.</div><div><br></div><font color="#0b5394"><span style="background-color:rgb(255,255,0)">On this Tuesday (3/19), <u>Sachin Goyal</u> </span><span style="background-color:rgb(255,255,0)">(CMU) will be giving a talk titled </span><b style="background-color:rgb(255,255,0)">"Think before you speak: Training Language Models With Pause Tokens</b></font><b style="color:rgb(11,83,148);background-color:rgb(255,255,0)">"</b><font color="#0b5394" style="background-color:rgb(255,255,0)">.</font></div><div><font color="#0b5394"><span style="background-color:rgb(255,255,0)"><br></span><b>Title</b>: Think before you speak: Training Language Models With Pause Tokens<br><br></font><div><font color="#0b5394"><b>Talk Abstract</b>: Transformer-based language models generate responses by producing a series of tokens in immediate succession: the (K + 1)th token is an outcome of manipulating K hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, K + 10 hidden vectors, before it outputs the (K + 1)th token?</font></div><font color="#0b5394">In this talk, we will discuss how we can teach language models to use additional tokens (say pause tokens) to its advantage. Can the language model use these extra tokens for processing extra computations before committing to an answer. We will specifically explore if this can be done just by just finetuning an off-the-shelf language model or if it is necessary to pretrain from scratch to elicit such new behaviours.<br>Finally, we will discuss a range of conceptual and practical future research questions raised by our work, spanning new notions of representation capacity beyond the parametric count and making delayed next-token prediction a widely applicable paradigm.</font></div><div><font color="#0b5394"> </font><div><div><div><font color="#0b5394"><b>Speaker Bio:</b> Sachin Goyal is a PhD student in the Machine Learning Department at CMU. He works on improving pretraining and robust finetuning for foundation models.</font></div><div><font color="#0b5394"><br></font></div><div><font color="#0b5394"><b>In person: </b>NSH 3305</font></div><div><font color="#0b5394"><b>Zoom Link</b>:  <a href="https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09" target="_blank">https://cmu.zoom.us/j/99510233317?pwd=ZGx4aExNZ1FNaGY4SHI3Qlh0YjNWUT09</a></font></div></div></div></div><div><br></div><div>Thanks,</div><div>Asher Trockman</div></div>