<div dir="ltr"><div class="gmail_default" style=""><span style="color:rgb(34,34,34)">Dear faculty and students:</span><br style="color:rgb(34,34,34)"><br style="color:rgb(34,34,34)"><span style="color:rgb(34,34,34)">We look forward to seeing you next Tuesday, Oct. 23rd, at noon in GHC 6115 for </span><span class="gmail-il" style="color:rgb(34,34,34)">AI</span><span style="color:rgb(34,34,34)"> </span><span class="gmail-il" style="color:rgb(34,34,34)">Seminar</span><span style="color:rgb(34,34,34)"> sponsored by Apple. To learn more about the </span><span class="gmail-il" style="color:rgb(34,34,34)">seminar</span><span style="color:rgb(34,34,34)"> series, please visit the website. </span><br style="color:rgb(34,34,34)"><span style="color:rgb(34,34,34)">On Tuesday, </span>Devendra Chaplot<span style="color:rgb(34,34,34)"> will give the following talk:</span></div><div class="gmail_default" style=""><span style="color:rgb(34,34,34)"><br></span></div><div class="gmail_default" style=""><span style="color:rgb(34,34,34)">Title: </span>Embodied Multimodal Multitask Learning</div><div class="gmail_default" style=""><br></div><div class="gmail_default" style=""><font color="#0b5394"></font>Abstract: Recent efforts on training visual navigation agents conditioned on language using deep reinforcement learning have been successful in learning policies for two multimodal tasks: learning to follow navigational instructions and embodied question answering. We aim to learn a multitask model capable of jointly learning both tasks, and transferring knowledge of words and their grounding in visual objects across tasks. The proposed model uses a novel Dual-Attention unit to disentangle the knowledge of words in the textual representations and visual objects in the visual representations, and align them with each other. This disentangled task-invariant alignment of representations facilitates grounding and knowledge transfer across both tasks. We show that the proposed model outperforms a range of baselines on both tasks in simulated 3D environments. We also show that this disentanglement of representations makes our model modular, interpretable, and allows for zero-shot transfer to instructions containing new words by leveraging object detectors.</div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>Han Zhao<br>Machine Learning Department</b></span></div><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>School of Computer Science<br>Carnegie Mellon University<br>Mobile: +1-</b></span><b style="color:rgb(136,136,136);font-size:13px">412-652-4404</b></div></div></div></div></div></div>