<div dir="ltr"><div class="gmail_default" style="color:#0b5394"><div class="gmail_default">A gentile <span class="gmail-il">reminder</span> that the following talk will happen tomorrow 12 pm at GHC 6115. </div></div><br><div class="gmail_quote"><div dir="ltr">Han Zhao <<a href="mailto:han.zhao@cs.cmu.edu">han.zhao@cs.cmu.edu</a>> 于2018年10月20日周六 下午9:50写道:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><span style="color:rgb(34,34,34)">Dear faculty and students:</span><br style="color:rgb(34,34,34)"><br style="color:rgb(34,34,34)"><span style="color:rgb(34,34,34)">We look forward to seeing you next Tuesday, Oct. 23rd, at noon in GHC 6115 for </span><span class="m_8235909759411723691gmail-il" style="color:rgb(34,34,34)">AI</span><span style="color:rgb(34,34,34)"> </span><span class="m_8235909759411723691gmail-il" style="color:rgb(34,34,34)">Seminar</span><span style="color:rgb(34,34,34)"> sponsored by Apple. To learn more about the </span><span class="m_8235909759411723691gmail-il" style="color:rgb(34,34,34)">seminar</span><span style="color:rgb(34,34,34)"> series, please visit the website. </span><br style="color:rgb(34,34,34)"><span style="color:rgb(34,34,34)">On Tuesday, </span>Devendra Chaplot<span style="color:rgb(34,34,34)"> will give the following talk:</span></div><div><span style="color:rgb(34,34,34)"><br></span></div><div><span style="color:rgb(34,34,34)">Title: </span>Embodied Multimodal Multitask Learning</div><div><br></div><div><font color="#0b5394"></font>Abstract: Recent efforts on training visual navigation agents conditioned on language using deep reinforcement learning have been successful in learning policies for two multimodal tasks: learning to follow navigational instructions and embodied question answering. We aim to learn a multitask model capable of jointly learning both tasks, and transferring knowledge of words and their grounding in visual objects across tasks. The proposed model uses a novel Dual-Attention unit to disentangle the knowledge of words in the textual representations and visual objects in the visual representations, and align them with each other. This disentangled task-invariant alignment of representations facilitates grounding and knowledge transfer across both tasks. We show that the proposed model outperforms a range of baselines on both tasks in simulated 3D environments. We also show that this disentanglement of representations makes our model modular, interpretable, and allows for zero-shot transfer to instructions containing new words by leveraging object detectors.</div>-- <br><div dir="ltr" class="m_8235909759411723691gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>Han Zhao<br>Machine Learning Department</b></span></div><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>School of Computer Science<br>Carnegie Mellon University<br>Mobile: +1-</b></span><b style="color:rgb(136,136,136);font-size:13px">412-652-4404</b></div></div></div></div></div></div>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>Han Zhao<br>Machine Learning Department</b></span></div><div><span style="font-size:13px;border-collapse:collapse;color:rgb(136,136,136)"><b>School of Computer Science<br>Carnegie Mellon University<br>Mobile: +1-</b></span><b style="color:rgb(136,136,136);font-size:13px">412-652-4404</b></div></div></div></div></div></div>