<div dir="ltr"><div>This is a reminder that this talk is tomorrow, <span style="font-family:arial,helvetica,sans-serif;font-size:12.8px">Tuesday, November 8th, at noon in NSH 3305.</span></div><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Ellen Vitercik</b> <span dir="ltr"><<a href="mailto:vitercik@cs.cmu.edu">vitercik@cs.cmu.edu</a>></span><br>Date: Fri, Nov 4, 2016 at 9:55 AM<br>Subject: AI Lunch -- Zhaohan (Daniel) Guo -- November 8<br>To: <a href="mailto:ai-seminar-announce@cs.cmu.edu">ai-seminar-announce@cs.cmu.edu</a>, "Zhaohan (Daniel) Guo" <<a href="mailto:zguo@cs.cmu.edu">zguo@cs.cmu.edu</a>><br><br><br><div dir="ltr"><div><span style="font-family:arial,helvetica,sans-serif">Hi all,</span></div><div><span style="font-family:arial,helvetica,sans-serif"><br></span></div><div><span style="font-family:arial,helvetica,sans-serif">We look forward to seeing you this Tuesday, November 8th, at noon in NSH 3305 for AI lunch. To learn more about the seminar and lunch, please visit the </span><a href="http://www.cs.cmu.edu/~aiseminar/" style="font-family:arial,helvetica,sans-serif" target="_blank">AI Lunch webpage</a><span style="font-family:arial,helvetica,sans-serif">.</span><br style="font-family:arial,helvetica,sans-serif"><br style="font-family:arial,helvetica,sans-serif"><span style="font-family:arial,helvetica,sans-serif">On Tuesday, </span><a href="http://www.cs.cmu.edu/~zguo/" style="font-family:arial,helvetica,sans-serif" target="_blank">Zhaohan (Daniel) Guo</a><span style="font-family:arial,helvetica,sans-serif"> </span>will give a talk titled "A PAC RL Algorithm for Episodic POMDPs."</div><div><br></div><div><b>Abstract:</b> Many interesting real world domains involve reinforcement learning (RL) in partially observable environments. Efficient learning in such domains is important, but existing sample complexity bounds for partially observable RL are at least exponential in the episode length. Polynomial sample complexity bounds are prevalent for fully observable environments, so we looked for a way to do the same for POMDPs. Generally, polynomial sample complexity bounds for POMDPs are impossible, since observations may give no information about the underlying dynamics. However  we can build on recent advances in estimating latent variable models using method of moments, specifically confidence bounds on method of moment estimators for HMMs. These methods quantify problem specific properties, allowing us to give, to our knowledge, the first partially observable RL algorithm with a problem specific polynomial bound on the sample complexity.</div></div>
</div><br></div>