<div dir="ltr">Dear Autonians,<div><br></div><div>Please come and enjoy an exceptional opportunity to learn about learning from diverse forms of information from Yichong, who will be presenting his thesis proposal this Thursday at 1pm in GHC 4405.</div><div><br></div><div>Cheers</div><div>Artur</div><div><br><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">---------- Forwarded message ---------<br>From: <strong class="gmail_sendername" dir="auto">Diane Stidle</strong> <span dir="auto"><<a href="mailto:stidle@andrew.cmu.edu">stidle@andrew.cmu.edu</a>></span><br>Date: Fri, Nov 1, 2019 at 3:12 PM<br>Subject: Thesis Proposal - Nov. 14, 2019 - Yichong Xu - Learning and Decision Making from Diverse Forms of Information<br>To: <a href="mailto:ml-seminar@cs.cmu.edu">ml-seminar@cs.cmu.edu</a> <<a href="mailto:ML-SEMINAR@cs.cmu.edu">ML-SEMINAR@cs.cmu.edu</a>>,  <<a href="mailto:jcl@microsoft.com">jcl@microsoft.com</a>><br></div><br><br>
  

    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <p><i><b>Thesis Proposal</b></i></p>
    <p>Date: November 14, 2019<br>
      Time: 1:00pm (EST)<br>
      Place: GHC 4405<br>
      Speaker: Yichong Xu</p>
    <p><b>Title: Learning and Decision Making from Diverse Forms of
        Information</b></p>
    <p>Abstract: <br>
      Classical machine learning posits that data are independently and
      identically distributed, in a single format usually the same as
      test data. In modern applications however, additional information
      in other formats might be available freely or at a lower cost. For
      example, in data crowdsourcing we can collect preferences over the
      data points instead of directly asking the labels of a single data
      point at a lower cost. In natural language understanding problems,
      we might have limited amount of data in the target domain, but can
      use a large amount of general domain data for free.</p>
    <p>The main topic of this thesis is to study how to efficiently
      incorporate these diverse forms of information into the learning
      and decision making process. We study two representative paradigms
      in this thesis. Firstly, we study learning and decision making
      problems with direct labels and comparisons. Our algorithms can
      efficiently combine comparisons with direct labels so that the
      total learning cost can be greatly reduced. Secondly, we study
      multi-task learning problems from multiple domain data, and design
      algorithms to transfer the data from a general, abundant domain to
      the target domain. We show theoretical guarantees of our
      algorithms as well as their statistical minimaxity through
      information-theoretic limits. On the practical side, we
      demonstrate promising experimental results on price estimation and
      natural language understanding tasks.</p>
    <p><b>Thesis Committee:</b><br>
      Artur Dubrawski (Co-Chair)<br>
      Aarti Singh (Co-Chair)<br>
      Sivaraman Balakrishnan<br>
      John Langford (Microsoft Research)</p>
    <p>Link to the draft document:<br>
      <a href="https://www.dropbox.com/s/6r6qk3d7hkfkl8p/proposal.pdf?dl=0" target="_blank">https://www.dropbox.com/s/6r6qk3d7hkfkl8p/proposal.pdf?dl=0</a><br>
    </p>
    <pre cols="72">-- 
Diane Stidle
Graduate Programs Manager
Machine Learning Department
Carnegie Mellon University
<a href="mailto:stidle@cmu.edu" target="_blank">stidle@cmu.edu</a>
412-268-1299</pre>
  </div>

</div></div></div>