<div dir="ltr">reminder: today at noon. lunch will be provided.<div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Oct 16, 2013 at 2:26 PM, Dani Yogatama <span dir="ltr"><<a href="mailto:dyogatama@cs.cmu.edu" target="_blank">dyogatama@cs.cmu.edu</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><b style="font-family:arial,sans-serif;font-size:13px">CL+NLP Lunch </b><font face="arial, sans-serif">(</font><font color="#1155cc" face="arial, sans-serif"><u><a href="http://www.cs.cmu.edu/~nlp-lunch/" target="_blank">http://www.cs.cmu.edu/~nlp-lunch/</a></u></font><font face="arial, sans-serif">)</font><br>


<b style="font-family:arial,sans-serif;font-size:13px">Speaker</b><font face="arial, sans-serif">: Jan Botha, </font><span style="font-family:arial,sans-serif;font-size:13px">Oxford University</span><br><b style="font-family:arial,sans-serif;font-size:13px">Date</b><font face="arial, sans-serif">: Thursday, October 24, 2013</font><br>


<b style="font-family:arial,sans-serif;font-size:13px">Time</b><font face="arial, sans-serif">: 12:00 noon</font><br><b style="font-family:arial,sans-serif;font-size:13px">Venue</b><font face="arial, sans-serif">: GHC 6115</font><br>


</div><span style="font-family:arial,sans-serif;font-size:13px"><div><br></div><b>Title</b>: </span><span style="font-family:arial,sans-serif;font-size:13px">Unsupervised learning of non+concatenative morphology</span><div style="font-family:arial,sans-serif;font-size:13px">


<br><b>Abstract</b>: <div>The popular view of words as sequences of morphemes may work<br>for unsupervised morphological analysis of various languages, but it<br>is overly simplistic in the face of non-concatenative phenomena such<br>


as root-templatic stem derivation in Semitic languages. I'll present a<br>nonparametric Bayesian approach that addresses concatenative and<br>non-concatenative morphology simultaneously. Experiments on Arabic and<br>

Hebrew show that the richer account of stem morphology improves<br>
morphological segmentation. Identification of discontiguous root<br>morphemes is fairly accurate and could be a source of features for<br>downstream language processing tasks. To illustrate the flexibility of<br>the approach, I'll also sketch some untested instantiations targeting<br>


other non-concatenative processes such as circumfixing and infixing.<br><br><b>Biography</b>: </div><div>Jan Botha is a fourth-year PhD student at Oxford University. As a<br>member of the Computational Linguistics Group, his research focuses on<br>


statistical modelling of morphologically rich languages. This interest<br>has led him on excursions into Bayesian nonparametrics and, more<br>recently, distributed representation learning. Before moving to Oxford<br>to take up his Rhodes scholarship, he completed an interdisciplinary<br>


Honours Bachelors degree in Physics, Maths and Computer Science at<br>Stellenbosch University in South Africa.<br></div></div></div>
</blockquote></div><br></div></div>