<div dir="ltr"><div><b style="font-family:arial,sans-serif;font-size:13px">CL+NLP Lunch </b><font face="arial, sans-serif">(</font><font color="#1155cc" face="arial, sans-serif"><u><a href="http://www.cs.cmu.edu/~nlp-lunch/" target="_blank">http://www.cs.cmu.edu/~nlp-lunch/</a></u></font><font face="arial, sans-serif">)</font><br>

<b style="font-family:arial,sans-serif;font-size:13px">Speaker</b><font face="arial, sans-serif">: Jan Botha, </font><span style="font-family:arial,sans-serif;font-size:13px">Oxford University</span><br><b style="font-family:arial,sans-serif;font-size:13px">Date</b><font face="arial, sans-serif">: Thursday, October 24, 2013</font><br>

<b style="font-family:arial,sans-serif;font-size:13px">Time</b><font face="arial, sans-serif">: 12:00 noon</font><br><b style="font-family:arial,sans-serif;font-size:13px">Venue</b><font face="arial, sans-serif">: GHC 6115</font><br>

</div><span style="font-family:arial,sans-serif;font-size:13px"><div><br></div><b>Title</b>: </span><span style="font-family:arial,sans-serif;font-size:13px">Unsupervised learning of non+concatenative morphology</span><div style="font-family:arial,sans-serif;font-size:13px">

<br><b>Abstract</b>: <div>The popular view of words as sequences of morphemes may work<br>for unsupervised morphological analysis of various languages, but it<br>is overly simplistic in the face of non-concatenative phenomena such<br>

as root-templatic stem derivation in Semitic languages. I'll present a<br>nonparametric Bayesian approach that addresses concatenative and<br>non-concatenative morphology simultaneously. Experiments on Arabic and<br>
Hebrew show that the richer account of stem morphology improves<br>
morphological segmentation. Identification of discontiguous root<br>morphemes is fairly accurate and could be a source of features for<br>downstream language processing tasks. To illustrate the flexibility of<br>the approach, I'll also sketch some untested instantiations targeting<br>

other non-concatenative processes such as circumfixing and infixing.<br><br><b>Biography</b>: </div><div>Jan Botha is a fourth-year PhD student at Oxford University. As a<br>member of the Computational Linguistics Group, his research focuses on<br>

statistical modelling of morphologically rich languages. This interest<br>has led him on excursions into Bayesian nonparametrics and, more<br>recently, distributed representation learning. Before moving to Oxford<br>to take up his Rhodes scholarship, he completed an interdisciplinary<br>

Honours Bachelors degree in Physics, Maths and Computer Science at<br>Stellenbosch University in South Africa.<br></div></div></div>