<div dir="ltr"><br clear="all"><div><div>Dear Connectionists.</div><div>We have studied models of supervised learning under concept drift</div><div>using  methods from the statistical  physics of learning. We consider different</div><div>drift scenarios in prototype-based classification and investigate the influence</div><div>of drift and weight decay in layered neural networks for regression. </div><div><br></div><div>A corresponding e-print  is <span class="gmail-il">available</span> at </div><div><a href="https://arxiv.org/abs/2005.10531">https://arxiv.org/abs/2005.10531</a>: <br></div><div><br><font color="#000000" face="Lucida Grande, Helvetica, Arial, sans-serif"><b style="">Supervised Learning in the Presence of Concept Drift<br>A modelling framework</b></font></div><div dir="ltr">M. Straat, F. Abadi, Z. Kan, C. Göpfert, B. Hammer, M. Biehl</div><div><br></div><div>Abstract </div><div dir="ltr">We present a modelling framework for the investigation of supervised learning in non-stationary environments. Specifically, we model two example types of learning systems: prototype-based Learning Vector Quantization (LVQ) for classification and shallow, layered neural networks for regression tasks. We investigate so-called student teacher scenarios in which the systems are trained from a stream of high-dimensional, labeled data. Properties of the target task are considered to be non-stationary due to drift processes while the training is performed. Different types of concept drift are studied, which affect the density of example inputs only, the target rule itself, or both. By applying methods from statistical physics, we develop a modelling framework for the mathematical analysis of the training dynamics in non-stationary environments.<br>Our results show that standard LVQ algorithms are already suitable for the training in non-stationary environments to a certain extent. However, the application of weight decay as an explicit mechanismof forgetting does not improve the performance under the considered drift processes. Furthermore, we investigate gradient-based training of layered neural networks with sigmoidal activation functions and compare with the use of rectified linear units (ReLU). Our findings show that the sensitivity to concept drift and the effectiveness of weight decay differs significantly between the two types of activation function.</div><div dir="ltr"><br></div></div><br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div>------------------------------------------------------------</div>
<div> </div>
<div>Michael Biehl</div><div><div>Bernoulli Institute for</div><div>Mathematics, Computer Science</div><div>and Artificial Intelligence</div><div>P.O. Box 407, 9700 AK Groningen</div><div>The Netherlands</div></div>
<div><br></div><div>Tel. +31 50 363 3997 <br></div><div><br></div>
<div><a href="http://www.cs.rug.nl/~biehl" target="_blank">www.cs.rug.nl/~biehl</a></div>
<div><a href="mailto:m.biehl@rug.nl" target="_blank">m.biehl@rug.nl</a> </div></div></div></div></div></div></div>