<div dir="ltr">Apologies for the cross postings.<br><br>We are pleased to announce the first stable version of our ReForeSt library.<br><a href="https://github.com/alessandrolulli/reforest">https://github.com/alessandrolulli/reforest</a><br>which is made available under the Apache License 2.0 on GitHub<br><br>Key features<br>- Implemented in Scala to be fully distributed on Apache Spark<br>- Implements Random Forests [1]<br>- Implements Random Rotation Ensembles [2]<br>- Implements an efficient Model Selection strategy [3]<br>- similar API to MLlib Random Forest but up to 6x faster and up to 10x less memory requirements [3]<br><br>ReForeSt is a distributed, Apache Spark based scalable implementation of the Random<br>Forest learning algorithm targeting a fast and memory efficient processing written in Scala.<br>The distinguishing features of ReForeSt are the ability to support arbitrary large datasets<br>ranging from millions of samples to millions of features, categorical features and missing<br>values, different data distributions models, Random Rotations, and automatic hyperparameters selection.<br>ReForeSt is a simple alternative to MLlib since it shares very similar API. It covers the<br>lack of MLlib in providing results for dataset having million of features. ReForeSt is always<br>faster and requires less memory with respect to MLlib. MS is a useful tool to retrieve the<br>best performing hyperparameters and may help users when there is low knowledge about<br>the problem or to test multiple hyperparameters in less time.<br><br>[1] Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.<br>[2] Blaser, R., & Fryzlewicz, P. (2016). Random rotation ensembles. The Journal of Machine Learning Research, 17(1), 126-151.<br>[3] Lulli, A., Oneto, L., & Anguita, D. (2017, December). Crack random forest for arbitrary large datasets. In Big Data (Big Data), 2017 IEEE International Conference on (pp. 706-715). IEEE.</div>