Databricks bietet in seiner Unified Analytics-Plattform ab sofort die Automatisierung über den gesamten Lebenszyklus des Machine Learnings. Das erweiterte Angebot von Augmented Analytics automatisiert nicht nur den maschinellen Modellbau, sondern erstreckt sich auch auf die automatisierte Datenaufbereitung und Bereitstellung.
Laut einer Prognose von Gartner werden bis 2020 mehr als 40 Prozent der datenwissenschaftlichen Aufgaben automatisiert. Um diesen Grad der Automatisierung schneller zu erreichen, nutzt die Unified Analytics Platform von Databricks maschinelles Lernen, um die Datenaufbereitung, Visualisierung, Feature-Engineering, Hyperparameter-Tuning, Modellsuche, automatische Tracking der Modelle, Reproduzierbarkeit und Bereitstellung zu optimieren.
Dieses AutoML-Angebot hilft Citizen Data Scientists und klassischen Datenwissenschaftlern dabei, ihre datenwissenschaftlichen und maschinellen Lernabläufe zu erweitern. Dabei konzentriert es sich auf eine Integration mit dem Open-Source-Framework MLflow.
Die wichtigsten AutoML-Funktionen:
- AutoML Toolkit:
Die automatisierte End-to-End-Pipeline für maschinelles Lernen, einschließlich Feature Engineering, Modellsuche und Bereitstellung, ist über die kundenspezifischen Lösungen von Databricks Labs verfügbar. AutoML Toolkit-Ausführungen werden in MLflow automatisch verfolgt.
- Automatisierte Modellsuche:
Optimierte und verteilte bedingte Hyperparametersuche mit erweiterter Hyperopt und automatisierter Verfolgung von MLflow.
- Automatisiertes Hyperparameter-Tuning:
Optimierte und verteilte Hyperparametersuche mit erweiterter Hyperopt und automatisierter Verfolgung zu MLflow. Tiefe Integration mit PySpark MLlib's Cross Validation zur automatischen Verfolgung von MLlib-Experimenten in MLflow.
- Integration mit AzureML:
Aufbauend auf der im April angekündigten Open-Source-MLflow-Zusammenarbeit zwischen Databricks und Microsoft, ermöglicht diese Integration Kunden den Zugriff auf die AutoML-Funktionen von Azure Machine Learning.