Databricks confie à la Fondation Linux son projet MLflow, destiné à faciliter la gestion et la réutilisation des modèles d’apprentissage automatique.
MLflow est désormais hébergé par la Fondation Linux. L’entreprise Databricks, qui en est à l’origine, a annoncé la nouvelle dans le cadre de son Spark + AI Summit*.
Voilà deux ans que MLflow est ouvert à la communauté. Avec une promesse : aider à industrialiser les projets de machine learning.
Quatre briques fondamentales le composent :

MLflow TrackingCette API consigne les paramètres des modèles, les versions de code et les résultats obtenus à l’exécution.
MLflow ProjectsIl s’agit d’un format d’encapsulage du code assorti d’outils destinés à assembler des projets IA en workflows.
MLflow ModelsCe format d’empaquetage des modèles doit faciliter leur réutilisation sur les différents outils de déploiement.
MLflow Model RegistryL’ensemble comprend un répertoire centralisé de modèles associé à des API et à une interface graphique pour gérer le cycle de vie des modèles.

L’alternative Kubeflow
Le projet réunit environ 200 contributeurs. Databricks en distribue une version « as a service » (Managed MLflow). La version 1.9, sortie la semaine dernière, a notamment ajouté :

La sauvegarde des signatures de modèles avec les API log_model et save_model
Une interface par plug-in pour exécuter des modèles sur des back-ends personnalisés
Une option pour définir un serveur de logs alternatifs pour les projets fondés sur Kubernetes
La possibilité de transmettre des certificats clients dans le cadre de requêtes REST lorsqu’on utilise les API de Tracking ou de Model Registry

In the two years since we launched it, @MLflow is up to 2.5M downloads/month, 200 contributors from over 100 organizations, and massive usage. On @Databricks alone we are seeing organizations do 1M experiment runs/week and record 100,000 models/week in the model registry. pic.twitter.com/ssAk4VmjzQ
— Matei Zaharia (@matei_zaharia) June 25, 2020

Google porte une initiative concurrente : Kubeflow. La principale différence étant que ce dernier s’appuie exclusivement sur Kubernetes.
* Parmi les autres annonces, Databricks a confirmé l’acquisition de Redash (gestion de data lakes). Et officialisé la disponibilité générale de Delta Engine. Ce moteur exploite la technologie Delta Lake. Laquelle rend les transactions compatibles ACID (atomicité, cohérence, isolation, durabilité).
Photo d’illustration © agsandrew – shutterstock.com

Source : Silicon.fr