Comment passer à l’échelle dans l’IA ?
Industrialiser la création et le déploiement d’algorithmes de machine learning (ML) implique un système informatique intégrant plusieurs processus clés. En amont, la data préparation consiste à optimiser les informations nécessaires à l’apprentissage machine. C’est une phase capitale. Des données d’entraînement bien conçues contribuent en effet à réduire le risque de biais susceptibles de surgir de l’IA. Imaginez une voiture autonome qui analyserait la silhouette d’un piéton traversant la chaussée comme un faux positif. La mésaventure est arrivée en mars 2018 à une voiture autonome Uber aux Etats-Unis. Le véhicule a renversé une passante qui a été tuée sur le coup. Après la préparation des données viennent les process de création et de paramétrage des modèles de ML puis l’apprentissage machine en tant que tel. Conditionnant la qualité et la précision des résultats, ces différentes étapes seront gérées via des outils de développement. Une fois alimentée en informations, l’IA est ensuite mise en œuvre sur le terrain via des pipelines de déploiement. Enfin, elle est monitorée et alimentée au fur et à mesure de l’arrivée de nouvelles connaissances.
« Pour bâtir une factory d’IA, deux types de solution : un IDE orienté machine learning d’une part, une plateforme de data science d’autre part »
« Pour bâtir une factory d’IA, on peut envisager deux types de solution : un environnement de développement intégré (IDE) orienté machine learning, type Anaconda d’une part, une plateforme de data science (comme Dataiku, ndlr) d’autre part », commente Didier Gaultier, directeur data science et IA chez Business & Decision, filiale d’Orange. L’IDE associera des librairies de data préparation, des éditeurs de code pour programmer les modèles, ou encore des notebooks regroupant algorithmes, data visualisations et documentation technique propre à chaque projet. Le tout 100% open source (voir l’infographie ci-dessous). Les plateformes de data science, elles, se distinguent par une logique de modélisation graphique des algorithmes et wokflows d’apprentissage. Une approche qui permet d’ajuster le poids des variables de ML beaucoup plus rapidement en évitant de rentrer dans le code, mais tout en y donnant accès si besoin. « Les plateformes de data science pilotent en outre l’entrainement et le versioning des modèles, et donnent accès à de multiples composants packagés », complète Didier Gaultier. Du coup, même si leur approche souvent propriétaire induit des coûts d’acquisition élevés au départ, ces offres peuvent potentiellement mener à un retour sur investissement plus rapide que les IDE. « Elles permettent de réduire le nombre moyen de jours-hommes d’un projet de machine learning d’un facteur 3 », estime le consultant.
« Les plateformes de data science font désormais consensus », confirme Victor Azria, en charge de l’offre Data Science & Analytics pour l’ESN Capgemini France. « En s’inspirant du DevOps, elles introduisent le concept de MLOps en intégrant toutes les étapes du processus de ML, du développement à la maintenance des modèles au sein d’un environnement sans couture. » Complétant l’édifice, les solutions d’automatisation du machine learning facilitent le prototypage rapide de cas d’usage. « Une fois le modèle conçu […..]

