Le machine learning collaboratif

Motivation

En règle générale, les algorithmes de machine learning nécessitent de grandes quantités de données d’entraînement et les entreprises n’en possèdent pas assez pour obtenir la précision désirée. Pour remédier à cela, une entreprise pourrait être intéressée à entraîner son modèle en coopération avec d’autres sans violer la confidentialité de ses propres données.

 

Approche

Zoom

Il y a plusieurs approches qui permettent d’entraîner des modèles de machine learning sur plusieurs sources de données sans les divulguer. Nous avons identifié la computation multipartite et le machine learning fédéré comme les candidats les plus prometteurs pour l’entraînement préservant la confidentialité. De plus, nous considérons aussi la protection du modèle entraîné avec la Confidentialité différentielle.

 

Dans le but de gagner de l’expertise, nous conduisons des expériences pratiques et des analyses dans lesquelles nous nous concentrons sur des scénarios réels (données non équilibrées, et qui ne sont pas distribuées de façon uniforme).

  • Computations linéaires multipartites sécurisées
  • Entraînement fédéré de modèles en arbre (Gradient Boosted et arbres de décision pour la classification et le régression)
  • Entraînement fédéré de réseaux neuronaux (approche avec serveur de paramètres)

Résultats espérés

Le modèle entraîné est bien plus précis grâce à la plus grande quantité de données et d’attributs à disposition. Ceci s’applique dans les scénarios suivants dans lesquels les données ne peuvent être centralisées :

  • Internes à l’entreprise : Analyse de sources de données distribuées, en silos, à travers plusieurs juridictions en adoptant une confidentialité stricte (par exemple modèle de défaut sur hypothèque transfrontalier)
  • Inter-entreprises : connaissances étendues grâce à l’analyse des données combinées de plusieurs clients (par exemple fonctions étendues pour le cross et l’upsell consolidant la maintenance prédictive)
  • Consortiums: accès à encore plus de données et attributs au travers de partenariats consortiums entre des entreprises et des régulateurs (par exemple, anti-blanchiment au sens large, détection de fraudes pour les déclarations de sinistres aux assurances)

Statut

En parallèle de nos analyses pratiques, nous conduisons des ateliers avec des clients de différentes industries dans le but d’identifier et de préciser des cas d’utilisation ainsi que de conduire des projets pilotes prouvant leur valeur.

 

Contactez-nous

Dans quel scénario voyez-vous du potentiel pour votre organisation ? N’hésitez pas à nous contacter si vous voulez en savoir plus sur les connaissances et les bénéfices apportés par le machine learning collaboratif.

Stéphane Mingot Head of AdNovum Incubator

Hartmut Keil Expert Software Engineer, AdNovum Incubator