En règle générale, les algorithmes d’apprentissage machine nécessitent de grandes quantités de données d’entraînement et les entreprises n’en possèdent pas assez pour obtenir la précision désirée. Pour remédier à cela, une entreprise pourrait être intéressée à entraîner son modèle en coopération avec d’autres sans violer la confidentialité de ses propres données.
-
-
Zoom
Il y a plusieurs approches qui permettent d’entraîner des modèles d’apprentissage machine sur plusieurs sources de données sans les divulguer. Nous avons identifié la computation multipartite et l’apprentissage machine fédéré comme les candidats les plus prometteurs pour l’entraînement préservant la confidentialité. De plus, nous considérons aussi la protection du modèle entraîné avec la Confidentialité différentielle.
Dans le but de gagner de l’expertise, nous conduisons des expériences pratiques et des analyses dans lesquelles nous nous concentrons sur des scénarios réels (données non équilibrées, et qui ne sont pas distribuées de façon uniforme).
- Computations linéaires multipartites sécurisées
- Entraînement fédéré de modèles en arbre (Gradient Boosted et arbres de décision pour la classification et le régression)
- Entraînement fédéré de réseaux neuronaux (approche avec serveur de paramètres)
Le modèle entraîné est bien plus précis grâce à la plus grande quantité de données et d’attributs à disposition. Ceci s’applique dans les scénarios suivants dans lesquels les données ne peuvent être centralisées :
- Internes à l’entreprise : Analyse de sources de données distribuées, en silos, à travers plusieurs juridictions en adoptant une confidentialité stricte (par exemple modèle de défaut sur hypothèque transfrontalier)
- Inter-entreprises : connaissances étendues grâce à l’analyse des données combinées de plusieurs clients (par exemple fonctions étendues pour le cross et l’upsell consolidant la maintenance prédictive)
- Consortiums: accès à encore plus de données et attributs au travers de partenariats consortiums entre des entreprises et des régulateurs (par exemple, anti-blanchiment au sens large, détection de fraudes pour les déclarations de sinistres aux assurances)
En parallèle de nos analyses pratiques, nous conduisons des ateliers avec des clients de différentes industries dans le but d’identifier et de préciser des cas d’utilisation ainsi que de conduire des projets pilotes prouvant leur valeur.