Um eine bestimmte Genauigkeit zu erreichen, benötigen Machine-Learning-Algorithmen eine grosse Menge an Trainingsdaten, die ein Unternehmen meist nicht hat. Deshalb kann es für ein Unternehmen interessant sein, ein Modell gemeinsam mit anderen Organisationen zu trainieren, ohne die eigenen Daten preiszugeben.
-
-
Zoom
Es gibt verschiedene Ansätze, ein Machine-Learning-Modell über mehrere Datenquellen hinweg zu trainieren, ohne diese Quellen offenzulegen. Die beiden vielversprechendsten: Multi-Party Computation und Federated Machine Learning. Zusätzlich berücksichtigen wir auch den Schutz des trainierten Modells (Differential Privacy).
Um Fachwissen aufzubauen, führen wir praktische Analysen und Experimente durch, bei denen wir uns auf Szenarien aus dem realen Leben (unausgewogene und Non-IID-Daten) konzentrieren:
- Sicheres Multi-Party Computation für lineare Modelle
- Föderiertes Training baumbasierter Modelle (Gradient-Boosted- und CART-Entscheidungsbäume)
- Föderiertes Training neuronaler Netzwerke (Parameter-Server-Ansatz)
Die Genauigkeit des trainierten Modells erhöht sich dank mehr Daten und Features beträchtlich. Dies gilt für die folgenden Szenarien, bei denen sich die Daten nicht zentralisieren lassen:
- Unternehmensintern: Analyse verteilter, in Silos gespeicherter Datenquellen in Rechtsordnungen mit strengem Datenschutz (z.B. grenzübergreifendes Standardmodell für Hypotheken)
- Über Unternehmen hinweg: tiefere Einblicke dank Analyse kombinierter Daten von gemeinsamen Kunden (z.B. erweiterte Features für Cross- und Upselling oder konsolidierte vorbeugende Wartung)
- Konsortien: Zugang zu mehr Daten und Features durch sichere Konsortien bestehend aus Unternehmen und Regulatoren (z.B. erweiterte Geldwäscherei, Erkennung von Zahlungsbetrug, Erkennung von Betrug bei Versicherungsansprüchen)
Parallel zu unseren praxisorientierten Analysen führen wir mit Kunden aus verschiedenen Branchen Workshops durch, in denen wir Use Cases ermitteln und schärfen sowie Wertnachweise (Proof of Value) erbringen.