Reconnaissance de la parole pour les dialectes

Motivation

La création d’un service de reconnaissance automatique de la parole (ASR) utilisé, par exemple, pour des bots vocaux, implique de réunir et d’annoter de nombreuses heures d’enregistrements audio. Cela peut être fastidieux et coûteux, surtout lorsqu’il s’agit de dialectes comme le Suisse Allemand pour lesquels peu de données publiques sont disponibles. Ainsi, il serait judicieux et rentable pour les organisations de joindre leurs forces dans un consortium pour entraîner, utiliser et maintenir un système ASR basé sur les données de centres d’appels de plusieurs entreprises.

 

Approche

Zoom

Une telle solution doit être construite sur des bases solides en terme de business, de technique et de gouvernance ; de plus, elle doit être initialement conduite par une vision commune forte. Pendant les tables rondes, les entreprises et les fournisseurs ont confirmés un intérêt commun pour un tel système. Des schémas de collaboration de haut niveau ont été esquissés et ils incluent l’important souci de protéger les ensembles de données des centres d’appels. Une approche de la confidentialité forte doit être en place, et pour l’entraînement, et pour l’utilisation du ASR. Cela peut être appliqué sur les modèles ASR traditionnels (basés sur les modèles de Markov cachés) ou sur les modèles ASR de bout en bout (basés sur des réseaux neuronaux).

 

Résultats espérés

Le développement d’un ASR commun au sein d’un consortium entraîne la création de nouveaux types de services et de nouveaux modèles d’affaire. A partir d’un modèle entraîné qu’un participant individuel au consortium peut installer, améliorer et exécuter localement, jusqu’à une plateforme de self-service complète. La possibilité de transférer cette approche et l’expertise que nous avons accumulée à d’autres utilisations pour lesquels l’apprentissage machine collaboratif respectant des contraintes de confidentialité fortes est requis présente un intérêt particulier.

 

Statut

Malgré un intérêt marqué d’entreprises suisses très importantes, nous avons décidé de ne pas continuer notre initiative d’ASR Suisse Allemand. Cela est dû au fait que les modèles ASR d’apprentissage fédéré de bout en bout ne sont pas assez mature et cela requiert une recherche académique plus poussée. Nous nous concentrons en ce moment sur d’autres utilisations dans le domaine de l’apprentissage machine collaboratif qui ont une plus grande chance d’être implémentés. Cependant, la vision d’un ASR Suisse Allemand est poursuivie par deux autres initiatives, avec lesquels nous travaillons étroitement.

Contactez-nous

Envie d’en apprendre plus ? N’hésitez pas à nous contacter si vous voulez partager des connaissances et bénéficier de reconnaissance automatique de la parole.

Stéphane Mingot Head of AdNovum Incubator

Hartmut Keil Expert Software Engineer, AdNovum Incubator