Spracherkennung für Dialekte

Motivation

Der Aufbau und die Pflege eines automatischen Spracherkennungsdiensts (Automatic Speech Recognition, ASR), der z.B. für Voicebots genutzt wird, erfordern das Sammeln und Kommentieren vieler Stunden Audiodaten. Werden Dialekte wie Schweizerdeutsch berücksichtigt, für die kaum öffentliche Daten vorhanden sind, kann der zeitliche und finanzielle Aufwand beträchtlich sein. Es wäre für Organisationen daher vorteilhaft und kostengünstig, sich in einem Konsortium zusammenzuschliessen, um gemeinsam ein ASR-System zu trainieren, zu nutzen und zu pflegen, das auf Audiodaten von Callcenters verschiedener Unternehmen basiert.

 

Ansatz

Zoom

Eine solche Lösung muss auf einer soliden geschäftlichen, technischen und rechtlichen Grundlage aufbauen und von einer starken gemeinsamen Vision getragen werden. In Roundtable-Gesprächen haben Unternehmen und Leistungserbringer ihr gemeinsames Interesse an einem derartigen System bekräftigt. Deshalb wurden High-Level-Ansätze für die Zusammenarbeit skizziert, die den Schutz der Callcenter-Daten – ein sehr wichtiger Aspekt – berücksichtigen. Sowohl für das Training als auch die Nutzung des ASR-Systems braucht es strenge Datenschutzvorgaben. Diese lassen sich auf klassische ASR-Modelle (auf Basis von Hidden-Markov-Modellen) und auf End-to-End-ASR-Modelle (auf Basis neuronaler Netzwerke) anwenden.

 

Erwartetes Ergebnis

Entwickelt ein Konsortium ein gemeinsames ASR, entstehen neue Dienstleistungen und Geschäftsmodelle – von einem einem trainierten Modell, das die Mitglieder des Konsortiums installieren, optimieren und lokal betreiben können, bis hin zu einer kompletten Self-Service-Plattform. Besonders interessant ist die Möglichkeit, diesen Ansatz und das erworbene Wissen auf andere Use Cases anzuwenden, bei denen Collaborative Machine Learning mit strengen Datenschutzvorgaben gefordert ist.

 

Status

Trotz regem Interesse bedeutender Schweizer Unternehmen haben wir uns entschieden, die Schweizerdeutsch-ASR-Initiative nicht weiterzuverfolgen. Denn das förderierte Lernen für End-to-End-ASR-Modelle ist noch zu wenig fortgeschritten und bedarf weiterer akademischer Forschung. Derzeit konzentrieren wir uns auf Use Cases des Collaborative Machine Learning, deren Chancen auf Umsetzung besser stehen. Jedoch verfolgen zwei andere Initiativen, an denen wir mitwirken, die Vision eines Schweizerdeutsch-ASR weiter:

Kontaktieren Sie uns

Neugierig auf mehr? Kontaktieren Sie uns, wenn Sie Infos über die Vorzüge und Erkenntnisse aus der automatischen Spracherkennung mit uns teilen möchten.

Stéphane Mingot Head of AdNovum Incubator

Hartmut Keil Expert Software Engineer, AdNovum Incubator