0 Reaktionen

Mozilla Common Voice 23: 149 neue Sprachen und Spontane Sprache

Geschätzte Lesedauer:

Mit Common Voice stellt Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereit – kostenlos und für jeden nutzbar. Mozilla hat Version 23 seines Datensatzes veröffentlicht. Mit 149 neuen Sprachen werden jetzt mehr als doppelt so viele Sprachen unterstützt. Außerdem gibt es ab sofort zusätzliche Datensätze für spontane Sprache.

Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Jahr 2017 das Projekt Common Voice gestartet. Mit Common Voice bietet Mozilla eine kostenlose Alternative an, zu der jeder beitragen kann und die jedem zur Verfügung steht. Damit möchte Mozilla Innovation und Wettbewerb in der Sprachtechnologie auf Basis von Maschinenlernen fördern.

149 zusätzliche Sprachen

Mozilla Common Voice war bereits der vielfältigste mehrsprachige Sprachkorpus der Welt. Der nun veröffentlichte Datensatz Common Voice 23 bringt sage und schreibe Unterstützung für 149 neue Sprachen. Damit wurde die Anzahl mehr als verdoppelt. Common Voice unterstützt jetzt 286 Sprachen.

Insgesamt bringt die neue Version 2.105 Stunden zusätzliche Sprachdaten, was zu einer neuen Gesamtzahl von 35.921 Stunden führt. Der deutschsprachige Datensatz ist von 1.476 Stunden auf 1.484 Stunden gewachsen. In Summe waren 20.355 Menschen am deutschsprachigen Datensatz beteiligt.

Spontane Sprache

Parallel zu den bestehenden Datensätzen für geschriebene Sprache, bei denen vordefinierte Sätze vorgelesen werden, baut Mozilla mittlerweile auch Datensätze für sogenannte spontane Sprache auf, um die Stimme auf natürlichere Weise einzubringen. Dabei werden Fragen in eigenen Worten beantwortet und anschließend transkribiert.

Common Voice 23 bringt die ersten Datensätze hierfür und beinhaltet 357 Stunden spontaner Sprache, verteilt auf 51 Sprachen. Speziell der deutschsprachige Datensatz beinhaltet 48 Clips mit einer Gesamtlänge von einer Stunde, beigetragen von zwei Personen.

Zum Download der Mozilla Common Voice Datensätze
Zu Mozilla Common Voice beitragen

Unabhängige Berichterstattung unterstützen.

Unterstütze wirklich unabhängige und Fakten-basierte Berichterstattung zu Mozilla, welche nicht das Ziel hat, Schlagzeilen zu produzieren, sondern objektiv zu informieren.

Dieser Artikel wurde von Sören Hentzschel verfasst.

Sören Hentzschel ist Webentwickler aus Salzburg. Auf soeren-hentzschel.at informiert er umfassend über Neuigkeiten zu Mozilla. Außerdem ist er Betreiber von camp-firefox.de, der ersten Anlaufstelle im deutschsprachigen Raum für Firefox-Probleme aller Art. Weitere Projekte sind firefox.agenedia.com, firefoxosdevices.org sowie sozone.de.

Und jetzt du! Deine Meinung?

Erforderliche Felder sind mit einem Asterisk (*) gekennzeichnet. Die E-Mail-Adresse wird nicht veröffentlicht.
  1. Nach Absenden des Kommentar-Formulars erfolgt eine Verarbeitung der von Ihnen eingegebenen personenbezogenen Daten durch den datenschutzrechtlich Verantwortlichen zum Zweck der Bearbeitung Ihrer Anfrage auf Grundlage Ihrer durch das Absenden des Formulars erteilten Einwilligung.
    Weitere Informationen