4 Reaktionen

Mozilla stellt weltweit größten Sprach-Datensatz kostenlos zur Verfügung

Geschätzte Lesedauer:

Alexa, Siri, Google, Cortana – Spracherkennung ist in aller Munde. Und in den festen Händen kommerzieller Anbieter. Nun hat Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereitgestellt – kostenlos und für jeden nutzbar.

Mozillas Arbeit auf dem Gebiet der Spracherkennung

Mozillas Arbeit im Gebiet der Spracherkennung kann neben der Arbeit an Firefox durchaus zu einem der wichtigsten Projekte der Not-for-Profit-Organisation Mozilla gezählt werden. Immer mehr Geräte sind miteinander vernetzt und lassen sich über Sprache steuern. Was vor Jahren noch nach Science Fiction geklungen hätte, ist mittlerweile für immer mehr Menschen Realiät. Der Erfolg eines Gerätes mit Spracherkennung steht und fällt dabei natürlich vor allem mit der Qualität der Spracherkennung

Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla das Projekt Common Voice gestartet. Mit Common Voice versucht Mozilla, eine kostenlose Alternative zu etablieren, zu der jeder beitragen kann und die jedem zur Verfügung steht, denn nach Ansicht von Mozilla sollte diese Technologie für jeden zugänglich sein und nicht den großen Anbietern vorbehalten sein. Common Voice ergänzt damit ein weiteres Projekt von Mozilla, nämlich ein Open Source Spracherkennungsmodell, welches unter dem Namen Deep Speech von Mozilla entwickelt wird.

Mozilla veröffentlicht Sprach-Datensatz

Was Mozilla nun kostenlos und zur freien Verfügung veröffentlicht hat, ist der weltweit bislang größte öffentliche Datensatz menschlicher Stimmen. Dieser setzt sich aus 18 verschiedenen Sprachen und knapp 1.400 Stunden aufgezeichneter Sprache zusammen, zu denen mehr als 42.000 Menschen beigetragen haben. Alle Datensätze stehen unter der Creative Commons-Lizenz CC0, befinden sich also in der sogenannten Public Domain.

Download Sprach-Datensatz von der Mozilla Common Voice Webseite

Mozillas Sprachtechnologie auf dem Vormarsch

Mozilla Common Voice ist in den acht Monaten seit dem Start weiterer Sprachen als Englisch bereits auf 22 Sprachen gewachsen – und 70 weitere Sprachen stehen schon in den Startlöchern. Erwähnenswert ist dabei auch, dass bei Common Voice nicht nur die populärsten Sprachen vertreten sind, sondern teilweise auch eher kleinere Sprachen dabei sind, welche von den großen kommerziellen Anbietern häufig vernachlässigt werden.

Aber auch DeepSpeech ist auf dem besten Weg. DeepSpeech sei nach Angaben von Mozilla bereits in der Lage, „Sprache mit menschlicher Genauigkeit und in Echtzeit in Text zu konvertieren – und zwar noch während der Ton gestreamt wird.“ DeepSpeech wird bereits in den Assistenten von Mycroft und Leon sowie im Telefonvermittlungssystem FusionPBX verwendet. In Zukunft soll DeepSpeech auch in Smartphones und In-Car-Systemen zum Einsatz kommen.

Dass Mozilla nun eine erste Version des Sprachdatensatzes bereitgestellt hat, heißt natürlich nicht, dass nicht weiter beigetragen werden sollte. Unter voice.mozilla.org kann nach wie vor jeder helfen.

Dieser Artikel wurde von Sören Hentzschel verfasst.

Sören Hentzschel ist Webentwickler und ehemaliger Mozilla Repräsentant. Neben diesem Mozilla-Blog ist er Administrator des deutschsprachigen Firefox Hilfeforums Camp Firefox und betreibt außerdem die Webseiten firefox.agenedia.com, firefoxosdevices.org, mozilla.de sowie das Fußball-Portal Soccer-Zone.

4 Kommentare - bis jetzt!

Eigenen Kommentar verfassen
  1. esra
    schrieb am :

    Weiss jemand ob bekannt ist, ob diese Projekte einzug in den Browser halten und wann? Ich meine so ähnlich wie spracheingabe beim Chrome Browser. Das fänd ich toll! Dann müsste ich chrome nicht mehr brauchen.

  2. Sören Hentzschel Verfasser des Artikels
    schrieb am :

    Mir ist diesbezüglich kein konkreter Plan für den Desktop bekannt. Ich denke, dass wir das bei Mozilla zunächst mobil sehen werden.

  3. ben
    schrieb am :

    Aufruf zur Beteiligung am Protest gegen #Artikel13 (Uploadfilter)

    Das gehört mMn auf die Startseite und nicht in die Untiefen des Forums.  Auch wenn im Forum ein Banner angezeigt wird, wäre zumindest eine Notiz eine Erwägung wert, oder? 😉

  4. Sören Hentzschel Verfasser des Artikels
    schrieb am :

    Ich weiß nicht, wovon du redest. Diese Webseite hat überhaupt kein Forum. Auch weiß ich nicht, was Artikel 13 mit dem Artikel zu tun haben soll.

Und jetzt du! Deine Meinung?

Erforderliche Felder sind mit einem Asterisk (*) gekennzeichnet. Die E-Mail-Adresse wird nicht veröffentlicht.
  1. Nach Absenden des Kommentar-Formulars erfolgt eine Verarbeitung der von Ihnen eingegebenen personenbezogenen Daten durch den datenschutzrechtlich Verantwortlichen zum Zweck der Bearbeitung Ihrer Anfrage auf Grundlage Ihrer durch das Absenden des Formulars erteilten Einwilligung.
    Weitere Informationen