26. August 2025 Götz Lesezeit: 2 Minuten
Vorstellung und Review der App Whisper+. Die App verarbeitet die gesprochene Sprache und wandelt sie in Text um, berechnet alles lokal.>
Mit dem Artikel von Ralf Whisper: eine freie Speech-to-Text Engine – GNU/Linux.ch wurde ich das erste Mal inspiriert mit meinem Computer zu sprechen, doch leider habe ich nicht die Fähigkeit druckfertig zu artikulieren. Der Podcast Captain it’s Wednesday – Folge 147 – Alternative Eingaben – GNU/Linux.ch erinnerte mich das wieder anzugehen, dieses Mal habe ich nach einer freien App gesucht die mir das ermöglicht.
Mit Whisper+ aus dem F-Droid lässt sich ein richtiges Start-Trek Feeling erzeugen: Man spricht in seinen Kommunikator und die Sätze werden nach den Regeln der gewählten Sprache getippt – so der Wunsch. Ohne Server, ohne Netzwerk ohne Abhängigkeiten. Alles wird lokal berechnet.
Das dafür verwendete Modell ist von OpenAI – Whisper – wie der Name der App schon vermuten lässt. Nach der Installation der App muss das neuronale Netz des kleinen Whisper Modells geladen werden. Die Version des Modells im ONNX Format wurde durch das Projekt RTranslator für Smartphones angepasst und bereitgestellt. Es wird über das Projekt HuggingFace geladen und ist ~ 270MB groß.
Screenshot: Integration des von HuggingFace geladenen Whisper-Modells
Die Applikation selbst steht unter der GPL-3.0 und das Modell unter Apache-2.0.
Whisper+ kann als weitere Eingebmethode verwendet werden und bis zu 30s lange Aufnahmen in Text umwandeln. Die Umwandlung dauert nur wenige Sekunden und ist erstaunlich präzise, mein gesprochenes Wort verursacht weniger Fehler als meine Daumen, schneller ist es auch. Das Modell ist Multilingual, es werden vielerlei Sprachen unterstützt. Meine Tests Deutsch und Englisch zu mischen und zwischen den Sätzen die Sprache zu wechseln funktioniert reibungslos.
Screenshot: Whisper+ geöffnet, nachdem die Einrichtung abgeschlossen wurde
Screenshot: Whisper+ als Eingabesystem für FluffyChat
Probleme hat das Modell mit Eigennamen, so kann es sich selbst nicht erkennen: Whisper im Sinne eines Eigennamens wird von der App immer verunstaltet, im Kontext eines Verbs (“Flüstern”) dagegen wird anstandslos verarbeitet. Ebenso die Fähigkeit der deutschen Sprache immer längere Substantive zu bauen wird nur bis zu einer gewissen Komplexität unterstützt. Lehnwörter aus dem Französischen, die der deutschen Aussprache angepasst wurden, werden prinzipiell verunstaltet. Begriffe aus dem Englischen erkennt das Modell weitestgehend. Dialekte fallen genauso raus, ein leichter Einschlag funktioniert. Die Worterkennung hängt stark von dem verwendeten Kontext ab.
Alles in allem ist die App sehr angenehm zu verwenden. Man lernt schnell in welchen Bereichen das Modell fehlerhaft arbeitet und kann beim Überfliegen der Nachricht diese anpassen. Ich würde aber auch bei der einfachsten Kommunikation nicht empfehlen die Texte ungelesen zu verwenden.
Hauptbild: Pixabay – IgorKocka
