
Mit FFmpeg 8.0 steht in der nächsten Woche eine neue Hauptversion der Multimedia-Bibliothek vor der Tür. Gerade wurde bekannt, dass die Entwickler die Whisper-KI von OpenAI als Filter integriert werden.
Spracherkennung
Dabei handelt es sich um ein neuronales Netz zur automatischen Spracherkennung (ASR) sowie zur Transkription in andere Sprachen. FFmpeg wird durch eine lokal installierte Whisper-KI in die Lage versetzt, Audioinhalte direkt und automatisiert in Text umzuwandeln, ohne dass Daten in die Cloud übertragen werden müssen. Die KI erkennt gesprochene Sprache, wandelt diese in Text um und unterstützt mehr als 90 Sprachen.
Voraussetzung ist die Bereitstellung der Bibliothek whisper.cpp. Ist diese installiert, kann Whisper mittels ./configure --enable-whisper einkompiliert werden. Der Filter versucht, die Sprache automatisch zu erkennen. Weitere Optionen sind im Git von FFmpeg zu finden.
Typische Anwendungsfälle sind:
- Transkription von Vorträgen, Podcasts oder Meetings: Audiodateien werden in Textform überführt, z.B. für die Archivierung oder zur weiteren Verarbeitung.
- Live-Transkription: Auch für Live-Übertragungen lässt sich Whisper nutzen, um Audio in Echtzeit zu transkribieren.
- Automatisierung in Arbeitsabläufen: Der Filter kann in FFmpeg-Workflows eingegliedert werden, um Transkriptionen automatisch an nachgelagerte Anwendungen oder Webdienste weiterzugeben.
- Automatische Untertitel-Erstellung: Videos können direkt mit SRT-Untertiteldateien versehen werden.
Sinnvolle KI!?
Die Integration von Whisper in FFmpeg bedeutet eine Erleichterung, da die KI-Transkriptionsfunktion direkt aus der Kommandozeile oder automatisiert in Arbeitsabläufen verfügbar ist, ohne zusätzliche Tools oder manuelle Zwischenschritte zu benötigen. Die lokale Ausführung garantiert den Verbleib der Daten beim Anwender. Für mich wieder eines der eher seltenen Beispiele, in denen KI überflüssige Arbeitsschritte entfernt und dem Anwender ermöglicht, sich auf die zu erledigende Arbeit zu konzentrieren. Was hält sie davon ab?
FFmpeg soll in der Woche vom 18. bis 25. August 2025 erscheinen.

