Apple unterstützt ein neues KI-Modell, das ein lange bestehendes Problem adressiert: die realistische Erzeugung von Ton und gesprochener Sprache aus vollständig stummen Videos. Das Modell trägt den Namen VSSFlow und wurde von drei Apple-Forschern gemeinsam mit sechs Forschern der Renmin-Universität China entwickelt. Ziel war ein einheitliches System, das Soundeffekte und Sprache nicht getrennt, sondern gemeinsam erzeugt – mit messbar guten Ergebnissen.
Bisherige Ansätze in diesem Bereich waren meist stark spezialisiert. Video-zu-Ton-Modelle konnten Umgebungsgeräusche erzeugen, taten sich aber mit Sprache schwer. Text-zu-Sprache-Modelle lieferten saubere Stimmen, waren jedoch nicht dafür ausgelegt, Nicht-Sprach-Sounds wie Schritte, Wind oder Maschinenlärm zu generieren. Versuche, beide Aufgaben zu kombinieren, setzten häufig auf getrennte Trainingsschritte. Dahinter stand die Annahme, dass gemeinsames Training die Leistung verschlechtert. Das führte zu komplexen Pipelines und begrenzten Ergebnissen. VSSFlow geht bewusst einen anderen Weg und stellt diese Annahme infrage.
Das Ausgangsproblem
Die Trennung von Sound- und Sprachgenerierung hatte klare Nachteile. Modelle waren entweder gut in Geräuschen oder gut in Sprache, aber selten in beidem. Systeme, die beide Aufgaben abdecken sollten, wurden unnötig kompliziert und blieben oft hinter spezialisierten Lösungen zurück. Für realistische Videos mit Dialogen und Hintergrundgeräuschen reichte das nicht aus.
Die Idee hinter VSSFlow
VSSFlow ist als einheitliches KI-Modell konzipiert, das Soundeffekte und Sprache gemeinsam lernt und erzeugt. Statt zwei getrennte Systeme zu kombinieren, verarbeitet ein einzelnes Modell visuelle Informationen aus dem Video und textbasierte Informationen aus Transkripten direkt im Audio-Generierungsprozess.
Dabei kommen mehrere Konzepte aus der generativen KI zum Einsatz. Gesprochene Texte werden zunächst in Phonem-Sequenzen umgewandelt, also in lautliche Grundeinheiten. Für die eigentliche Audioerzeugung nutzt das Modell Flow-Matching. Es lernt, aus zufälligem Rauschen schrittweise ein strukturiertes Audiosignal zu rekonstruieren, bis das gewünschte Ergebnis entsteht.
Diese Mechanismen sind in eine zehnschichtige Architektur eingebettet, die Video-Frames und Transkriptinformationen gleichzeitig berücksichtigt. Dadurch kann das Modell Sprache und Soundeffekte in einem einzigen System verarbeiten.
Gemeinsames Training statt Konkurrenz
Ein zentrales Ergebnis der Forschung ist, dass sich Sprach- und Soundtraining nicht gegenseitig behindern. Im Gegenteil: Das gemeinsame Lernen führte zu besseren Ergebnissen bei beiden Aufgaben. Sprache profitierte vom Soundtraining, und die Soundeffekte wurden durch das Sprachtraining präziser. Dieser gegenseitige Verstärkungseffekt widerspricht der bisherigen Annahme, dass Multitasking in diesem Bereich zwangsläufig Leistung kostet.
Trainingsdaten und Vorgehen
Für das Training von VSSFlow nutzten die Forscher eine Kombination aus unterschiedlichen Datentypen:
- stumme Videos mit Umgebungsgeräuschen (Video-to-Sound),
- stumme Videos mit Transkripten für gesprochene Inhalte (Visual Text-to-Speech),
- klassische Text-to-Speech-Datensätze.
Alle Daten wurden in einem durchgängigen Ende-zu-Ende-Trainingsprozess verwendet. So konnte das Modell sowohl Geräusche als auch Sprache in einem einheitlichen Lernprozess erfassen.
Feinabstimmung für gleichzeitige Ausgabe
In der ursprünglichen Version konnte VSSFlow nicht automatisch Hintergrundgeräusche und gesprochene Dialoge gleichzeitig in einer einzigen Ausgabe erzeugen. Um dieses Problem zu lösen, wurde das Modell nachträglich feinabgestimmt. Die Forscher nutzten dafür große Mengen synthetischer Beispiele, in denen Sprache und Umgebungsgeräusche gemischt waren. Auf diese Weise lernte das Modell, wie beides gemeinsam klingen sollte.
Einsatz und Ergebnisse
Bei der Anwendung startet VSSFlow mit zufälligem Rauschen. Aus dem Video werden visuelle Hinweise mit etwa zehn Bildern pro Sekunde extrahiert, um passende Umgebungsgeräusche zu formen. Parallel liefert ein Transkript präzise Informationen für die erzeugte Stimme.
Im Vergleich zu spezialisierten Modellen, die nur für Soundeffekte oder nur für Sprache entwickelt wurden, erzielte VSSFlow konkurrenzfähige Ergebnisse. In mehreren wichtigen Kennzahlen schnitt das Modell sogar besser ab, obwohl es beide Aufgaben in einem einzigen System vereint.
Die Forscher veröffentlichten zahlreiche Demos, darunter Beispiele für reine Sound-Generierung, reine Sprach-Generierung und kombinierte Ausgaben aus Videos. Zusätzlich wurden direkte Vergleiche mit alternativen Modellen bereitgestellt.
Open Source und Ausblick
Der Code von VSSFlow wurde auf GitHub als Open Source veröffentlicht. Die Forscher arbeiten außerdem daran, die Modellgewichte zugänglich zu machen und eine Inferenz-Demo bereitzustellen.
Für die Zukunft sehen sie mehrere offene Herausforderungen. Eine zentrale Einschränkung ist die geringe Verfügbarkeit hochwertiger Video-Sprach-Ton-Daten. Zudem bleibt die Entwicklung besserer Repräsentationen für Ton und Sprache ein wichtiges Thema, insbesondere wenn Sprachdetails erhalten bleiben sollen, ohne die Modelle unnötig groß zu machen.
Apple treibt integrierte Audio-KI voran
Mit VSSFlow zeigt Apple, dass ein einheitliches Modell für videobedingte Ton- und Sprachgenerierung praktikabel ist und sogar Vorteile gegenüber getrennten Ansätzen bietet. Das gemeinsame Lernen von Sound und Sprache erweist sich als Stärke statt als Schwäche. Damit setzt die Arbeit einen klaren Impuls für zukünftige Forschung und unterstreicht Apples Rolle in der Weiterentwicklung moderner KI-Systeme. (Bild: Shutterstock / gnepphoto)
- Apple Music: Bad Bunnys Halftime Show bricht Rekorde
- Apple TV feiert Erfolge bei den 78. Directors Guild Awards
- Apple verschärft App Store Richtlinien bei Chat-Apps
- Apple-Chef Tim Cook äußert sich zur Pensionierung
- watchOS 11.6.2 für Apple Watch: Das steckt im Update
- Apple feiert 50 Jahre und blickt mit KI nach vorn
- Apple bezieht Stellung: Tim Cook kämpft für Migration
- AirTag 2 im Teardown: iFixit zeigt alle Neuerungen
- iPhone 17 Pro Max gewinnt Akkutest gegen Android Konkurrenz
- Apple Maps und Ads gelten in der EU nicht als Gatekeeper
- Apple feiert Rekordquartal: So gelang das China-Comeback
- iPad wächst 2025 stark – 2026 wird herausfordernd
- Google als Cloud-Basis für Siri? Neue Aussagen werfen Fragen auf
- Formel-1-Chef deutet Fortsetzung des Films F1 auf Apple TV an
- iOS 26.3 liefert Hinweise auf kommende M5-Chips
- Blockierungsmodus: FBI scheitert am iPhone einer Reporterin
- Visuelle Intelligenz: Apples KI-Feature wird zum Schlüssel
- iOS 26.3 RC veröffentlicht: Alle Neuerungen im Überblick
- iPhone und NFC: Diese Neuerungen prägen die nächsten Jahre
- Apple baut Bildung und Robotik in Indiens Lieferkette aus
- Apple TV Press Day Event: Alle Inhalte für 2026 im Überblick
- iPhone-Spyware umgeht iOS-Schutz für Kamera und Ton
- iOS 26.2.1 sorgt bei einigen Nutzern für Probleme



