Apple KI erzeugt Sprache und Ton aus stummen Videos Apfelpatient

Apple unterstützt ein neues KI-Modell, das ein lange bestehendes Problem adressiert: die realistische Erzeugung von Ton und gesprochener Sprache aus vollständig stummen Videos. Das Modell trägt den Namen VSSFlow und wurde von drei Apple-Forschern gemeinsam mit sechs Forschern der Renmin-Universität China entwickelt. Ziel war ein einheitliches System, das Soundeffekte und Sprache nicht getrennt, sondern gemeinsam erzeugt – mit messbar guten Ergebnissen.

Bisherige Ansätze in diesem Bereich waren meist stark spezialisiert. Video-zu-Ton-Modelle konnten Umgebungsgeräusche erzeugen, taten sich aber mit Sprache schwer. Text-zu-Sprache-Modelle lieferten saubere Stimmen, waren jedoch nicht dafür ausgelegt, Nicht-Sprach-Sounds wie Schritte, Wind oder Maschinenlärm zu generieren. Versuche, beide Aufgaben zu kombinieren, setzten häufig auf getrennte Trainingsschritte. Dahinter stand die Annahme, dass gemeinsames Training die Leistung verschlechtert. Das führte zu komplexen Pipelines und begrenzten Ergebnissen. VSSFlow geht bewusst einen anderen Weg und stellt diese Annahme infrage.

Das Ausgangsproblem

Die Trennung von Sound- und Sprachgenerierung hatte klare Nachteile. Modelle waren entweder gut in Geräuschen oder gut in Sprache, aber selten in beidem. Systeme, die beide Aufgaben abdecken sollten, wurden unnötig kompliziert und blieben oft hinter spezialisierten Lösungen zurück. Für realistische Videos mit Dialogen und Hintergrundgeräuschen reichte das nicht aus.

Die Idee hinter VSSFlow

VSSFlow ist als einheitliches KI-Modell konzipiert, das Soundeffekte und Sprache gemeinsam lernt und erzeugt. Statt zwei getrennte Systeme zu kombinieren, verarbeitet ein einzelnes Modell visuelle Informationen aus dem Video und textbasierte Informationen aus Transkripten direkt im Audio-Generierungsprozess.

Dabei kommen mehrere Konzepte aus der generativen KI zum Einsatz. Gesprochene Texte werden zunächst in Phonem-Sequenzen umgewandelt, also in lautliche Grundeinheiten. Für die eigentliche Audioerzeugung nutzt das Modell Flow-Matching. Es lernt, aus zufälligem Rauschen schrittweise ein strukturiertes Audiosignal zu rekonstruieren, bis das gewünschte Ergebnis entsteht.

Diese Mechanismen sind in eine zehnschichtige Architektur eingebettet, die Video-Frames und Transkriptinformationen gleichzeitig berücksichtigt. Dadurch kann das Modell Sprache und Soundeffekte in einem einzigen System verarbeiten.

Gemeinsames Training statt Konkurrenz

Ein zentrales Ergebnis der Forschung ist, dass sich Sprach- und Soundtraining nicht gegenseitig behindern. Im Gegenteil: Das gemeinsame Lernen führte zu besseren Ergebnissen bei beiden Aufgaben. Sprache profitierte vom Soundtraining, und die Soundeffekte wurden durch das Sprachtraining präziser. Dieser gegenseitige Verstärkungseffekt widerspricht der bisherigen Annahme, dass Multitasking in diesem Bereich zwangsläufig Leistung kostet.

Trainingsdaten und Vorgehen

Für das Training von VSSFlow nutzten die Forscher eine Kombination aus unterschiedlichen Datentypen:

stumme Videos mit Umgebungsgeräuschen (Video-to-Sound),
stumme Videos mit Transkripten für gesprochene Inhalte (Visual Text-to-Speech),
klassische Text-to-Speech-Datensätze.

Alle Daten wurden in einem durchgängigen Ende-zu-Ende-Trainingsprozess verwendet. So konnte das Modell sowohl Geräusche als auch Sprache in einem einheitlichen Lernprozess erfassen.

Feinabstimmung für gleichzeitige Ausgabe

In der ursprünglichen Version konnte VSSFlow nicht automatisch Hintergrundgeräusche und gesprochene Dialoge gleichzeitig in einer einzigen Ausgabe erzeugen. Um dieses Problem zu lösen, wurde das Modell nachträglich feinabgestimmt. Die Forscher nutzten dafür große Mengen synthetischer Beispiele, in denen Sprache und Umgebungsgeräusche gemischt waren. Auf diese Weise lernte das Modell, wie beides gemeinsam klingen sollte.

Einsatz und Ergebnisse

Bei der Anwendung startet VSSFlow mit zufälligem Rauschen. Aus dem Video werden visuelle Hinweise mit etwa zehn Bildern pro Sekunde extrahiert, um passende Umgebungsgeräusche zu formen. Parallel liefert ein Transkript präzise Informationen für die erzeugte Stimme.

Im Vergleich zu spezialisierten Modellen, die nur für Soundeffekte oder nur für Sprache entwickelt wurden, erzielte VSSFlow konkurrenzfähige Ergebnisse. In mehreren wichtigen Kennzahlen schnitt das Modell sogar besser ab, obwohl es beide Aufgaben in einem einzigen System vereint.

Die Forscher veröffentlichten zahlreiche Demos, darunter Beispiele für reine Sound-Generierung, reine Sprach-Generierung und kombinierte Ausgaben aus Videos. Zusätzlich wurden direkte Vergleiche mit alternativen Modellen bereitgestellt.

Open Source und Ausblick

Der Code von VSSFlow wurde auf GitHub als Open Source veröffentlicht. Die Forscher arbeiten außerdem daran, die Modellgewichte zugänglich zu machen und eine Inferenz-Demo bereitzustellen.

Für die Zukunft sehen sie mehrere offene Herausforderungen. Eine zentrale Einschränkung ist die geringe Verfügbarkeit hochwertiger Video-Sprach-Ton-Daten. Zudem bleibt die Entwicklung besserer Repräsentationen für Ton und Sprache ein wichtiges Thema, insbesondere wenn Sprachdetails erhalten bleiben sollen, ohne die Modelle unnötig groß zu machen.

Apple treibt integrierte Audio-KI voran

Mit VSSFlow zeigt Apple, dass ein einheitliches Modell für videobedingte Ton- und Sprachgenerierung praktikabel ist und sogar Vorteile gegenüber getrennten Ansätzen bietet. Das gemeinsame Lernen von Sound und Sprache erweist sich als Stärke statt als Schwäche. Damit setzt die Arbeit einen klaren Impuls für zukünftige Forschung und unterstreicht Apples Rolle in der Weiterentwicklung moderner KI-Systeme. (Bild: Shutterstock / gnepphoto)