Apfelpatient
  • Home
  • News
  • Rumors
  • Tipps & Tricks
  • Tests & Erfahrungsberichte
  • Allgemein
No Result
View All Result
  • Home
  • News
  • Rumors
  • Tipps & Tricks
  • Tests & Erfahrungsberichte
  • Allgemein
No Result
View All Result
Apfelpatient
No Result
View All Result

Apple KI erzeugt Sprache und Ton aus stummen Videos

by Milan
9. Februar 2026
Apple KI

Bild: Shutterstock / gnepphoto

Apple unterstützt ein neues KI-Modell, das ein lange bestehendes Problem adressiert: die realistische Erzeugung von Ton und gesprochener Sprache aus vollständig stummen Videos. Das Modell trägt den Namen VSSFlow und wurde von drei Apple-Forschern gemeinsam mit sechs Forschern der Renmin-Universität China entwickelt. Ziel war ein einheitliches System, das Soundeffekte und Sprache nicht getrennt, sondern gemeinsam erzeugt – mit messbar guten Ergebnissen.

Bisherige Ansätze in diesem Bereich waren meist stark spezialisiert. Video-zu-Ton-Modelle konnten Umgebungsgeräusche erzeugen, taten sich aber mit Sprache schwer. Text-zu-Sprache-Modelle lieferten saubere Stimmen, waren jedoch nicht dafür ausgelegt, Nicht-Sprach-Sounds wie Schritte, Wind oder Maschinenlärm zu generieren. Versuche, beide Aufgaben zu kombinieren, setzten häufig auf getrennte Trainingsschritte. Dahinter stand die Annahme, dass gemeinsames Training die Leistung verschlechtert. Das führte zu komplexen Pipelines und begrenzten Ergebnissen. VSSFlow geht bewusst einen anderen Weg und stellt diese Annahme infrage.

Das Ausgangsproblem

Die Trennung von Sound- und Sprachgenerierung hatte klare Nachteile. Modelle waren entweder gut in Geräuschen oder gut in Sprache, aber selten in beidem. Systeme, die beide Aufgaben abdecken sollten, wurden unnötig kompliziert und blieben oft hinter spezialisierten Lösungen zurück. Für realistische Videos mit Dialogen und Hintergrundgeräuschen reichte das nicht aus.

Die Idee hinter VSSFlow

VSSFlow ist als einheitliches KI-Modell konzipiert, das Soundeffekte und Sprache gemeinsam lernt und erzeugt. Statt zwei getrennte Systeme zu kombinieren, verarbeitet ein einzelnes Modell visuelle Informationen aus dem Video und textbasierte Informationen aus Transkripten direkt im Audio-Generierungsprozess.

Dabei kommen mehrere Konzepte aus der generativen KI zum Einsatz. Gesprochene Texte werden zunächst in Phonem-Sequenzen umgewandelt, also in lautliche Grundeinheiten. Für die eigentliche Audioerzeugung nutzt das Modell Flow-Matching. Es lernt, aus zufälligem Rauschen schrittweise ein strukturiertes Audiosignal zu rekonstruieren, bis das gewünschte Ergebnis entsteht.

Diese Mechanismen sind in eine zehnschichtige Architektur eingebettet, die Video-Frames und Transkriptinformationen gleichzeitig berücksichtigt. Dadurch kann das Modell Sprache und Soundeffekte in einem einzigen System verarbeiten.

Gemeinsames Training statt Konkurrenz

Ein zentrales Ergebnis der Forschung ist, dass sich Sprach- und Soundtraining nicht gegenseitig behindern. Im Gegenteil: Das gemeinsame Lernen führte zu besseren Ergebnissen bei beiden Aufgaben. Sprache profitierte vom Soundtraining, und die Soundeffekte wurden durch das Sprachtraining präziser. Dieser gegenseitige Verstärkungseffekt widerspricht der bisherigen Annahme, dass Multitasking in diesem Bereich zwangsläufig Leistung kostet.

Trainingsdaten und Vorgehen

Für das Training von VSSFlow nutzten die Forscher eine Kombination aus unterschiedlichen Datentypen:

  • stumme Videos mit Umgebungsgeräuschen (Video-to-Sound),
  • stumme Videos mit Transkripten für gesprochene Inhalte (Visual Text-to-Speech),
  • klassische Text-to-Speech-Datensätze.

Alle Daten wurden in einem durchgängigen Ende-zu-Ende-Trainingsprozess verwendet. So konnte das Modell sowohl Geräusche als auch Sprache in einem einheitlichen Lernprozess erfassen.

Feinabstimmung für gleichzeitige Ausgabe

In der ursprünglichen Version konnte VSSFlow nicht automatisch Hintergrundgeräusche und gesprochene Dialoge gleichzeitig in einer einzigen Ausgabe erzeugen. Um dieses Problem zu lösen, wurde das Modell nachträglich feinabgestimmt. Die Forscher nutzten dafür große Mengen synthetischer Beispiele, in denen Sprache und Umgebungsgeräusche gemischt waren. Auf diese Weise lernte das Modell, wie beides gemeinsam klingen sollte.

Einsatz und Ergebnisse

Bei der Anwendung startet VSSFlow mit zufälligem Rauschen. Aus dem Video werden visuelle Hinweise mit etwa zehn Bildern pro Sekunde extrahiert, um passende Umgebungsgeräusche zu formen. Parallel liefert ein Transkript präzise Informationen für die erzeugte Stimme.

Im Vergleich zu spezialisierten Modellen, die nur für Soundeffekte oder nur für Sprache entwickelt wurden, erzielte VSSFlow konkurrenzfähige Ergebnisse. In mehreren wichtigen Kennzahlen schnitt das Modell sogar besser ab, obwohl es beide Aufgaben in einem einzigen System vereint.

Die Forscher veröffentlichten zahlreiche Demos, darunter Beispiele für reine Sound-Generierung, reine Sprach-Generierung und kombinierte Ausgaben aus Videos. Zusätzlich wurden direkte Vergleiche mit alternativen Modellen bereitgestellt.

Open Source und Ausblick

Der Code von VSSFlow wurde auf GitHub als Open Source veröffentlicht. Die Forscher arbeiten außerdem daran, die Modellgewichte zugänglich zu machen und eine Inferenz-Demo bereitzustellen.

Für die Zukunft sehen sie mehrere offene Herausforderungen. Eine zentrale Einschränkung ist die geringe Verfügbarkeit hochwertiger Video-Sprach-Ton-Daten. Zudem bleibt die Entwicklung besserer Repräsentationen für Ton und Sprache ein wichtiges Thema, insbesondere wenn Sprachdetails erhalten bleiben sollen, ohne die Modelle unnötig groß zu machen.

Apple treibt integrierte Audio-KI voran

Mit VSSFlow zeigt Apple, dass ein einheitliches Modell für videobedingte Ton- und Sprachgenerierung praktikabel ist und sogar Vorteile gegenüber getrennten Ansätzen bietet. Das gemeinsame Lernen von Sound und Sprache erweist sich als Stärke statt als Schwäche. Damit setzt die Arbeit einen klaren Impuls für zukünftige Forschung und unterstreicht Apples Rolle in der Weiterentwicklung moderner KI-Systeme. (Bild: Shutterstock / gnepphoto)

  • Apple Music: Bad Bunnys Halftime Show bricht Rekorde
  • Apple TV feiert Erfolge bei den 78. Directors Guild Awards
  • Apple verschärft App Store Richtlinien bei Chat-Apps
  • Apple-Chef Tim Cook äußert sich zur Pensionierung
  • watchOS 11.6.2 für Apple Watch: Das steckt im Update
  • Apple feiert 50 Jahre und blickt mit KI nach vorn
  • Apple bezieht Stellung: Tim Cook kämpft für Migration
  • AirTag 2 im Teardown: iFixit zeigt alle Neuerungen
  • iPhone 17 Pro Max gewinnt Akkutest gegen Android Konkurrenz
  • Apple Maps und Ads gelten in der EU nicht als Gatekeeper
  • Apple feiert Rekordquartal: So gelang das China-Comeback
  • iPad wächst 2025 stark – 2026 wird herausfordernd
  • Google als Cloud-Basis für Siri? Neue Aussagen werfen Fragen auf
  • Formel-1-Chef deutet Fortsetzung des Films F1 auf Apple TV an
  • iOS 26.3 liefert Hinweise auf kommende M5-Chips
  • Blockierungsmodus: FBI scheitert am iPhone einer Reporterin
  • Visuelle Intelligenz: Apples KI-Feature wird zum Schlüssel
  • iOS 26.3 RC veröffentlicht: Alle Neuerungen im Überblick
  • iPhone und NFC: Diese Neuerungen prägen die nächsten Jahre
  • Apple baut Bildung und Robotik in Indiens Lieferkette aus
  • Apple TV Press Day Event: Alle Inhalte für 2026 im Überblick
  • iPhone-Spyware umgeht iOS-Schutz für Kamera und Ton
  • iOS 26.2.1 sorgt bei einigen Nutzern für Probleme
Kennt ihr schon unsere Amazon Storefront? Dort findet ihr eine handverlesene Auswahl von diversen Produkten für euer iPhone und Co. – viel Spaß beim Stöbern.
Der Beitrag enthält Partnerlinks.
Apfelpatient zu deinem Google News Feed hinzufügen. 
War dieser Artikel hilfreich?
JaNein
Tags: TechPatient
Previous Post

AirPods Pro mit Kameras: Das plant Apple für 2026

Apple KI

Apple KI erzeugt Sprache und Ton aus stummen Videos

9. Februar 2026
AirPods Pro Apple

AirPods Pro mit Kameras: Das plant Apple für 2026

9. Februar 2026
iOS 26.3 Apple M5 Chips

Apple M5 Leak: Pro und Max könnten derselbe Chip sein

9. Februar 2026

Über APFELPATIENT

Willkommen in deiner ultimativen Quelle für alles rund um Apple – von der neuesten Hardware wie iPhone, iPad, Apple Watch, Mac, AirTags, HomePods, AirPods bis hin zur bahnbrechenden Apple Vision Pro und hochwertigem Zubehör. Tauche tief ein in die Welt der Apple Software mit den neuesten Updates und Funktionen für iOS, iPadOS, tvOS, watchOS, macOS und visionOS. Neben umfassenden Tipps und Tricks bieten wir dir die heißesten Gerüchte, aktuellste News und vieles mehr, um dich auf dem Laufenden zu halten. Auch ausgewählte Gaming-Themen finden ihren Platz bei uns, stets mit dem Fokus darauf, wie sie die Apple-Erfahrung bereichern. Dein Interesse an Apple und verwandter Technologie wird hier mit jeder Menge Expertenwissen und Leidenschaft bedient.

Rechtliches

  • Impressum – Über APFELPATIENT
  • Cookie-Einstellungen
  • Datenschutzerklärung
  • Nutzungsbedingungen

Service

  • Partnerprogramm
  • Netiquette – Über APFELPATIENT

RSS Feed

Folge Apfelpatient:
Facebook Instagram YouTube Threads Threads
Apfelpatient Logo

© 2026 Apfelpatient. All rights reserved. | Sitemap

No Result
View All Result
  • Home
  • News
  • Rumors
  • Tipps & Tricks
  • Tests & Erfahrungsberichte
  • Allgemein

© 2026 Apfelpatient. Alle Rechte vorbehalten. | Seitenverzeichnis

Change language to English