Apple arbeitet seit Jahren daran, künstliche Intelligenz stärker zu vereinheitlichen und leistungsfähiger zu machen. Mit UniGen 1.5 stellt Apple nun ein KI-Modell vor, das Bilder verstehen, erzeugen und bearbeiten kann und das alles innerhalb eines einzigen Systems. Ziel ist es, mehrere bisher getrennte Aufgaben in einem Modell zusammenzuführen und dadurch konsistentere und qualitativ bessere Ergebnisse zu erzielen.
Die KI-Forschung bei Apple verfolgt einen klaren Ansatz. Statt für jede einzelne Aufgabe ein eigenes Modell zu entwickeln, setzt Apple zunehmend auf einheitliche multimodale Systeme. UniGen 1.5 ist die konsequente Weiterentwicklung dieser Strategie. Das Modell baut auf früheren Arbeiten auf und erweitert sie um Bildbearbeitung, ohne dabei den einheitlichen Rahmen zu verlassen. Damit zeigt Apple, wie Bildverständnis aktiv genutzt werden kann, um Bildgenerierung und Bearbeitung zu verbessern.
Aufbauend auf dem ursprünglichen UniGen
Im Mai des vergangenen Jahres veröffentlichte ein Team von Apple-Forschern die Studie „UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation“. Darin wurde ein multimodales großes Sprachmodell vorgestellt, das sowohl Bilder verstehen als auch Bilder generieren kann. Entscheidend war, dass diese beiden Fähigkeiten nicht auf getrennte Modelle verteilt wurden, sondern in einem einzigen System zusammenliefen.
Mit der neuen Studie „UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning“ knüpft Apple direkt an diese Arbeit an. UniGen 1.5 erweitert das bestehende Modell um Bildbearbeitungsfunktionen und deckt damit Bildverständnis, Bildgenerierung und Bildbearbeitung vollständig ab.
Ein einheitliches Modell für drei Aufgaben
Die Vereinigung dieser drei Fähigkeiten ist technisch anspruchsvoll. Bildverständnis und Bildgenerierung erfordern unterschiedliche Herangehensweisen, während Bildbearbeitung zusätzlich ein präzises Erfassen von oft sehr spezifischen Anweisungen verlangt. Apple argumentiert jedoch, dass ein einheitliches Modell seine Fähigkeit zum Verstehen gezielt einsetzen kann, um die Qualität der Generierung und Bearbeitung zu steigern.
Gerade bei der Bildbearbeitung haben viele bestehende Modelle Schwierigkeiten. Sie erfassen komplexe oder subtile Bearbeitungsanweisungen häufig nicht vollständig. Besonders problematisch sind Änderungen, die nur kleine Details betreffen oder sehr genau beschrieben sind. UniGen 1.5 soll genau dieses Problem adressieren.
Edit Instruction Alignment als zusätzlicher Trainingsschritt
Um das Verständnis von Bearbeitungsanweisungen zu verbessern, führt Apple mit UniGen 1.5 einen neuen Schritt nach der überwachten Feinabstimmung ein. Dieser Schritt wird als Edit Instruction Alignment bezeichnet.
Nach der Standard-Feinabstimmung zeigt sich laut Apple, dass das Modell Bearbeitungsszenarien weiterhin nicht zuverlässig verarbeitet, da das Verständnis der Anweisungen unzureichend ist. Edit Instruction Alignment soll diese Lücke schließen. Dabei erhält das Modell das Ausgangsbild und die Bearbeitungsanweisung als Eingaben und wird darauf trainiert, eine detaillierte Textbeschreibung des gewünschten Zielbildes vorherzusagen.
Statt sofort ein bearbeitetes Bild zu erzeugen, lernt das Modell zunächst, den semantischen Inhalt des Zielbildes sprachlich zu formulieren. Dieser Zwischenschritt hilft UniGen 1.5, die beabsichtigte Bearbeitung besser zu verinnerlichen, bevor das endgültige Bild generiert wird. Laut den Versuchsergebnissen steigert dieser Ansatz die Bearbeitungsleistung deutlich.
Reinforcement Learning mit vereinheitlichten Belohnungen
Nach dem Edit Instruction Alignment setzen die Forscher Reinforcement Learning ein. Hier liegt einer der zentralen Beiträge der Arbeit von Apple. UniGen 1.5 nutzt dasselbe Belohnungssystem sowohl für die Bildgenerierung als auch für die Bildbearbeitung.
Bisher war dies schwierig, da Bildbearbeitung sehr unterschiedliche Formen annehmen kann. Sie reicht von kleinen Korrekturen bis hin zu umfassenden visuellen Veränderungen. Durch die Vereinheitlichung der Belohnungen gelingt es Apple, beide Aufgaben in einem gemeinsamen Trainingsprozess zu optimieren. Das Modell wird für qualitativ hochwertige, anweisungstreue Ergebnisse belohnt und für schlechtere Ausgaben entsprechend bestraft.
Ergebnisse bei Benchmarks
In umfangreichen Tests schneidet UniGen 1.5 sehr gut ab. Bei Benchmarks, die das Befolgen von Anweisungen, die visuelle Qualität und die Fähigkeit zu komplexen Bearbeitungen messen, erreicht das Modell mindestens vergleichbare oder bessere Ergebnisse als andere moderne multimodale Systeme.
Bei GenEval erzielt UniGen 1.5 einen Wert von 0,89. Beim DPG-Bench erreicht das Modell 86,83. Damit übertrifft es aktuelle Methoden wie BAGEL und BLIP3o deutlich.
Auch im Bereich der Bildbearbeitung zeigt UniGen 1.5 starke Leistungen. Beim ImgEdit-Benchmark erreicht das Modell eine Gesamtpunktzahl von 4,31. Damit liegt es über Open-Source-Modellen wie OminiGen2 und ist in seiner Leistung vergleichbar mit proprietären Modellen wie GPT-Image-1.
Bekannte Schwächen und Fehlerfälle
Apple weist in der Studie auch klar auf bestehende Einschränkungen hin. UniGen 1.5 hat unter bestimmten Bedingungen Probleme mit der Textdarstellung in Bildern. Ursache ist ein leichtgewichtiger diskreter Detokenizer, der Schwierigkeiten hat, die feinen strukturellen Details zu kontrollieren, die für eine präzise Textgenerierung notwendig sind.
Darüber hinaus treten in manchen Fällen Probleme mit der Identitätskonsistenz auf. Beobachtet wurden unter anderem Veränderungen in der Fellstruktur und Gesichtsform einer Katze oder Unterschiede in der Farbe der Federn eines Vogels. Diese Identitätsverschiebungen zeigen, dass UniGen 1.5 in diesem Bereich weiter verbessert werden muss.
UniGen 1.5 stärkt Apples Position in der KI-Forschung
Mit UniGen 1.5 macht Apple einen wichtigen Schritt in Richtung einheitlicher multimodaler KI-Systeme. Das Modell vereint Bildverständnis, Bildgenerierung und Bildbearbeitung in einem einzigen Rahmen und nutzt neue Trainingsstrategien wie Edit Instruction Alignment und ein gemeinsames Belohnungssystem im Reinforcement Learning.
Trotz vorhandener Schwächen zeigt UniGen 1.5, dass ein einheitliches Modell mit aktuellen offenen und proprietären Lösungen mithalten oder sie sogar übertreffen kann. Apple legt damit eine solide Grundlage für weitere Forschung und unterstreicht den eigenen Anspruch, komplexe KI-Aufgaben nicht fragmentiert, sondern ganzheitlich zu lösen. (Bild: agsandrew / DepositPhotos.com)
- macOS Bug lässt Studio Display seit Monaten flackern
- Apple plant mehr Werbung in der App Store Suche ab 2026
- ChatGPT unterstützt jetzt Apple Music direkt in der App
- Apple öffnet App Store in Japan und ändert iOS-Regeln
- Apple TV erweitert Monarch-Universum mit neuem Spin-off
- Apple stellt SHARP vor: 3D-Szenen aus nur einem Foto
- Apple Aktie: Morgan Stanley hebt Kursziel auf 315 Dollar an
- Trump-Regierung droht der EU mit Vergeltung wegen DMA
- MacBook Pro M5: Apple vereinfacht den Akkutausch deutlich
- Apple und DMA: Warum Europas Entwickler protestieren
- ChatGPT setzt auf Apple Music und schnellere Bildgenerierung
- Apple plant Stoffdisplays für HomePod und andere Geräte
- Apple im Fokus: US-Kritik an Europas neuen Digitalgesetzen
- iOS 26.3 Beta 1: Alle Neuerungen und Funktionen im Überblick
- Apple kann steigende DRAM-Kosten besser abfedern als andere
- iOS 26 Leak gibt Einblick in kommende Apple Softwarepläne
- Apple als Partner des Weißen Hauses bei „Tech Force“-Programm



