OpenAI Images 2.0: Bildgeneration mit Thinking Apfelpatient

OpenAI hat ein komplett überarbeitetes Bildgenerierungs-Modell veröffentlicht: ChatGPT Images 2.0 kombiniert „Thinking“-Fähigkeiten mit deutlich besserer Textdarstellung und Echtzeit-Websuche. Das Modell ist ab sofort für alle ChatGPT-, Codex- und API-Nutzer verfügbar.

OpenAI baut sein Produktportfolio weiter aus. Nach der jüngsten Veröffentlichung von GPT-5.4 und GPT-5.4 mini und nano folgt jetzt die nächste Generation der Bildgenerierung: ChatGPT Images 2.0. Das Modell soll deutlich komplexere visuelle Aufgaben bewältigen als der Vorgänger und kommt mit einer für die KI-Bildgeneration neuen Fähigkeit – dem schrittweisen Überdenken der Ergebnisse.

Bildgenerierungs-KI ist seit Jahren ein Wettbewerbsfeld – DALL-E, Midjourney, Stable Diffusion und zahlreiche Konkurrenten kämpfen um technologische Vorherrschaft. Mit Images 2.0 versucht OpenAI jetzt einen grundlegenden Sprung: Das Modell kann bei Bedarf seine Generierung überprüfen, korrigieren und sogar auf das Internet zugreifen, um aktuelle Informationen einzuholen. Das ist deutlich mehr als klassische Text-zu-Bild-Generierung.

ChatGPT Images 2.0: Was ist neu?

Die wichtigsten Neuerungen von ChatGPT Images 2.0:

Thinking-Fähigkeiten: Das Modell kann schrittweise durch komplexe Anweisungen arbeiten und sich selbst korrigieren. OpenAI verspricht sich davon präzisere Ergebnisse bei schwierigen Kompositionen.
Verbesserte Textdarstellung: Text in generierten Bildern soll deutlich lesbarer und präziser werden. Das war bisher eine der größten Schwächen aller Bildgenerierungs-Modelle.
Multilinguale Unterstützung: Non-lateinische Schriftzeichen wie Japanisch, Koreanisch, Chinesisch, Hindi und Bengali werden jetzt besser dargestellt.
Echtzeit-Websuche: Das Modell kann das Internet nach aktuellen Informationen durchsuchen, um Bilder zu generieren, die auf realen Daten basieren.
Mehrere Varianten gleichzeitig: Ein einzelner Prompt kann bis zu acht Bilder gleichzeitig erzeugen – praktisch, um verschiedene Interpretationen zu vergleichen.
Mehrere Seitenverhältnisse: Bilder lassen sich in verschiedenen Formaten erstellen.
2K-Auflösung: Die maximale Auflösung wurde auf 2K angehoben.

„Thinking“ – was bedeutet das konkret?

Der wichtigste Schritt nach vorne ist die „Thinking“-Fähigkeit. Bisherige Bildgenerierungs-Modelle haben einen Prompt erhalten und direkt ein Bild ausgespuckt. Images 2.0 kann dagegen mehrere Verarbeitungsschritte durchlaufen, die Ausgabe selbst bewerten und gegebenenfalls nachbessern.

In der Praxis könnte das bedeuten: Wenn ein Nutzer ein Bild mit spezifischen Objekten in einer bestimmten Anordnung verlangt, prüft das Modell, ob alle Objekte wirklich korrekt positioniert sind – und korrigiert sich bei Bedarf. Das löst eines der hartnäckigsten Probleme der KI-Bildgenerierung: das ungenaue Umsetzen detaillierter Anweisungen.

Besserer visueller Geschmack

Eine interessante Formulierung in OpenAIs Ankündigung: Images 2.0 habe einen „verbesserten Sinn für Komposition und visuellen Geschmack“. Das Ergebnis sollen Bilder sein, die weniger „KI-generiert“ wirken.

Das ist ein oft übersehenes Problem. KI-Bilder haben oft einen charakteristischen Look, den Betrachter sofort als künstlich erkennen – unnatürliche Lichtverhältnisse, übertriebene Details, bestimmte Kompositionsmuster. OpenAI versucht jetzt, diesen „AI-Look“ zu reduzieren, indem das Modell ästhetisch durchdachtere Entscheidungen trifft.

Ob das in der Praxis funktioniert, werden erste Tests zeigen. Realistisch betrachtet bleibt KI-Bilder für geschulte Augen weiterhin erkennbar – aber für durchschnittliche Nutzer und für kommerzielle Anwendungen könnten die Ergebnisse deutlich überzeugender werden.

Was das für iPhone-Nutzer bedeutet

Für Apple-Nutzer ist die Neuerung relevant, weil ChatGPT tief in iOS integriert ist. Nutzer können mit ChatGPT direkt über Siri interagieren oder in der ChatGPT-App auf dem iPhone die neuen Bildfähigkeiten nutzen. Wer bereits ChatGPT Plus oder Pro abonniert hat, bekommt Images 2.0 ohne Aufpreis.

Spannend ist der Kontrast zu Apples eigener KI-Bildgenerierung. Apple Intelligence bietet mit „Image Playground“ ebenfalls Bilder-Features, wirkt im Vergleich zu Images 2.0 aber deutlich limitierter. Dass Apple künftig auf Gemini-Technologie für Siri setzt, deutet darauf hin, dass das Unternehmen bei Bildern und Text-zu-Bild-Aufgaben ebenfalls externe Lösungen in Betracht zieht.

OpenAI: Der größere Kontext

Images 2.0 reiht sich ein in einen beeindruckenden Produktausstoß von OpenAI in den letzten Monaten. Neben den GPT-Updates und dem neuen Cybersecurity-Modell GPT-5.4-Cyber arbeitet das Unternehmen auch an neuen Bereichen wie dem eingestellten Video-Modell Sora. Die Geschwindigkeit, in der OpenAI neue Produkte veröffentlicht, markiert das aktuelle KI-Tempo – und zeigt, wie schwer es Apple hat, auf diesem Feld mitzuhalten.

Für normale Nutzer ist die gute Nachricht: Mit Images 2.0 bekommen ChatGPT-Abonnenten ohne Zusatzkosten ein deutlich stärkeres Bild-Werkzeug. Für professionelle Anwender – Designer, Marketer, Content-Creator – dürfte die verbesserte Textdarstellung und Multilinguale Unterstützung besonders wertvoll sein. Wer KI-Bilder bisher wegen unbefriedigender Qualität oder ungenauer Umsetzung gemieden hat, sollte Images 2.0 einen zweiten Blick wert sein. (Bild: Shutterstock / Camilo Concha)