Apple KI erzeugt 3D-Modelle aus nur einem Bild Apfelpatient

Apple hat ein neues KI-Modell vorgestellt, das einen bemerkenswerten Fortschritt in der 3D-Rekonstruktion ermöglicht. Statt wie bisher mehrere Bilder aus unterschiedlichen Perspektiven zu benötigen, reicht hier ein einziges Bild aus. Das Modell erzeugt daraus ein vollständiges 3D-Objekt und berücksichtigt dabei realistische Lichtverhältnisse wie Reflexionen und Glanzlichter.

Diese Entwicklung zeigt, wie weit Apple im Bereich künstliche Intelligenz inzwischen ist und welche praktischen Anwendungen dadurch möglich werden.

Um zu verstehen, wie dieses Modell funktioniert, hilft ein kurzer Blick auf das Konzept des sogenannten latenten Raums. Dieses ist im maschinellen Lernen nicht neu, hat aber durch moderne KI-Modelle, insbesondere solche auf Basis der Transformer-Architektur sowie durch sogenannte Weltmodelle, deutlich an Bedeutung gewonnen.

Der latente Raum beschreibt vereinfacht gesagt eine Methode, bei der Informationen in mathematische Werte umgewandelt und in einem mehrdimensionalen Raum organisiert werden. Dadurch lassen sich Beziehungen zwischen Daten effizient berechnen. Ein klassisches Beispiel:

Die mathematische Darstellung von „König“ minus „Mann“ plus „Frau“ führt im latenten Raum zur Darstellung von „Königin“.

Auch wenn dieses Beispiel aus der Textverarbeitung stammt, lässt sich das gleiche Prinzip auf andere Datentypen übertragen, etwa auf Bilder oder 3D-Informationen. Genau das nutzt Apple in seiner neuen Studie.

LiTo: Surface Light Field Tokenization

In der Studie mit dem Titel „LiTo: Surface Light Field Tokenization“ stellt Apple eine neue Methode vor. Ziel ist eine 3D-Latentdarstellung, die zwei Dinge gleichzeitig abbildet:

die Geometrie eines Objekts
das Erscheinungsbild abhängig vom Blickwinkel

Bisherige Ansätze hatten hier klare Einschränkungen. Viele Modelle konzentrierten sich entweder auf die reine Form eines Objekts oder auf ein vereinfachtes Erscheinungsbild, das unabhängig vom Blickwinkel ist. Dadurch gingen realistische Effekte oft verloren.

Apples Ansatz kombiniert beides in einem einheitlichen Modell. Das System nutzt die Erkenntnis, dass RGB-Tiefenbilder als Stichproben eines sogenannten Oberflächenlichtfeldes verstanden werden können.

Durch die Kodierung zufälliger Teilbereiche dieses Lichtfeldes in kompakte latente Vektoren lernt das Modell, sowohl Form als auch Lichtverhalten gemeinsam darzustellen. Dadurch werden auch komplexe Effekte korrekt wiedergegeben, darunter:

Spiegelungen
Glanzlichter
Fresnel-Reflexionen

Diese Effekte bleiben über verschiedene Blickwinkel hinweg konsistent.

Funktionsweise des Modells

Die grundlegende Struktur des Systems ist ein Encoder-Decoder-Ansatz.

Der Encoder komprimiert die Informationen eines Objekts. Statt jedes Detail einzeln zu speichern, entsteht eine verdichtete mathematische Repräsentation im latenten Raum. Diese enthält sowohl die Form des Objekts als auch die Information darüber, wie Licht mit der Oberfläche interagiert.

Der Decoder übernimmt anschließend die Rekonstruktion. Aus der kompakten Darstellung erzeugt er ein vollständiges 3D-Objekt. Dabei berechnet er auch, wie sich Licht abhängig vom Blickwinkel verhält.

Das Ergebnis ist ein Modell, das nicht nur die Struktur eines Objekts wiedergibt, sondern auch dessen visuelle Eigenschaften realistisch simuliert.

Training des LiTo-Modells

Für das Training verwendete Apple eine große Datenbasis:

Tausende verschiedene Objekte
jeweils gerendert aus 150 Blickwinkeln
unter drei unterschiedlichen Lichtbedingungen

Anstatt alle Daten direkt zu verwenden, wählte das System zufällig kleine Teilmengen dieser Informationen aus. Diese wurden in den latenten Raum überführt.

Der Decoder wurde dann darauf trainiert, aus diesen unvollständigen Daten das gesamte Objekt inklusive aller Licht- und Perspektiveffekte zu rekonstruieren.

Im Verlauf dieses Trainings lernte das Modell eine Darstellung, die sowohl die Geometrie als auch die Veränderungen im Erscheinungsbild je nach Blickwinkel zuverlässig abbildet.

Zusätzlich wurde ein weiteres Modell trainiert. Dieses nimmt ein einzelnes Bild als Eingabe und sagt die passende latente Darstellung voraus. Auf dieser Grundlage kann der Decoder dann das vollständige 3D-Objekt erzeugen.

Damit wird die Rekonstruktion aus nur einem Bild möglich.

Vergleich mit bestehenden Methoden

Apple hat sein Modell unter anderem mit einem bestehenden System namens TRELLIS verglichen. Dabei zeigte sich, dass LiTo insbesondere bei komplexen Lichtverhältnissen deutlich bessere Ergebnisse liefert.

Während andere Modelle Schwierigkeiten haben, spiegelnde Oberflächen oder winkelabhängige Effekte korrekt darzustellen, bleibt die Darstellung bei LiTo stabil und realistisch.

Auf der Projektseite von Apple sind entsprechende Vergleichsdarstellungen verfügbar, inklusive interaktiver Gegenüberstellungen. Dort lassen sich die Unterschiede direkt nachvollziehen.

Bedeutung und mögliche Anwendungen

Die Technologie hat mehrere praktische Einsatzbereiche:

Augmented Reality: realistischere Darstellung digitaler Objekte
E-Commerce: Produkte können aus einem einzelnen Foto als 3D-Modell visualisiert werden
Spieleentwicklung: effizientere Erstellung von Assets
Film und Design: schnellere und präzisere Visualisierung

Der große Vorteil liegt darin, dass deutlich weniger Ausgangsdaten benötigt werden, ohne dass die Qualität leidet.

Apples Fortschritt in der 3D-KI

Mit dem LiTo-Modell zeigt Apple, wie leistungsfähig moderne KI im Bereich der visuellen Verarbeitung geworden ist. Die Kombination aus 3D-Rekonstruktion und realistischen Lichteffekten aus nur einem Bild stellt einen klaren Fortschritt gegenüber bisherigen Methoden dar.

Die Nutzung des latenten Raums als zentrale Technik ermöglicht eine kompakte und zugleich präzise Darstellung komplexer Zusammenhänge. Damit setzt Apple einen weiteren Schritt in Richtung effizienter, praxisnaher KI-Anwendungen, die in vielen Bereichen eingesetzt werden können. (Bild: Shutterstock / Chaosamran_Studio)

Kennt ihr schon unsere Amazon Storefront? Dort findet ihr eine handverlesene Auswahl von diversen Produkten für euer iPhone und Co. – viel Spaß beim Stöbern.

Der Beitrag enthält Partnerlinks.

Apfelpatient zu deinem Google News Feed hinzufügen.

War dieser Artikel hilfreich?

JaNein

Tags: TechPatient

Apple KI erzeugt 3D-Modelle aus nur einem Bild

AirPods Max 2: Alle Audio-Verbesserungen im Überblick

Apple KI erzeugt 3D-Modelle aus nur einem Bild

AirPods Max 2: Alle Audio-Verbesserungen im Überblick

WhatsApp testet Gästechats: Neue Funktion im Überblick

Über APFELPATIENT

Rechtliches

Service