Apple Ferret-UI Lite: Der smarte Weg zur On-Device-KI Apfelpatient

Apple forscht seit Jahren intensiv an Modellen, die künstliche Intelligenz direkt auf das Gerät bringen sollen. Mit Ferret-UI Lite hat das Unternehmen nun ein Modell vorgestellt, das trotz seiner kompakten Größe von nur 3 Milliarden Parametern mitunter besser abschneidet als Konkurrenzmodelle, die bis zu 24-mal so viele Parameter besitzen. Das Modell ist als geräteinterne Lösung konzipiert, läuft also vollständig lokal, ohne Daten in die Cloud zu schicken, und kann dabei eigenständig mit App-Oberflächen interagieren. Das klingt auf den ersten Blick unrealistisch für ein so kleines Modell. Wer sich die Architektur und die Trainingsstrategie genauer anschaut, versteht jedoch schnell, warum es funktioniert.

Die Geschichte von Ferret-UI Lite beginnt nicht mit diesem Modell, sondern mit einer Studie aus dem Dezember 2023. Damals veröffentlichte ein neunköpfiges Forscherteam bei Apple eine Arbeit mit dem Titel „FERRET: Refer and Ground Anything Anywhere at Any Granularity“. Darin stellten die Forschenden ein multimodales großes Sprachmodell vor, kurz MLLM, das in der Lage ist, natürliche Sprachbeschreibungen auf konkrete Bildbereiche zu beziehen und diese präzise zu identifizieren. Der Grundgedanke war simpel, aber wirkungsvoll: Ein Modell sollte verstehen, wenn jemand sagt „der rote Knopf oben links“ und genau dieses Element im Bild finden und damit arbeiten können.

Die Ferret-Modellfamilie von Apple

Auf dieser Grundlage baute Apple in den folgenden Monaten konsequent auf. Es folgten Ferret v2, Ferret-UI und Ferret-UI 2, wobei jede neue Version neue Fähigkeiten mitbrachte. Ferret-UI war dabei die erste Variante, die sich gezielt mit mobilen Benutzeroberflächen beschäftigte. Das ursprüngliche Ferret-UI-Modell basierte auf 13 Milliarden Parametern und wurde darauf trainiert, Screenshots mobiler Geräte zu verstehen, also genau die Art von Oberflächen, die auf einem Smartphone täglich zu sehen sind. Die Forschenden begründeten diesen Fokus damit, dass allgemeine MLLMs zwar bei der Analyse natürlicher Bilder gut performen, bei Benutzeroberflächen jedoch regelmäßig scheitern. Symbole, Schaltflächen, Menüs und Textelemente in einer App-Oberfläche folgen anderen Regeln als ein Foto eines Hundes oder einer Landschaft.

Ferret-UI 2 erweiterte das System anschließend um Unterstützung für mehrere Plattformen sowie um eine höhere Auflösungswahrnehmung. Und jetzt, mit Ferret-UI Lite, hat Apple die Reihe um eine vollständig neue Richtung ergänzt: Statt das Modell weiter zu vergrößern und leistungsfähiger zu machen, haben die Forschenden es radikal verkleinert und für den Einsatz direkt auf dem Gerät optimiert.

Warum ein kleines Modell überhaupt sinnvoll ist

Bevor es um die technischen Details von Ferret-UI Lite geht, lohnt sich ein kurzer Blick auf die grundsätzliche Frage: Warum sollte Apple überhaupt ein kleines, geräteintern laufendes Modell entwickeln, wenn große serverseitige Modelle nachweislich besser performen?

Die Antwort liegt in zwei Faktoren: Latenz und Privatsphäre. Ein Modell, das auf einem Server läuft, braucht eine Netzwerkverbindung, muss Daten hin- und herschicken und hat eine messbare Verzögerung. Für einen Agenten, der auf dem Gerät mit App-Oberflächen interagiert und dabei auf Benutzereingaben reagiert, ist das unpraktisch. Dazu kommt die Frage, welche Daten dabei eigentlich übertragen werden: Screenshots, Interaktionsprotokolle, App-Inhalte. Das sind alles Dinge, die viele Menschen lieber nicht auf fremden Servern hätten. Ein On-Device-Modell umgeht dieses Problem vollständig, weil schlicht keine Daten das Gerät verlassen müssen.

Apple hat diesen Ansatz in den vergangenen Jahren mit Apple Intelligence weiterverfolgt und Ferret-UI Lite ist ein klarer Ausdruck dieser Strategie: leistungsfähige KI, die lokal läuft.

Was Ferret-UI Lite technisch ausmacht

Ein Modell mit 3 Milliarden Parametern

Ferret-UI Lite hat 3 Milliarden Parameter. Zum Vergleich: Das ursprüngliche Ferret-UI hatte 13 Milliarden, und viele der serverseitigen Konkurrenzmodelle, mit denen Ferret-UI Lite verglichen wird, haben 7 Milliarden, 13 Milliarden oder sogar 72 Milliarden Parameter. Dass ein 3-Milliarden-Parameter-Modell in Benchmarks mit diesen Größen mithalten oder sie übertreffen kann, ist die zentrale Aussage der Studie und sie wird durch konkrete Benchmark-Ergebnisse untermauert.

Die Forschenden beschreiben Ferret-UI Lite als ein Modell, das „auf der Grundlage von Erkenntnissen aus dem Training kleiner Sprachmodelle mit mehreren Schlüsselkomponenten aufgebaut ist“. Das klingt zunächst abstrakt, lässt sich aber auf drei konkrete Bausteine herunterbrechen: vielfältige Trainingsdaten, eine intelligente Bild-Verarbeitungstechnik zur Laufzeit und eine Kombination aus überwachtem Lernen und Reinforcement Learning.

Trainingsdaten aus echten und synthetischen Quellen

Ferret-UI Lite wurde mit einer Mischung aus echten und synthetischen Trainingsdaten aus mehreren GUI-Domänen trainiert. Das bedeutet: Das Modell hat nicht nur reale Screenshots und Interaktionen gesehen, sondern auch maschinell erzeugte Beispiele, die gezielt für das Training erstellt wurden. Diese Kombination ist wichtig, weil echte Daten zwar realistisch sind, aber oft in bestimmten Bereichen dünn gesät, während synthetische Daten gezielt Lücken füllen können.

Besonders interessant ist dabei, wie Apple die synthetischen Trainingsdaten erzeugt hat. Dafür haben die Forschenden ein mehrstufiges Multi-Agenten-System entwickelt, das direkt mit lebenden GUI-Plattformen interagiert. Dieses System besteht aus vier Komponenten, die zusammenarbeiten: einem Curriculum-Aufgabengenerator, einem Planungsagenten, einem Grounding-Agenten und einem Kritik-Modell.

Der Curriculum-Aufgabengenerator schlägt dabei immer anspruchsvollere Aufgabenziele vor und sorgt dafür, dass das Training nicht bei einfachen Aufgaben stagniert. Der Planungsagent zerlegt diese Ziele in konkrete Einzelschritte. Der Grounding-Agent führt diese Schritte auf dem Bildschirm aus. Und das Kritik-Modell bewertet am Ende, ob das Ergebnis korrekt war, und gibt nur qualitativ ausreichende Beispiele in den Trainingsdatensatz.

Was diesen Ansatz besonders wertvoll macht: Das System erfasst die Unschärfe realer Interaktionen. Es dokumentiert nicht nur erfolgreiche Abläufe, sondern auch Fehler, unerwartete Systemzustände und die Strategien, mit denen das Modell diese Zustände behebt. Das wäre mit manuell annotierten Daten kaum in diesem Umfang möglich, weil Menschen dazu neigen, saubere, fehlerfreie Abläufe zu dokumentieren, während echte Nutzung chaotischer ist.

On-the-Fly-Cropping und Zoom zur Laufzeit

Eine der technisch auffälligsten Lösungen in Ferret-UI Lite ist die Echtzeit-Ausschnitt- und Zoomtechnik. Kleine Modelle haben ein grundsätzliches Problem bei der Verarbeitung von Bildschirmaufnahmen: Sie können nur eine begrenzte Anzahl von Bild-Tokens gleichzeitig verarbeiten. Ein vollständiger Screenshot einer App enthält aber oft sehr viele relevante Details, die alle gleichzeitig im Blickfeld sein müssten.

Ferret-UI Lite löst dieses Problem mit einem zweistufigen Verfahren. In einem ersten Schritt trifft das Modell eine grobe Vorhersage darüber, wo auf dem Bildschirm die relevante Information zu finden ist. Anschließend wird der Bereich rund um diese erste Vorhersage zugeschnitten und vergrößert. Auf diesem zugeschnittenen Ausschnitt trifft das Modell dann eine neue, präzisere Vorhersage. Das Ergebnis ist ein iterativer Prozess, bei dem das Modell seinen Fokus schrittweise einengt und dabei seine begrenzte Verarbeitungskapazität gezielt einsetzt, statt sie gleichmäßig über den gesamten Bildschirm zu verteilen.

Diese Technik ist nicht völlig neu, aber ihre Integration in ein On-Device-Modell dieser Größe und ihre konsequente Anwendung auf GUI-Grounding-Aufgaben ist ein klarer Fortschritt.

Überwachtes Lernen und Reinforcement Learning

Ferret-UI Lite kombiniert zwei unterschiedliche Trainingsansätze. Das überwachte Feinabstimmen sorgt dafür, dass das Modell bei klar definierten Aufgaben korrekte Antworten lernt. Das Reinforcement Learning geht darüber hinaus und belohnt das Modell für Verhaltensweisen, die zu guten Ergebnissen führen, auch wenn der genaue Weg dorthin nicht im Voraus festgelegt wurde. Diese Kombination ist besonders für Agenten sinnvoll, die mit sich verändernden und nicht vorhersehbaren Umgebungen umgehen müssen, was bei GUI-Interaktionen der Normalfall ist.

Wo Ferret-UI Lite getestet wurde

Ein interessanter Aspekt der Studie ist die Wahl der Testumgebungen. Ferret-UI und Ferret-UI 2 wurden vorwiegend mit iPhone-Screenshots und anderen Apple-eigenen Schnittstellen bewertet. Ferret-UI Lite hingegen wurde auf Android-, Web- und Desktop-GUI-Umgebungen trainiert und evaluiert. Als Benchmarks kamen AndroidWorld und OSWorld zum Einsatz, zwei der bekanntesten reproduzierbaren Testumgebungen für GUI-Agenten-Forschung.

Die Forschenden geben keinen expliziten Grund für diesen Wechsel an. Es liegt aber nahe, dass die Verfügbarkeit standardisierter und reproduzierbarer Testumgebungen dabei eine zentrale Rolle gespielt hat. AndroidWorld und OSWorld sind in der Forschungsgemeinschaft weit verbreitet und erlauben einen direkten Vergleich mit anderen Modellen, was für eine wissenschaftliche Studie von Bedeutung ist.

Stärken und Grenzen des Modells

Was Ferret-UI Lite gut kann

In kurzfristigen, klar definierten Aufgaben zeigt Ferret-UI Lite starke Leistungen. Das Modell kann UI-Elemente präzise identifizieren, auf Benutzeranfragen reagieren und einfache Interaktionen eigenständig durchführen. In diesen Bereichen schlägt es teils Modelle, die ein Vielfaches seiner Parameterzahl besitzen. Das ist das direkte Ergebnis der spezialisierten Trainingstrategie und der Crop-and-Zoom-Technik.

Wo die Grenzen liegen

Bei komplizierteren, mehrstufigen Interaktionen sind die Schwächen des Modells spürbar. Aufgaben, die viele aufeinanderfolgende Schritte erfordern, eine langfristige Planung verlangen oder flexibel auf unerwartete Zwischenstände reagieren müssen, überfordern ein 3-Milliarden-Parameter-Modell verständlicherweise stärker als ein serverseitiges Modell mit 70 Milliarden Parametern. Die Forschenden halten diesen Kompromiss für erwartbar und stellen ihn nicht als Fehler dar, sondern als eine bewusste Abwägung zwischen Modellgröße, Geräteeinsatz und Leistungsfähigkeit.

Das bedeutet: Ferret-UI Lite ist kein Alleskönner und soll es wohl auch nicht sein. Es ist ein spezialisiertes, schlankes Modell für definierte Aufgaben, das ohne Netzwerkanbindung und ohne Cloud-Infrastruktur funktioniert.

Apples Kurs in Richtung privater On-Device-KI

Ferret-UI Lite ist ein bedeutsamer Schritt in Apples KI-Strategie. Das Modell zeigt, dass es möglich ist, einen leistungsfähigen GUI-Agenten in einem Format zu entwickeln, das auf einem Endgerät läuft, die Privatsphäre schützt und dabei konkurrenzfähig bleibt. Die Kombination aus selbstgenerierenden Trainingsdaten, einer cleveren Bildverarbeitungstechnik zur Laufzeit und einem robusten Trainingsansatz aus überwachtem Lernen und Reinforcement Learning macht Ferret-UI Lite technisch interessant, auch über den Apple-Kontext hinaus.

Ob und wie Apple diese Technologie in zukünftige Produkte einbinden wird, hat das Unternehmen nicht kommuniziert. Die Forschungsrichtung ist aber eindeutig: leistungsfähige KI, die lokal auf dem Gerät läuft, keine Daten überträgt und autonom mit App-Oberflächen interagieren kann. Mit Ferret-UI Lite hat Apple gezeigt, dass dieser Ansatz nicht nur theoretisch, sondern auch praktisch funktioniert. (Bild: Shutterstock / MMD Creative)