Apple forscht seit Jahren an der Schnittstelle zwischen Mensch und Maschine. Die Benutzerfreundlichkeit seiner Produkte gehört zum Markenkern. Ein neuer Forschungsbericht zeigt, wie der Konzern jetzt mit künstlicher Intelligenz ein altbekanntes Problem der Mensch-Computer-Interaktion angeht: das Verständnis von App-Oberflächen. In Zusammenarbeit mit der Aalto-Universität in Finnland wurde ein neues KI-Modell vorgestellt, das App-Benutzeroberflächen nicht nur erkennen, sondern auch inhaltlich verstehen kann. Das Modell heißt ILuvUI.
ILuvUI ist ein sogenanntes Vision-Language-Modell (VLM), das visuelle Informationen aus Screenshots und natürliche Sprache gleichzeitig verarbeitet. Die Entwicklung basiert auf dem Open-Source-Modell LLaVA, wurde aber speziell für grafische Benutzeroberflächen weiterentwickelt. Ziel ist es, eine künstliche Intelligenz zu schaffen, die komplexe App-Interfaces auf dieselbe Weise versteht wie Menschen. Das heißt: Die KI soll nicht nur erkennen, was auf dem Bildschirm ist, sondern auch, was bestimmte Elemente bedeuten und wie man mit ihnen interagieren kann.
Ein Modell für App-Interfaces, nicht für Straßenhunde
Viele bestehende Vision-Language-Modelle sind darauf trainiert, natürliche Bilder wie Tiere, Gebäude oder Verkehrsschilder zu interpretieren. App-Benutzeroberflächen stellen aber ganz andere Anforderungen. Ein Bildschirm kann gleichzeitig viele Informationsebenen enthalten – Listen, Buttons, Checkboxen, Texteingabefelder – deren Bedeutung oft vom Kontext abhängt. Herkömmliche Modelle liefern in solchen Fällen nur begrenzt verwertbare Ergebnisse, weil sie nicht für diese Art von Inhalten optimiert sind. ILuvUI setzt genau hier an. Es wurde gezielt darauf trainiert, strukturiert aufgebaute Benutzeroberflächen zu analysieren. Dabei kombiniert es die visuelle Struktur der Oberfläche mit zusätzlichen Texteingaben in natürlicher Sprache. Das Ergebnis ist ein deutlich präziseres Verständnis von App-Schnittstellen.
So wurde ILuvUI trainiert
Das Forscherteam hat LLaVA für diesen Zweck angepasst. Zunächst wurden synthetische Text-Bild-Paare erstellt – also Screenshots von Apps in Kombination mit passendem Beschreibungstext. Dabei kamen auch sogenannte „goldene Beispiele“ zum Einsatz, die besonders präzise formulierte Interaktionen enthalten. Der finale Datensatz enthielt verschiedene Arten von Informationen:
- Frage-Antwort-Dialoge zur App-Nutzung
- Vollständige Beschreibungen des Bildschirminhalts
- Prognosen, welche Aktion ein Nutzer durchführen würde
- Schritt-für-Schritt-Anleitungen für komplexere Vorgänge (z. B. das Starten eines Podcasts oder das Ändern von Displayeinstellungen)
Nach dem Training mit diesen Daten konnte ILuvUI das ursprüngliche LLaVA-Modell in maschinellen Benchmarks und in Tests mit menschlichen Testpersonen übertreffen. Die KI zeigte ein besseres Verständnis für App-Logiken, eine höhere Genauigkeit bei der Vorhersage von Nutzerzielen und klarere Erklärungen im Dialogformat.
Kein „Bereich von Interesse“ notwendig
Ein bemerkenswerter Unterschied zu früheren Modellen: ILuvUI braucht keine manuelle Auswahl von Bildschirmbereichen. Das Modell analysiert automatisch den gesamten Kontext eines Screenshots und verarbeitet gleichzeitig eine Texteingabe – zum Beispiel eine Frage zur Nutzung der App. Das macht das System vielseitig einsetzbar. ILuvUI kann etwa erklären, wie bestimmte App-Funktionen bedient werden oder welche Schritte zur Lösung eines Problems nötig sind.
Praktische Anwendungsmöglichkeiten
Laut Apple ist ILuvUI besonders interessant für zwei Einsatzbereiche: Barrierefreiheit und automatisierte UI-Tests. Menschen mit Seh- oder Bewegungseinschränkungen könnten mit einer solchen KI leichter durch komplexe App-Layouts navigieren. Die KI erkennt automatisch die richtigen Interaktionsschritte und kann diese über Sprache oder Assistenzsysteme ausgeben. Für Entwickler bietet sich ILuvUI als Werkzeug für automatisierte Tests an. Die KI kann Bedienabläufe simulieren, Fehler identifizieren und den logischen Aufbau von Benutzeroberflächen bewerten. Auch für Schulungen oder Support-Systeme wäre das Modell einsetzbar – überall dort, wo ein technisches System erklären soll, wie eine App funktioniert.
Ausblick auf kommende Entwicklungen
ILuvUI ist noch nicht am Ende seiner Entwicklung. Die aktuelle Version basiert auf offenen Komponenten. In Zukunft wollen die Forscher größere Bildcodierer integrieren, die Auflösung der Screenshots erhöhen und die Ausgabeformate verbessern. Ziel ist es, dass ILuvUI auch direkt mit Standardformaten wie JSON arbeiten kann, die in modernen UI-Frameworks genutzt werden. In Kombination mit anderen Forschungsprojekten von Apple – zum Beispiel zur Vorhersage von In-App-Aktionen – ergibt sich eine klare Richtung: Systeme, die nicht nur sehen und beschreiben, sondern auch denken und handeln können.
ILuvUI bringt Struktur in komplexe App-Oberflächen
Mit ILuvUI hat Apple ein KI-Modell entwickelt, das App-Benutzeroberflächen visuell und sprachlich analysieren kann – detailliert, präzise und anwendungsnah. Das System erkennt nicht nur die einzelnen Elemente einer App, sondern versteht auch deren Bedeutung und mögliche Bedienpfade. Damit verbessert Apple die Interaktion zwischen Mensch und Technik spürbar. Besonders für barrierefreie Bedienkonzepte und automatisierte Testverfahren eröffnet ILuvUI neue Möglichkeiten. Das Projekt zeigt, wie KI künftig ein zentraler Bestandteil der App-Nutzung werden könnte. (Bild: Shutterstock / Rabbi Creative)
- Emmy Awards 2025: Severance ist der große Favorit
- Apple meldet Patent für neue Maus-Taste im Keyboard an