Apple hat eine neue Studie veröffentlicht, die zeigt, wie Large Language Models anhand von Audio- und Bewegungsdaten erkennen können, welche Aktivität gerade stattfindet. Die Untersuchung verbindet klassische Sensorik mit KI und macht deutlich, wie zuverlässig sich selbst kurze oder unvollständige Informationen auswerten lassen. Apple rückt damit ein Thema in den Vordergrund, das für Fitness, Gesundheit und Alltag relevante Anwendungen ermöglichen kann.
Viele Geräte sammeln heute Audio- und Bewegungsdaten, doch oft reichen diese Rohdaten allein nicht aus, um Aktivitäten eindeutig zuzuordnen. Die neue Studie von Apple untersucht deshalb einen Ansatz, der LLMs nutzt, um aus Textbeschreibungen präzise Rückschlüsse zu ziehen. Statt direkt Audio oder Bewegungsdaten zu analysieren, erhalten die Modelle kurze Texte, die zuvor von kleineren Audiomodellen und einem IMU-Modell erzeugt wurden. So lässt sich erkennen, was gerade passiert, ohne dass ein speziell trainiertes multimodales Modell nötig ist.
Wie Apple LLMs einsetzt
Der Artikel mit dem Titel „Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition“ beschreibt, wie Apple verschiedene Informationsquellen zusammenführt. LLMs erhalten Texte über Geräusche, Bewegungen und Klassenvorhersagen und sollen daraus eine Aktivität ableiten. Dieser Ansatz ist weniger invasiv, da kein Zugriff auf die echten Audioaufnahmen erfolgt, sondern nur auf beschreibende Textlabels.
Die Forscher argumentieren, dass dieser Weg große Vorteile bietet. Selbst wenn Sensoren nur begrenzte Daten liefern, kann das LLM die Informationen so verbinden, dass ein deutlich klareres Bild entsteht. Das spart Speicher und Rechenleistung, weil keine speziell angepassten multimodalen Modelle trainiert oder bereitgestellt werden müssen.
Der verwendete Datensatz Ego4D
Für die Experimente nutzte Apple den Ego4D Datensatz. Er enthält viele Stunden Video- und Audiomaterial aus der Ich-Perspektive und deckt Alltagssituationen ab. Aus diesem Material stellte Apple ein Set aus 20 Sekunden langen Beispielen zusammen. Zwölf Aktivitäten wurden ausgewählt. Staubsaugen, Kochen, Wäsche waschen, Essen, Basketball spielen, Fußball spielen, mit Haustieren spielen, ein Buch lesen, am Computer sitzen, Geschirr spülen, fernsehen und trainieren oder Gewichte heben.
Diese Auswahl deckt typische Haushalts-, Freizeit- und Sportaktivitäten ab und kommt im Datensatz häufig vor. Für jedes Beispiel wurden Audiobeschreibungen, Audio-Labels und Vorhersagen aus dem IMU-Modell erzeugt.
Wie die LLMs getestet wurden
Die Ergebnisse wurden an zwei LLMs getestet. Gemini 2.5 Pro und Qwen 32B. Die Forscher untersuchten zwei Szenarien. Einmal erhielten die Modelle eine Liste mit den zwölf möglichen Aktivitäten. Im zweiten Szenario gab es keine vorgegebene Auswahl.
Auch ohne spezielles Training erreichten die Modelle F1-Werte, die klar über dem Zufallsniveau lagen. Im Zero Shot Modus konnten sie also bereits sinnvolle Klassifizierungen vornehmen. Mit genau einem Beispiel für jede Aktivität stieg die Genauigkeit noch weiter. Die Studie zeigt damit, dass LLMs sehr gut darin sind, aus textbasierten Beschreibungen die richtige Aktivität zu erkennen.
Warum die Ergebnisse relevant sind
Apple betont, dass diese Art der späten Fusion besonders dann hilfreich ist, wenn rohe Sensordaten allein kein eindeutiges Bild liefern. LLMs können Brücken zwischen einzelnen Informationsquellen schlagen und so ein Gesamtverständnis erzeugen, das klassische Modelle ohne zusätzliche Trainingsdaten nicht erreichen. Dadurch lassen sich Gesundheitsfunktionen, Fitnessanalysen oder Assistenzsysteme verbessern, ohne dass große Mengen abgestimmter Trainingsdaten nötig sind.
Zusätzlich stellt Apple ergänzendes Material bereit. Dazu gehören Segment IDs, Zeitstempel, Prompts und One Shot Beispiele, die in den Experimenten verwendet wurden. Diese Offenheit erleichtert es Forschenden, die Ergebnisse nachzuvollziehen und eigene Studien darauf aufzubauen.
Wie Apple Sensorik und KI sinnvoll verbindet
Die neue Studie zeigt, wie Apple die Stärken von Sensorik und KI kombiniert. LLMs erhalten kurze Textbeschreibungen aus Audio- und Bewegungsdaten und erkennen damit zuverlässig verschiedene Aktivitäten. Der Ansatz ist effizient, flexibel und kommt ohne aufwendiges Spezialtraining aus. Apple liefert damit wichtige Impulse für zukünftige Anwendungen rund um Gesundheit, Bewegung und Alltag und öffnet zugleich ein Forschungsfeld, das durch die bereitgestellten Materialien weiter wachsen kann. (Bild: Shutterstock / issaro prakalung)
- macOS 26.2: Die drei stärksten Neuerungen im Überblick
- ChatGPT Atlas Update bringt neue Funktionen auf macOS
- EU macht Schluss mit nervigen Cookie-Bannern im gesamten Netz
- Apple präsentiert die Finalisten der App Store Awards 2025
- Cloudflare Ausfall erklärt: So kam es zum weltweiten Problem
- Gemini 3 setzt neue KI-Standards & verändert Googles Produkte
- WhatsApp testet endlich zwei Konten auf einem einzelnen iPhone
- Apple veröffentlicht neue Firmware für wichtiges Zubehör
- WhatsApp Schwachstelle blieb acht Jahre lang ungeschützt
- Wie Apple durch 3D-Druck neue Titanbauteile erstellt
- Apple veröffentlicht die großen Podcastcharts für 2025
- iPhone 17 hebt Apple in China auf das stärkste Niveau seit Jahren
- Apple verliert erneut wichtigen Designer im laufenden Wandel
- F1 The Movie: Wie realistisch eine Fortsetzung wirklich ist
- Apple siegt im langjährigen Konflikt um iPhone Kamerapatente
- iOS 26.2 Beta 3: Die spannendsten Neuerungen im Überblick
- iOS 26.2 öffnet iPhones in Japan für alternative Assistenten
- iPadOS 26.2 verbessert Slide Over und Split View deutlich
- Apple schafft Basis für offenen Assistentenwechsel in iOS 26.2
- iOS 26.2 führt 30 Tage AirDrop Zugriff über Codes ein
- Apple betont zum Jubiläum die Stärke von Apple Silicon
- Apple stellt iOS 26.2 Beta 3 bereit: Neue Testphase läuft
- Tim Cook könnte Rolle wechseln statt Apple ganz zu verlassen
- Apple erweitert Sneaky Sasquatch mit neuem Sticker-Paket
- Tim Cook im Fokus: Apple testet Marktreaktion auf CEO Wechsel



