Apple arbeitet kontinuierlich an neuen Technologien im Bereich künstliche Intelligenz und Mensch-Computer-Interaktion. In einer aktuellen Forschungsarbeit zeigt das Unternehmen, wie ein KI-Modell Handgesten erkennen kann, die im ursprünglichen Trainingsdatensatz gar nicht enthalten waren. Das Ziel dieser Forschung besteht darin, tragbare Geräte künftig präziser und flexibler über Muskelbewegungen steuern zu können.
Die Studie wurde im Blog Machine Learning Research von Apple veröffentlicht und trägt den Titel „EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning“. Präsentiert wird die Arbeit im April 2026 auf der ICLR-Konferenz. Im Mittelpunkt steht ein neues Framework namens EMBridge, das EMG-Muskelsignale mit Handpositionsdaten kombiniert, um Gesten zuverlässiger zu erkennen.
Die Ergebnisse zeigen, dass Apple ein System entwickelt hat, das sogenannte Zero-Shot-Gestenerkennung ermöglicht. Damit kann die KI Handbewegungen identifizieren, die sie zuvor noch nie gesehen hat.
Ein wichtiger Bestandteil der Studie ist die Technologie EMG (Elektromyographie). EMG misst die elektrische Aktivität, die Muskeln während einer Kontraktion erzeugen. Diese elektrischen Signale entstehen bei jeder Muskelbewegung, etwa beim Beugen der Finger oder beim Ballen einer Faust.
EMG wird bereits seit Jahren in verschiedenen Bereichen eingesetzt. Dazu gehören unter anderem:
- medizinische Diagnostik
- Physiotherapie
- Steuerung von Prothesen
- Forschung an Wearables und AR/VR-Systemen
Gerade im Bereich tragbarer Geräte gewinnt EMG zunehmend an Bedeutung. Ein Beispiel ist die Ray-Ban Display-Brille von Meta, die ein sogenanntes Neural Band verwendet. Dieses Gerät wird am Handgelenk getragen und interpretiert Muskelsignale, um Funktionen der Brille zu steuern.
Apple untersucht in seiner Studie ebenfalls, wie solche Muskelsignale für die Steuerung digitaler Systeme genutzt werden können. Dabei geht es insbesondere darum, die Fähigkeit von KI-Modellen zu verbessern, neue Gesten zu erkennen.
EMBridge: Apples Framework für Gestenerkennung
Das zentrale Element der Studie ist EMBridge, ein Framework für crossmodales Repräsentationslernen. Die Forscher entwickelten dieses System, um die sogenannte Modalitätslücke zwischen EMG-Signalen und Handposen zu überbrücken.
EMG-Signale enthalten zwar Informationen über Muskelaktivität, sind aber schwer direkt mit konkreten Handbewegungen zu verbinden. Handpositionsdaten hingegen beschreiben die genaue Position der Finger und Gelenke. EMBridge kombiniert beide Informationsquellen.
Das Modell wird in mehreren Schritten trainiert. Zunächst erfolgt ein getrenntes Vortraining mit:
- EMG-Signalen
- strukturierten Handpositionsdaten
Danach werden die beiden Darstellungen miteinander abgeglichen. Dabei lernt der EMG-Encoder vom Pose-Encoder, sodass Muskelsignale besser interpretiert werden können.
Auf diese Weise kann das System Muster erkennen, die aus den Muskelsignalen entstehen, wenn bestimmte Handbewegungen ausgeführt werden.
Die Datensätze für das Training
Für die Entwicklung und Bewertung von EMBridge nutzten die Forscher zwei große Datensätze: emg2pose sowie mehrere Datensätze aus dem NinaPro-Projekt.
emg2pose
Der Datensatz emg2pose ist ein umfangreicher Open-Source-Datensatz mit rund 370 Stunden sEMG-Signalen und synchronisierten Handpositionsdaten. Er umfasst:
- Daten von 193 freiwilligen Nutzern
- 29 verschiedene Verhaltensgruppen
- eine große Anzahl diskreter und kontinuierlicher Handbewegungen
Zu den enthaltenen Gesten gehören beispielsweise:
- das Ballen einer Faust
- das Zählen bis fünf mit den Fingern
Die Handpositionslabels wurden mithilfe eines hochauflösenden Motion-Capture-Systems erzeugt. Insgesamt enthält der Datensatz über 80 Millionen Posen-Labels und ist damit vergleichbar groß mit den größten Datensätzen im Bereich Computer Vision.
Jeder Teilnehmer führte vier Aufzeichnungssitzungen pro Gestenkategorie durch. In jeder Sitzung wurde das EMG-Band an einer anderen Position angebracht.
Die Sitzungen dauerten zwischen 45 und 120 Sekunden. Während dieser Zeit führten die Nutzer wiederholt eine Mischung aus drei bis fünf ähnlichen Gesten oder freie Handbewegungen aus.
Für das Training verwendeten die Forscher nicht überlappende Zwei-Sekunden-Fenster als Eingabesequenzen. Zusätzlich wurden die EMG-Signale verarbeitet:
- instanznormalisiert
- bandpassgefiltert im Bereich 2–250 Hz
- mit einem 60-Hz-Kerbfilter bereinigt
NinaPro-Datensätze
Neben emg2pose wurden zwei Datensätze aus dem NinaPro-Projekt verwendet. Der Datensatz NinaPro DB2 diente dem Vortraining des Systems. Er enthält gepaarte EMG- und Pose-Daten von 40 Probanden. Der Datensatz umfasst 49 verschiedene Handgesten, darunter:
- grundlegende Fingerbeugungen
- funktionelle Greifbewegungen
- kombinierte Bewegungen
Die EMG-Signale wurden mit 12 Elektroden am Unterarm aufgezeichnet. Die Abtastrate lag bei 2 kHz. Parallel dazu erfasste ein Datenhandschuh die Handkinematik.
Für die nachgelagerte Gestenklassifizierung nutzten die Forscher NinaPro DB7. Dieser Datensatz enthält Daten von 20 nicht amputierten Probanden, die mit dem gleichen EMG-Gerät und dem gleichen Gestensatz wie im DB2-Datensatz aufgezeichnet wurden.
Trainingsmethoden des Modells
Nach dem Vortraining wurden die beiden Datenrepräsentationen miteinander abgeglichen. Dadurch konnte der EMG-Encoder lernen, welche Handposen zu bestimmten Muskelsignalen gehören.
Ein weiterer Trainingsschritt war die maskierte Posenrekonstruktion. Dabei blendeten die Forscher Teile der Handpositionsdaten aus. Das Modell musste diese fehlenden Informationen ausschließlich auf Basis der EMG-Signale rekonstruieren.
Diese Methode zwingt das System dazu, tiefere Zusammenhänge zwischen Muskelaktivität und Handbewegungen zu lernen.
Zusätzlich wurde ein Problem berücksichtigt, das häufig bei Trainingsprozessen auftritt: ähnliche Gesten werden oft fälschlicherweise als komplett unterschiedliche Beispiele behandelt.
Um dieses Problem zu reduzieren, lernte das Modell zu erkennen, wann Handposen ähnliche Konfigurationen darstellen. In solchen Fällen erzeugte das System weiche Zielwerte, statt die Gesten strikt voneinander zu trennen.
Dadurch wurde der Darstellungsraum des Modells besser strukturiert und die Fähigkeit verbessert, auf bisher unbekannte Gesten zu verallgemeinern.
Ergebnisse der Studie
Die Forscher bewerteten EMBridge anhand der Datensätze emg2pose und NinaPro. Die Ergebnisse zeigen, dass das System bestehende Methoden durchgehend übertrifft, insbesondere bei der Zero-Shot-Gestenerkennung. Das bedeutet, dass das Modell Gesten identifizieren kann, die während des Trainings nie gesehen wurden.
Bemerkenswert ist außerdem, dass diese Ergebnisse mit nur 40 Prozent der Trainingsdaten erreicht wurden.
Mögliche Anwendungen für Apple-Geräte
Obwohl die Studie keine konkreten Produkte erwähnt, lassen sich mögliche Anwendungen relativ leicht ableiten. Eine denkbare praktische Anwendung ist die tragbare Mensch-Computer-Interaktion. In Szenarien wie VR- und AR-Systemen oder bei der Steuerung von Prothesen muss ein am Handgelenk getragenes Gerät kontinuierlich Handgesten aus EMG-Signalen ableiten.
Mit einer solchen Technologie könnten künftig Geräte gesteuert werden wie:
- Smartwatches
- AR- oder VR-Headsets
- Smartphones
- Computer
- andere Wearables
- mögliche zukünftige Smart-Brillen
Auch die Steuerung eines virtuellen Avatars oder einer Roboterhand könnte über Muskelsignale erfolgen. Darüber hinaus könnte die Technologie neue Möglichkeiten für Barrierefreiheit und alternative Eingabemethoden schaffen.
Einschränkungen der Forschung
Die Studie nennt auch eine wichtige Einschränkung. Das Modell basiert auf Datensätzen, die sowohl EMG-Signale als auch synchronisierte Handpositionsdaten enthalten. Solche Datensätze sind vergleichsweise schwer zu sammeln und erfordern spezielle Messsysteme.
Das Training eines solchen Modells ist deshalb weiterhin von hochwertigen und aufwendig erzeugten Datensätzen abhängig.
Apple treibt Gestensteuerung mit EMG und KI weiter voran
Die neue Studie zeigt, wie Apple KI-Technologien mit EMG-Sensorik kombiniert, um die Gestenerkennung auf tragbaren Geräten zu verbessern. Mit dem Framework EMBridge gelang es den Forschern, ein System zu entwickeln, das Handgesten auch dann erkennt, wenn sie nicht im ursprünglichen Trainingsdatensatz enthalten waren.
Die Fähigkeit zur Zero-Shot-Gestenerkennung stellt einen wichtigen Fortschritt dar. Sie könnte künftig eine flexiblere und natürlichere Interaktion mit digitalen Geräten ermöglichen.
Auch wenn konkrete Produkte in der Studie nicht genannt werden, deutet die Forschung darauf hin, dass Apple intensiv an neuen Formen der Mensch-Computer-Interaktion arbeitet. EMG-basierte Steuerung könnte in Zukunft eine zentrale Rolle bei Wearables, AR- und VR-Systemen sowie anderen digitalen Geräten spielen. (Bild: Shutterstock / NicoElNino)
- MacBook Neo verliert gegen iPhone 17e im Benchmark-Test
- MacBook Neo: So viele Ladezyklen schafft der Akku
- Apple arbeitet an Apple Pencil mit realistischer Haptik
- OpenAI bringt Multi-Account-Support für ChatGPT Atlas
- MacBook Neo: Warum die SSD deutlich langsamer ist
- Silo Staffel 3 soll im Sommer bei Apple TV starten
- Studio Display XDR: Apple plant Update für volle Kalibrierung
- M5 MacBook Air Reviews: Mehr Leistung als erwartet
- visionOS 26.4: So kommt X-Plane 12 auf Apple Vision Pro
- MacBook Neo Reviews: Viel Lob trotz klarer Einschränkungen
- Apple im Vorteil: Laptop-Preise könnten stark steigen
- Apple produziert jetzt jedes vierte iPhone in Indien
- Apple & ATT: Deutsche Verlage fordern Strafe
- iOS 26.4 Beta 4: Alle sichtbaren Änderungen im Überblick
- MacBook Neo: Apple macht Reparaturen deutlich billiger
- ChatGPT bekommt Shazam und erkennt Songs sofort im Chat
- Cosmic Orange Trend: Konkurrenz kopiert Apples iPhone
- Apple TV: Neuer Star für „The Morning Show“ Staffel 5
- MacBook Pro mit M5 Pro und Max im Test: Unglaublich schnell
- Apple Studio Display XDR: Erste Reviews loben Upgrade
- macOS 26.4 bringt MacBook-Neo-Wallpaper auf alle Macs



