Apple setzt auf EMG und KI für neue Gestensteuerung Apfelpatient

Apple arbeitet kontinuierlich an neuen Technologien im Bereich künstliche Intelligenz und Mensch-Computer-Interaktion. In einer aktuellen Forschungsarbeit zeigt das Unternehmen, wie ein KI-Modell Handgesten erkennen kann, die im ursprünglichen Trainingsdatensatz gar nicht enthalten waren. Das Ziel dieser Forschung besteht darin, tragbare Geräte künftig präziser und flexibler über Muskelbewegungen steuern zu können.

Die Studie wurde im Blog Machine Learning Research von Apple veröffentlicht und trägt den Titel „EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning“. Präsentiert wird die Arbeit im April 2026 auf der ICLR-Konferenz. Im Mittelpunkt steht ein neues Framework namens EMBridge, das EMG-Muskelsignale mit Handpositionsdaten kombiniert, um Gesten zuverlässiger zu erkennen.

Die Ergebnisse zeigen, dass Apple ein System entwickelt hat, das sogenannte Zero-Shot-Gestenerkennung ermöglicht. Damit kann die KI Handbewegungen identifizieren, die sie zuvor noch nie gesehen hat.

Ein wichtiger Bestandteil der Studie ist die Technologie EMG (Elektromyographie). EMG misst die elektrische Aktivität, die Muskeln während einer Kontraktion erzeugen. Diese elektrischen Signale entstehen bei jeder Muskelbewegung, etwa beim Beugen der Finger oder beim Ballen einer Faust.

EMG wird bereits seit Jahren in verschiedenen Bereichen eingesetzt. Dazu gehören unter anderem:

medizinische Diagnostik
Physiotherapie
Steuerung von Prothesen
Forschung an Wearables und AR/VR-Systemen

Gerade im Bereich tragbarer Geräte gewinnt EMG zunehmend an Bedeutung. Ein Beispiel ist die Ray-Ban Display-Brille von Meta, die ein sogenanntes Neural Band verwendet. Dieses Gerät wird am Handgelenk getragen und interpretiert Muskelsignale, um Funktionen der Brille zu steuern.

Apple untersucht in seiner Studie ebenfalls, wie solche Muskelsignale für die Steuerung digitaler Systeme genutzt werden können. Dabei geht es insbesondere darum, die Fähigkeit von KI-Modellen zu verbessern, neue Gesten zu erkennen.

EMBridge: Apples Framework für Gestenerkennung

Das zentrale Element der Studie ist EMBridge, ein Framework für crossmodales Repräsentationslernen. Die Forscher entwickelten dieses System, um die sogenannte Modalitätslücke zwischen EMG-Signalen und Handposen zu überbrücken.

EMG-Signale enthalten zwar Informationen über Muskelaktivität, sind aber schwer direkt mit konkreten Handbewegungen zu verbinden. Handpositionsdaten hingegen beschreiben die genaue Position der Finger und Gelenke. EMBridge kombiniert beide Informationsquellen.

Das Modell wird in mehreren Schritten trainiert. Zunächst erfolgt ein getrenntes Vortraining mit:

EMG-Signalen
strukturierten Handpositionsdaten

Danach werden die beiden Darstellungen miteinander abgeglichen. Dabei lernt der EMG-Encoder vom Pose-Encoder, sodass Muskelsignale besser interpretiert werden können.

Auf diese Weise kann das System Muster erkennen, die aus den Muskelsignalen entstehen, wenn bestimmte Handbewegungen ausgeführt werden.

Die Datensätze für das Training

Für die Entwicklung und Bewertung von EMBridge nutzten die Forscher zwei große Datensätze: emg2pose sowie mehrere Datensätze aus dem NinaPro-Projekt.

emg2pose

Der Datensatz emg2pose ist ein umfangreicher Open-Source-Datensatz mit rund 370 Stunden sEMG-Signalen und synchronisierten Handpositionsdaten. Er umfasst:

Daten von 193 freiwilligen Nutzern
29 verschiedene Verhaltensgruppen
eine große Anzahl diskreter und kontinuierlicher Handbewegungen

Zu den enthaltenen Gesten gehören beispielsweise:

das Ballen einer Faust
das Zählen bis fünf mit den Fingern

Die Handpositionslabels wurden mithilfe eines hochauflösenden Motion-Capture-Systems erzeugt. Insgesamt enthält der Datensatz über 80 Millionen Posen-Labels und ist damit vergleichbar groß mit den größten Datensätzen im Bereich Computer Vision.

Jeder Teilnehmer führte vier Aufzeichnungssitzungen pro Gestenkategorie durch. In jeder Sitzung wurde das EMG-Band an einer anderen Position angebracht.

Die Sitzungen dauerten zwischen 45 und 120 Sekunden. Während dieser Zeit führten die Nutzer wiederholt eine Mischung aus drei bis fünf ähnlichen Gesten oder freie Handbewegungen aus.

Für das Training verwendeten die Forscher nicht überlappende Zwei-Sekunden-Fenster als Eingabesequenzen. Zusätzlich wurden die EMG-Signale verarbeitet:

instanznormalisiert
bandpassgefiltert im Bereich 2–250 Hz
mit einem 60-Hz-Kerbfilter bereinigt

NinaPro-Datensätze

Neben emg2pose wurden zwei Datensätze aus dem NinaPro-Projekt verwendet. Der Datensatz NinaPro DB2 diente dem Vortraining des Systems. Er enthält gepaarte EMG- und Pose-Daten von 40 Probanden. Der Datensatz umfasst 49 verschiedene Handgesten, darunter:

grundlegende Fingerbeugungen
funktionelle Greifbewegungen
kombinierte Bewegungen

Die EMG-Signale wurden mit 12 Elektroden am Unterarm aufgezeichnet. Die Abtastrate lag bei 2 kHz. Parallel dazu erfasste ein Datenhandschuh die Handkinematik.

Für die nachgelagerte Gestenklassifizierung nutzten die Forscher NinaPro DB7. Dieser Datensatz enthält Daten von 20 nicht amputierten Probanden, die mit dem gleichen EMG-Gerät und dem gleichen Gestensatz wie im DB2-Datensatz aufgezeichnet wurden.

Trainingsmethoden des Modells

Nach dem Vortraining wurden die beiden Datenrepräsentationen miteinander abgeglichen. Dadurch konnte der EMG-Encoder lernen, welche Handposen zu bestimmten Muskelsignalen gehören.

Ein weiterer Trainingsschritt war die maskierte Posenrekonstruktion. Dabei blendeten die Forscher Teile der Handpositionsdaten aus. Das Modell musste diese fehlenden Informationen ausschließlich auf Basis der EMG-Signale rekonstruieren.

Diese Methode zwingt das System dazu, tiefere Zusammenhänge zwischen Muskelaktivität und Handbewegungen zu lernen.

Zusätzlich wurde ein Problem berücksichtigt, das häufig bei Trainingsprozessen auftritt: ähnliche Gesten werden oft fälschlicherweise als komplett unterschiedliche Beispiele behandelt.

Um dieses Problem zu reduzieren, lernte das Modell zu erkennen, wann Handposen ähnliche Konfigurationen darstellen. In solchen Fällen erzeugte das System weiche Zielwerte, statt die Gesten strikt voneinander zu trennen.

Dadurch wurde der Darstellungsraum des Modells besser strukturiert und die Fähigkeit verbessert, auf bisher unbekannte Gesten zu verallgemeinern.

Ergebnisse der Studie

Die Forscher bewerteten EMBridge anhand der Datensätze emg2pose und NinaPro. Die Ergebnisse zeigen, dass das System bestehende Methoden durchgehend übertrifft, insbesondere bei der Zero-Shot-Gestenerkennung. Das bedeutet, dass das Modell Gesten identifizieren kann, die während des Trainings nie gesehen wurden.

Bemerkenswert ist außerdem, dass diese Ergebnisse mit nur 40 Prozent der Trainingsdaten erreicht wurden.

Mögliche Anwendungen für Apple-Geräte

Obwohl die Studie keine konkreten Produkte erwähnt, lassen sich mögliche Anwendungen relativ leicht ableiten. Eine denkbare praktische Anwendung ist die tragbare Mensch-Computer-Interaktion. In Szenarien wie VR- und AR-Systemen oder bei der Steuerung von Prothesen muss ein am Handgelenk getragenes Gerät kontinuierlich Handgesten aus EMG-Signalen ableiten.

Mit einer solchen Technologie könnten künftig Geräte gesteuert werden wie:

Smartwatches
AR- oder VR-Headsets
Smartphones
Computer
andere Wearables
mögliche zukünftige Smart-Brillen

Auch die Steuerung eines virtuellen Avatars oder einer Roboterhand könnte über Muskelsignale erfolgen. Darüber hinaus könnte die Technologie neue Möglichkeiten für Barrierefreiheit und alternative Eingabemethoden schaffen.

Einschränkungen der Forschung

Die Studie nennt auch eine wichtige Einschränkung. Das Modell basiert auf Datensätzen, die sowohl EMG-Signale als auch synchronisierte Handpositionsdaten enthalten. Solche Datensätze sind vergleichsweise schwer zu sammeln und erfordern spezielle Messsysteme.

Das Training eines solchen Modells ist deshalb weiterhin von hochwertigen und aufwendig erzeugten Datensätzen abhängig.

Apple treibt Gestensteuerung mit EMG und KI weiter voran

Die neue Studie zeigt, wie Apple KI-Technologien mit EMG-Sensorik kombiniert, um die Gestenerkennung auf tragbaren Geräten zu verbessern. Mit dem Framework EMBridge gelang es den Forschern, ein System zu entwickeln, das Handgesten auch dann erkennt, wenn sie nicht im ursprünglichen Trainingsdatensatz enthalten waren.

Die Fähigkeit zur Zero-Shot-Gestenerkennung stellt einen wichtigen Fortschritt dar. Sie könnte künftig eine flexiblere und natürlichere Interaktion mit digitalen Geräten ermöglichen.

Auch wenn konkrete Produkte in der Studie nicht genannt werden, deutet die Forschung darauf hin, dass Apple intensiv an neuen Formen der Mensch-Computer-Interaktion arbeitet. EMG-basierte Steuerung könnte in Zukunft eine zentrale Rolle bei Wearables, AR- und VR-Systemen sowie anderen digitalen Geräten spielen. (Bild: Shutterstock / NicoElNino)