Neuronale Netze machen Motion Capturing mit Handy oder Webcam möglich

Ohne aufgeklebte Marker und ohne spezielle Tiefenkamera, dafür mit der Handykamera und in Echtzeit: Das Max-Planck-Institut für Informatik hat ein System entwickelt, das Bewegungen und Posen von Personen ohne Spezial-Equipment erkennt.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Neuronale Netze machen Motion Capturing mit Handy oder Webcam möglich

Das System setzt nur eine preiswerte Webcam voraus, um das 3D-Bewegungsmodell einer Person in Echtzeit zu erstellen.

(Bild: Oliver Dietze)

Lesezeit: 3 Min.

Motion Capturing – die Erfassung von menschlichen Bewegungen und Haltungen, um diese auf Figuren im Rechner zu übertragen – ist spätestens seit der aktuellen Virtual-Reality-Welle ein heißes Thema, denn für die Interaktion mit der simulierten Welt ist es entscheidend, dass diese genau weiß, wie sich der Besucher aus der materiellen Sphäre gerade verhält. Meist kommt zu diesem Zweck spezielle Hardware zum Einsatz, etwa Tiefenkameras wie die Kinect von Microsoft. Oder die Bewegung wird optisch über Marker erfasst, die man sich auf den Körper kleben muss.

Viel simpler soll es mit einem System namens VNect gehen, das eine Forschungsgruppe vom Max-Planck-Institut für Informatik an der Universität des Saarlandes entwickelt hat: Ihm reicht eine übliche, billige Webcam, die eine Person mit 30 Bildern pro Sekunde aus einer einzigen Perspektive aufnimmt, um in Echtzeit deren Bewegungen zu erkennen und mittels eines Avatars zu reproduzieren. Im Video gelingt das auch bei flotten Bewegungen, etwa beim Jonglieren.

Dahinter steckt ein spezielles von neuronales Netz, das Forscher als "gefaltetes neuronales Netzwerk" bezeichnen – was so etwas leistet, erregt gerade unter dem Begriff "Deep Learning" für Aufsehen. Das neuronale Netzwerk wurde mit über zehntausend Bildern trainiert, denen Informationen über die entsprechenden Gelenkwinkel annotiert waren. Bevor VNect allerdings versucht, anhand dieser Erfahrungswerte die Pose zu rekonstruieren, bestimmt das System die Position der Person im Bild, um die Verarbeitung des Video-Stroms auf diesen Bereich zu beschränken, was Rechenzeit spart.

Gegenüber der Bewegungserfassung etwa mit der Kinect-Tiefenkamera von Microsoft hat die Methode laut ihren Entwicklern nicht nur den Vorteil, ohne solche Spezial-Hardware auszukommen, sondern auch bei hellem Sonnenlicht zu funktionieren, bei dem die Kinect Probleme bekommt. Darüber hinaus kann man den Algorithmus auch auf Videos loslassen, die man unterwegs mit dem Handy gefilmt hat, also Bewegungsabläufe nachträglich tracken lassen.

Wie die Forschergruppe einräumt, hat das System freilich aktuell noch Einschränkungen: Es arbeitet etwas weniger genau als Verfahren mit mehreren Kameras oder Markern. VNect gerät auch in Schwierigkeiten, wenn das Gesicht der Person verdeckt ist. Darüber hinaus dürfen die Bewegungen nicht zu schnell werden und sich auch nicht völlig von den gelernten Vorbildern entfernen – das liegt bei trainierten neuronalen Netzen in der Natur der Sache. Posen, bei denen die gefilmte Person mit den eigenen Gliedmaßen zu viel von sich selbst verdeckt, sind ebenfalls problematisch, mit mehreren Personen im Bild kann VNect derzeit nicht umgehen.

Die Forscher werden ihr System VNect in Honolulu vom 21. bis 26. Juli auf der Computer-Vision-Konferenz CVPR zeigen, anschließend präsentieren Sie es auf der SIGGRAPH in Los Angeles vom 30. Juli bis 3. August.

(pek)