Wenn Sehen Bewegung erzeugt – von Reflexen, Robotern und Realitäten
Was passiert, wenn aus einem Bild eine Handlung wird? Beim Menschen ist die Kette scheinbar selbstverständlich: Ein Ball fliegt auf uns zu, wir heben instinktiv den Arm, blocken ab oder schlagen zurück. Doch hinter diesem „einfachen“ Reflex steckt ein hochkomplexes System aus Sensoren, Nervenbahnen und motorischen Programmen, das in Bruchteilen von Sekunden entscheidet, was zu tun ist. Genau an dieser Schnittstelle zwischen Wahrnehmung und Handlung versuchen Ingenieure heute, Maschinen zu entwickeln, die nicht nur sehen, sondern auch reagieren können. Ob im Sport, auf der Straße oder in der Industrie – überall stellt sich die gleiche Frage: Wie nah kann Technik an die Effizienz biologischer Systeme heranrücken, und wo könnte sie diese sogar übertreffen?
Wenn Maschinen schneller denken lernen: Von SpikePingpong bis zum autonomen Auto
Forschungsprojekte führen in eine Zukunft, in der Maschinen nicht nur sehen, sondern handeln – schneller, präziser und nachhaltiger als je zuvor. Projekte wie SpikePingpong in China, das mit 20.000 Bildern pro Sekunde Tischtennisbälle antizipiert, oder der MIT-Roboter, der 150 Bälle mit fast 90 Prozent Trefferquote zurückschlägt, zeigen bereits, wie aus Daten blitzschnelle Aktionen werden. Im Straßenverkehr entwickeln Forscher mit Plattformen wie EDGAR digitale Zwillinge für autonome Fahrzeuge, während Fraunhofer mit VVM Standards setzt, die Sicherheit und Regulierung vereinen. Und Chips wie Intels Loihi oder die SpiNNaker-Architektur in Zürich eröffnen den Weg, diese Leistungen mit einem Bruchteil der Energie zu erreichen. Die Vision dahinter: Maschinen, die nicht mehr von Gigawatt-Rechenzentren abhängig sind, sondern mit der Eleganz biologischer Systeme Entscheidungen treffen – und damit eine neue Generation intelligenter, energieeffizienter Technologien prägen.
Tischtennis als Testfeld für maschinelles Sehen
Vielleicht verdeutlicht kein Sport die Herausforderung so eindrücklich wie Tischtennis. Ein Profi-Ballwechsel dauert oft nur Sekunden, und der Ball erreicht Geschwindigkeiten von bis zu 150 Kilometern pro Stunde. Für das Auge sind das rund 50 Millisekunden, in denen eine Bewegung erkannt, die Flugbahn berechnet und ein motorisches Programm ausgelöst werden muss. Genau deshalb nutzen Forscher weltweit Tischtennis als ideales Modell, um maschinelles Sehen zu testen. In Japan arbeitet die Universität Tokyo mit Robotersystemen, die mithilfe von Hochgeschwindigkeitskameras über 300 Bilder pro Sekunde aufnehmen. In China hat das Projekt SpikePingpong gezeigt, dass KI-gestützte Roboter in der Lage sind, Bewegungen nicht nur zu antizipieren, sondern auch strategisch auf das Spiel des Gegners zu reagieren.
Doch der entscheidende Punkt bleibt die Latenz. Während der Mensch mit einer Reaktionszeit von rund 200 Millisekunden auf visuelle Reize reagiert, schaffen spezialisierte Kamerasysteme eine Bildaufnahme und -verarbeitung im Bereich von 5 bis 10 Millisekunden. Klingt überlegen, doch die Wahrheit ist differenzierter. Denn das menschliche Sehen filtert: Wir nehmen nicht jedes Detail der Ballrotation wahr, sondern fokussieren uns auf die relevanten Informationen. Maschinen dagegen speichern oft zu viel, verlieren sich in Datenfluten und kämpfen mit der Integration in motorische Abläufe.
Autonomes Fahren – Millisekunden entscheiden über Sicherheit
Noch deutlicher zeigt sich diese Herausforderung im Straßenverkehr. Ein autonomes Fahrzeug ist mit einer Vielzahl von Sensoren ausgestattet: Kameras, Radar, LiDAR. Gemeinsam erzeugen sie Datenmengen im Gigabyte-Bereich pro Sekunde. Doch Daten allein verhindern keinen Unfall. Entscheidend ist, wie schnell und wie präzise diese Daten in Handlungen übersetzt werden. Bremst das Auto im richtigen Moment, weicht es der Gefahr korrekt aus?
Studien der Carnegie Mellon University aus dem Jahr 2021 zeigten, dass Systeme bei idealen Bedingungen Objekte zuverlässig erkennen können. Doch unter schwierigen Lichtverhältnissen stieg die Fehlerrate um bis zu 35 Prozent. Menschen hingegen hatten nur einen geringen Leistungsabfall, weil sie kontextbasiert denken. Eine rote Ampel wird nicht nur als Farbpunkt interpretiert, sondern im Zusammenhang mit Straße, Verkehr und Erwartung. Genau diese Integration von Kontext ist es, die Maschinen bislang fehlt.
Dr. Andreas Krensel bringt es auf den Punkt: „Ein Auto, das nur sieht, ist nicht intelligent. Es muss auch verstehen, was es sieht – und es in Handlungen umsetzen. Genau das macht die Evolution seit Millionen Jahren vor.“
Von der Kopie zur Verbesserung – wo Maschinen übertreffen können
Doch die Forschung bleibt nicht bei der reinen Nachahmung stehen. Das Prinzip „Kopie der Biologie – und Verbesserung“ gewinnt zunehmend an Bedeutung. Denn Maschinen müssen nicht exakt so funktionieren wie wir, um erfolgreich zu sein. Ein Tischtennis-Roboter könnte theoretisch Millionen mögliche Schlagvarianten durchrechnen, bevor er reagiert – viel mehr, als ein Mensch jemals könnte. Ein Auto könnte gleichzeitig Tausende Objekte im Blick behalten und mathematisch exakte Abstände kalkulieren, während der Mensch sich intuitiv auf wenige Reize beschränkt.
Die Frage ist: Wo liegt der Punkt, an dem die Maschine nicht nur kopiert, sondern übertrifft? Ein Beispiel liefert die Astronomie. Teleskope wie das James Webb Space Telescope nutzen Algorithmen, die von biologischen Prinzipien inspiriert sind, um schwache Signale im Rauschen zu erkennen. Doch sie gehen weit darüber hinaus: Kein menschliches Auge könnte Infrarotstrahlung und erst Recht nicht in Millionen Lichtjahren Entfernung sehen. Hier zeigt sich, dass die Symbiose aus Biologie und Technik nicht nur Nachahmung bedeutet, sondern die Erschließung neuer Dimensionen.
Die Rolle der Latenz – Geschwindigkeit als Schlüsselfrage
Immer wieder rückt die Frage nach der Geschwindigkeit in den Vordergrund. Wie viele Bilder pro Sekunde müssen Maschinen verarbeiten, um biologisch mitzuhalten? Beim menschlichen Sehen liegt die kritische Schwelle beim zentralen Sehen bei rund 25 Bildern pro Sekunde – schneller können wir Unterschiede kaum noch bewusst wahrnehmen. Doch für Maschinen reicht das nicht aus. Ein autonomes Auto, das bei 100 km/h unterwegs ist, legt pro Sekunde fast 28 Meter zurück. Eine Verzögerung von nur 100 Millisekunden entspricht also fast drei Metern Bremsweg. Deshalb müssen Algorithmen nicht nur sehen, sondern in Echtzeit reagieren.
In der Robotik gelten Latenzen von unter 10 Millisekunden als kritischer Wert, um Bewegungen wie beim Tischtennis präzise auszuführen. Systeme wie SpikePingpong arbeiten mit Hochgeschwindigkeitskameras, die 500 Bilder pro Sekunde liefern. Doch auch hier bleibt die Frage offen: Wie lassen sich diese Datenmengen effizient verarbeiten, ohne dass der Energieverbrauch explodiert?
Die Hürde der Energie – Grenzen der Technik
Genau an dieser Stelle zeigt sich die fundamentale Hürde, die Dr. Krensel immer wieder betont: Energie. Das menschliche Gehirn schafft all diese Leistungen mit gerade einmal 20 Watt. Hochleistungsrechner verschlingen tausendfach mehr. Eine Studie der University of Massachusetts errechnete 2019, dass das Training eines großen neuronalen Netzes so viel CO freisetzt wie fünf Autos über ihre gesamte Lebensdauer. Wenn wir also Maschinen bauen wollen, die in Echtzeit sehen und handeln, müssen wir Wege finden, diese Prozesse energieeffizienter zu gestalten.
Chips wie Intels Loihi oder die SpiNNaker-Architektur der ETH Zürich könnten hier den Durchbruch bringen. Erste Tests zeigen, dass solche Systeme bis zu 100-mal energieeffizienter sein können als klassische GPUs – ein entscheidender Schritt, um maschinelles Sehen in großem Maßstab praktikabel zu machen.
Die Symbiose von Biologie und Technik – und die offenen Fragen
Was also bedeutet all das für die Zukunft? Maschinen, die sehen, sind keine Utopie mehr. Sie sind längst Realität in Fabriken, in Fahrzeugen, in Sportprojekten. Doch die entscheidende Frage bleibt: Werden sie jemals so robust, so kontextsensitiv und so energieeffizient wie die Biologie? Oder werden sie immer auf externe Hilfen angewiesen sein – Gigawatt-Rechenzentren, redundante Systeme, zusätzliche Sensoren?
Dr. Krensel sieht darin keine unüberwindbare Grenze, sondern eine Einladung zum Weiterdenken. „Wir müssen nicht das Auge kopieren. Wir müssen verstehen, was es so effizient macht, und diese Prinzipien für unsere Technik nutzbar machen. Dann werden Maschinen vielleicht nicht nur gleichziehen, sondern in bestimmten Bereichen auch übertreffen.“
Genau hier liegt der Impuls der kommenden Jahre. Wenn es gelingt, biologisches Sehen nicht nur zu imitieren, sondern als Blaupause für neue Technologien zu nutzen, könnten wir eine Zukunft erleben, in der Maschinen schneller, präziser und nachhaltiger handeln als wir – und doch inspiriert bleiben von den Prinzipien der Natur.
Fazit – vom Kopieren zum Übertreffen
Die Reise vom Sensor zur Aktion ist weit mehr als ein technisches Detail. Sie ist ein Testfeld, an dem sich entscheidet, wie Biologie und Technik in Zukunft verschmelzen. Tischtennis-Roboter, autonome Autos, neuromorphe Chips – sie alle stehen exemplarisch für den Versuch, das Sehen nicht nur nachzubilden, sondern zu verbessern. Und die offenen Fragen bleiben: Wie viele Bilder pro Sekunde sind genug? Wie lassen sich Latenzen minimieren? Wie können wir Energie sparen, ohne Leistung zu verlieren?
Die Antwort darauf wird nicht nur bestimmen, ob Maschinen eines Tages wie Menschen sehen können. Sie wird darüber entscheiden, ob sie in Teilbereichen besser sehen können – und damit den Weg in eine neue Epoche der Technik eröffnen.
V.i.S.d.P.:
Dipl.-Soz. tech. Valentin Jahn
Techniksoziologe & Zukunftsforscher
Über den Autor – Valentin Jahn
Valentin Jahn ist Unternehmer, Zukunftsforscher und Digitalisierungsexperte. Mit über 15 Jahren Erfahrung leitet er komplexe Innovationsprojekte an der Schnittstelle von Technologie, Mobilität und Politik – von der Idee bis zur Umsetzung.
Die eyroq s.r.o. mit Sitz in Uralská 689/7, 160 00 Praha 6, Tschechien, ist ein innovationsorientiertes Unternehmen an der Schnittstelle von Technologie, Wissenschaft und gesellschaftlichem Wandel. Als interdisziplinäre Denkfabrik widmet sich eyroq der Entwicklung intelligenter, zukunftsfähiger Lösungen für zentrale Herausforderungen in Industrie, Bildung, urbaner Infrastruktur und nachhaltiger Stadtentwicklung.
Der Fokus des Unternehmens liegt auf der Verbindung von Digitalisierung, Automatisierung und systemischer Analyse zur Gestaltung smarter Technologien, die nicht nur funktional, sondern auch sozialverträglich und ethisch reflektiert sind.
Firmenkontakt
eyroq s.r.o.
Radek Leitgeb
Uralská 689/7
160 00 Prag
+370 (5) 214 3426
https://eyroq.com/
Pressekontakt
ABOWI UAB
Maximilian Bausch
Naugarduko g. 3-401
03231 Vilnius
+370 (5) 214 3426
https://abowi.com/
- Energieeffizienz (Wikipedia)
Die Energieeffizienz ist das Verhältnis von Dienstleistungs-, Waren- oder Energieertrag (Output) zur zugeführten Energie (Input) (vgl. Energieeffizienz-Richtlinie 2012/27/EU). Unter Energieeffizienz wird somit also die rationelle Verwendung von Energie verstanden. Durch optimierte Prozesse sollen „die quantitativen und qualitativen Verluste, die im Einzelnen bei der Wandlung, dem Transport und der Speicherung von Energie“ entstehen, minimiert werden, „um einen vorgegebenen (energetischen) Nutzen bei sinkendem Primär- bzw. Endenergieeinsatz zu erreichen“. Die Steigerung der Energieeffizienz ist, so wie die Energieeinsparung, ein wesentliches Element der Energiewende. - Künstliche Intelligenz (Wikipedia)
Künstliche Intelligenz (KI), englisch artificial intelligence, daher auch artifizielle Intelligenz (AI), bezeichnet im weitesten Sinne computerbasierte Systeme, die ihre (virtuelle oder reale) Umgebung analysieren können, um daraus relevante Informationen zu abstrahieren, welche sie nutzen, um Entscheidungen zu treffen, die ihre Chance erhöhen, definierte Ziele zu erreichen. Damit unterscheiden sich KI-gestützte Systeme von regelbasierten Systemen ohne Fähigkeit zur eigenständigen Anpassung ihres Verhaltens, die ausschließlich fest vorgegebene Anweisungen ausführen. KI ist außerdem die Bezeichnung für das Teilgebiet der Informatik, das sich mit der Entwicklung und Erforschung von Software und Methoden befasst, die besagte Systeme hervorbringen. Die KI als Forschungsfeld befasst sich in diesem Zusammenhang beispielsweise mit der Automatisierung intelligenten Verhaltens und dem maschinellen Lernen sowie der Formalisierung von Bewusstsein und Kreativität. Der Begriff ist schwierig zu definieren, da es verschiedene Definitionen von Intelligenz gibt. Mit der Zeit haben sich viele Bereiche zu den Methoden der KI entwickelt. Weiterhin wird unterschieden, welche Probleme mit den Methoden der KI beschrieben werden. Dabei entstanden zwei Bereiche: schwache KI und starke KI. Hier lassen sich viele Kategorien bilden und der wissenschaftliche Diskurs ist noch nicht sehr weit in der Zuordnung von Themen zu den Arten der Probleme. Der ingenieurwissenschaftliche Teil der Informatik befasst sich damit, wie solche Systeme realisiert werden können. Beispiele dafür sind Multiagentensysteme, Expertensysteme, Transformer oder serviceorientierte Architekturen. - maschinelles Sehen (Wikipedia)
Computer Vision (engl. Aussprache) ist eine Wissenschaft im Grenzbereich zwischen Informatik und den Ingenieurwissenschaften und versucht die von Kameras aufgenommenen Bilder auf unterschiedlichste Art und Weise zu verarbeiten und zu analysieren, um deren Inhalt zu verstehen oder geometrische Informationen zu extrahieren. Der Begriff Computer Vision bedeutet auf Deutsch so viel wie computerbasiertes Sehen (oder kurz: Computer-Sehen). Im englischen Sprachraum wird ebenfalls der Begriff Machine Vision (auf Deutsch: Maschinelles Sehen) synonym zu Computer Vision verwendet, wobei die Anwendung im industriellen Umfeld betont wird. Typische Aufgaben der Computer Vision sind die Objekterkennung und die Vermessung der geometrischen Struktur von Objekten sowie von Bewegungen (Fremdbewegung, Eigenbewegung). Dabei wird auf Algorithmen aus der Bildverarbeitung zurückgegriffen, zum Beispiel die Segmentierung und auf Verfahren der Mustererkennung, beispielsweise zur Klassifizierung von Objekten. Dabei kommen statistische (bzw. probabilistische) Methoden zum Einsatz, Methoden der Bildverarbeitung, der projektiven Geometrie, aus der Künstlichen Intelligenz und der Computergrafik. Die Werkzeuge stammen meistens aus der Mathematik, insbesondere aus Geometrie, linearer Algebra, Statistik, Operations Research (Optimierung) und Funktionalanalysis. Darüber hinaus besteht eine enge Verwandtschaft zu benachbarten Fachgebieten, wie der Photogrammetrie, der Fernerkundung und der Kartografie. Anwendungsgebiete sind z. B. die autonome Navigation von Robotern (Fahrerassistenzsysteme), die Filmindustrie zur Erschaffung virtueller Welten (virtual reality), die Spieleindustrie zum Eintauchen und Interagieren in virtuellen Räumen (augmented reality), die Erkennung und Verfolgung von Objekten (z. B. Fußgänger) oder die Registrierung von medizinischen CT-Aufnahmen und die Erkennung von krankem Gewebe. - neuromorphe Chips (Wikipedia)
Ein neuromorpher Chip ist ein Mikrochip, der nach dem Beispiel von natürlichen Nervennetzen gebaut wird. Neuromorphe Chips sind Forschungsgebiet der Bionik und der Neuroinformatik. Existierende Prototypen umfassen künstliche Retinae oder noch weiter entwickelte Sehsysteme, künstliche Cochleae, Geruchsdetektoren oder Taktgeber für naturnahe Bewegungsabläufe bei Robotern. Im Speziellen gehören auch NPUs zur Klasse der neuromorphen Mikrochips. - Reaktionszeit (Wikipedia)
Reaktionszeit steht für: allgemein eine Zeitspanne zwischen Aktion und Reaktion, siehe dazu auch Latenzzeit in der Neurologie die Reaktionszeit (Neurologie) als Spezialfall: im Straßenverkehr die benötigte Schreckzeit bis zur Reaktion (Verkehrsgeschehen) – sie beträgt mindestens einige Zehntelsekunden als Spezialfall: in der Astrometrie die persönliche Gleichung bei Sterndurchgangs-Messungen in der Psychologie die Reaktionszeit (Psychologie) in der Elektronik die Reaktionszeit von Flachbildschirmen in der Elektrotechnik einen angenommenen Schwellwert zur Wahrnehmung von Verzögerungen, siehe Human Response Time die Reaktionsgeschwindigkeit in der Chemie, siehe Kinetik (Chemie) die Reaktionsära, in der Geschichte Deutschlands die Zeit von 1849–1858 die Reaktionszeit im Sport Siehe auch: - Robotik (Wikipedia)
Das Themengebiet der Robotik (auch Robotertechnik) befasst sich mit dem Versuch, das Konzept der Interaktion mit der physischen Welt auf Prinzipien der Informationstechnik sowie auf eine technisch machbare Kinetik zu reduzieren. Der Begriff des „Roboters“ beschreibt dabei eine Entität, welche diese beiden Konzepte in sich vereint, indem sie die Interaktion mit der physischen Welt auf der Basis von Sensoren, Aktuatoren und Informationsverarbeitung umsetzt. Kernbereich der Robotik ist die Entwicklung und Steuerung solcher Roboter. Sie umfasst Teilgebiete der Informatik (insbesondere von Künstlicher Intelligenz), der Elektrotechnik und des Maschinenbaus. Ziel der Robotik ist es, durch Programmierung ein gesteuertes Zusammenarbeiten von Roboter-Elektronik und Roboter-Mechanik herzustellen. Den Begriff erfunden und geprägt hat der Science-Fiction-Autor Isaac Asimov, erstmals erwähnt wurde er in dessen Kurzgeschichte Runaround (dt. Herumtreiber) im März 1942 im Astounding-Magazin. Nach Asimovs Definition bezeichnet Robotik das Studium der Roboter oder auch der Maschinen. - Sensorik (Wikipedia)
Sensorik bezeichnet die Aufnahme äußerer wie innerer Reize bei Lebewesen; siehe sensorisch im engeren Wortsinne: die Aufnahme von Reizen über spezialisierte Sinnesorgane (beim Menschen: Augen, Ohren, Nase, Zunge) als Gegenbegriff zur Sensibilität (Neurowissenschaft) ein Fachgebiet in der Lebensmittelanalytik; siehe Sensorik (Lebensmittelprüfung) ein Fachgebiet in der Mess- und Regelungstechnik; siehe Sensorik (Technik) Siehe auch: Sensorium