OAT: Der neue Action-Tokenizer revolutioniert Robotik mit LLM-Scalierung
Roboter erleben eine neue Ära, die an die Entwicklung von GPT‑3 erinnert. Forscher haben seit Jahren versucht, die gleichen autoregressiven Modelle, die große Sprachmodelle antreiben, für die Steuerung von Robotern einzusetzen. Das Ziel war klar: Wenn ein Modell das nächste Wort vorhersagen kann, sollte es auch die nächste Bewegung eines Roboterarms bestimmen können.
Doch ein technisches Hindernis blieb bestehen. Die direkte Übertragung von Sprachmodellen auf physische Aktionen stieß auf Probleme bei der Skalierung und bei der Echtzeit‑Inference. Hier kommt OAT – der neue Action‑Tokenizer – ins Spiel. Durch die Umwandlung von Bewegungen in tokenisierte Aktionen lässt sich das Modell wie ein LLM trainieren und gleichzeitig flexibel für jede Situation einsetzen.
OAT kombiniert die bewährte Skalierbarkeit von LLMs mit der Fähigkeit, jederzeit und überall inference durchzuführen. Das bedeutet, dass Roboter nicht mehr auf feste Zeitpläne oder spezialisierte Hardware angewiesen sind, sondern in Echtzeit auf wechselnde Anforderungen reagieren können. Diese Entwicklung markiert einen bedeutenden Schritt in Richtung einer allgemeineren, leistungsfähigeren Robotik.