Generative Code‑Optimierung ermöglicht lernende Spielagenten
Ein neues arXiv‑Veröffentlichung präsentiert einen innovativen Ansatz zur Entwicklung von Spielagenten, bei dem die Entscheidungsfindung als Python‑Programm modelliert und mithilfe großer Sprachmodelle (LLMs) optimiert wird. Die Agenten lernen, ihre eigenen Code‑Strukturen zu verfeinern, indem sie Beobachtungen aus dem Spiel als Eingabe nutzen und daraus Aktionen ableiten.
Der Schlüssel liegt in der Selbstentwicklung des Codes: Durch Ausführungsspuren und Rückmeldungen in natürlicher Sprache verbessern sich die Agenten kontinuierlich, ohne dass umfangreiche menschliche Eingriffe nötig sind. Dieser Prozess reduziert den Bedarf an Trainingszeit und Interaktionen mit der Spielumgebung erheblich.
In Tests mit klassischen Atari‑Spielen erreichte das Python‑Programm eine Leistung, die mit den besten Deep‑Reinforcement‑Learning‑Baselines vergleichbar ist, jedoch mit deutlich weniger Rechenaufwand. Die Ergebnisse zeigen, dass programmatische Policy‑Darstellungen eine vielversprechende Grundlage für effiziente, anpassungsfähige Agenten bieten, die komplexe, langfristige Entscheidungsaufgaben meistern können.