Einzel-Agenten-Deep-Learning revolutioniert Busflottensteuerung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv-Repository präsentiert einen innovativen Ansatz zur Steuerung von Busflotten, der das langjährige Problem des Bus‑Bunchings – also das Zusammenlaufen von Bussen – mit einem einzigen Reinforcement‑Learning‑Agenten angeht. Im Gegensatz zu den üblichen Multi‑Agenten‑Lösungen, die in idealisierten Loop‑Line‑Szenarien arbeiten, berücksichtigt das neue Modell heterogene Routen, variable Fahrpläne, schwankende Passagiernachfrage und unterschiedliche Flottengrößen, die in realen Städten vorherrschen.

Der Schlüssel zum Erfolg liegt in der Umwandlung des Multi‑Agenten‑Problems in ein hochdimensionales Single‑Agenten‑Problem. Durch die Erweiterung des Zustandsraums um kategoriale Identifikatoren – Fahrzeug‑ID, Haltestellen‑ID und Zeitfenster – sowie klassische numerische Merkmale wie Abstand, Auslastung und Geschwindigkeit, kann der Agent die Abhängigkeiten zwischen den Bussen erfassen, als sei er in einem erweiterten Raum operiert. Diese Technik verhindert die Datenungleichgewichte und Konvergenzprobleme, die bei herkömmlichen Multi‑Agenten‑Ansätzen auftreten.

Zusätzlich wurde eine strukturierte Belohnungsfunktion entwickelt, die an den operativen Zielen ausgerichtet ist. Anstelle exponentieller Strafpunkte für Abweichungen vom gewünschten Abstand nutzt die neue „Ridge‑Reward“-Strategie ein glattes, bergähnliches Profil, das gleichmäßige Abstände und die Einhaltung des Fahrplans gleichermaßen belohnt. Diese Belohnungsstruktur fördert ein ausgewogenes Verhalten des Systems und verhindert extreme Schwankungen.

Experimentelle Tests mit dem Soft‑Actor‑Critic‑Algorithmus (SAC) zeigen, dass die neue Methode deutlich stabiler und leistungsfähiger ist als etablierte Benchmarks wie MADDPG. Unter stochastischen Bedingungen erzielte SAC beispielsweise einen Wert von –430 000, während MADDPG bei –530 000 lag. Diese Ergebnisse demonstrieren, dass ein gut strukturiertes Single‑Agenten‑Deep‑Learning, ergänzt durch kategoriale Codierung und planorientierte Belohnungen, die Effizienz und Zuverlässigkeit moderner Busnetze nachhaltig verbessern kann.

Ähnliche Artikel