Hierarchisches Signalsteuerungssystem kombiniert Modelloptimierung & RL
Ein neues hierarchisches Steuerungskonzept für Verkehrsampeln in städtischen Korridoren vereint klassische Modelloptimierung mit modernem Reinforcement Learning. Das System besteht aus drei Ebenen: Ein High‑Level Coordinator (HLC) wählt dynamisch zwischen Max‑Flow‑ und Green‑Wave‑Koordination, ein Corridor Coordinator setzt die jeweiligen Phasenbeschränkungen um, und Hybrid Signal Agents (HSAs) bestimmen die Ampelphasen mithilfe von PPO‑basiertem Reinforcement Learning mit Aktionsmaskierung.
Die HSAs werden in drei Varianten trainiert – MFC‑bewusst, GWC‑bewusst und als reine Agentensteuerung (PAC). Der HLC lernt, die Koordinationsstrategie je nach beobachteter und prognostizierter Nachfrage zu wechseln, wobei ein mehrzieliger Belohnungsmechanismus sowohl die Korridor‑ als auch die netzwerkweite Leistung berücksichtigt.
Die Implementierung wurde auf der SUMO‑RLlib‑Plattform getestet. Unter hoher Nachfrage maximiert die hybride MFC‑Strategie den Durchsatz, während die hybride GWC‑Strategie die Stopps an den Hauptverkehrsadern reduziert und die Durchflussprogression über verschiedene Verkehrsbedingungen hinweg stabil hält – allerdings mit einem leichten Rückgang der netzwerkweiten Effizienz. Die PAC‑Strategie verbessert die Gesamtreisezeit bei moderater Nachfrage, ist jedoch bei extremen Lasten weniger effizient.
Das Ergebnis zeigt, dass ein hybrider Ansatz, der sowohl modellbasierte als auch lernbasierte Elemente kombiniert, die Flexibilität und Leistungsfähigkeit der Ampelsteuerung in urbanen Verkehrsnetzen deutlich steigern kann.