Effizientes DRL-Umfeld für flexible Job-Shop-Planung
In einer neuen Veröffentlichung wird ein einfaches, chronologisches Deep‑Reinforcement‑Learning‑Umfeld für das Flexible Job‑Shop‑Scheduling Problem (FJSP) vorgestellt. Das Umfeld basiert auf einer diskreten Ereignissimulation und ermöglicht es, schnell und präzise Planungslösungen zu generieren. Aufbauend auf diesem Umfeld wird ein end‑to‑end‑DRL‑Modell mit Proximal Policy Optimization (PPO) entwickelt.
Ein besonderes Merkmal ist die kompakte Zustandsdarstellung, die nur zwei Variablen nutzt, sowie eine leicht verständliche Belohnungsfunktion, die sich an der Arbeitsfläche der Maschinen orientiert. Diese Kombination führt zu einer deutlichen Verbesserung gegenüber einfachen Prioritäts‑Dispatching‑Regeln (PDR).
Experimentelle Tests an öffentlichen Benchmark‑Instanzen zeigen, dass das neue DRL‑Umfeld die Leistung von PDR‑Methoden steigert und das entwickelte Modell mit OR‑Tools, Meta‑Heuristiken sowie anderen DRL‑ und PDR‑Ansätzen vergleichbare Ergebnisse erzielt.