Der Forecast Critic: LLMs überwachen Prognosen und erkennen schlechte Vorhersagen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues System namens „The Forecast Critic“ nutzt große Sprachmodelle (LLMs), um Vorhersagen in Einzelhandelsunternehmen automatisch zu überwachen. Durch die Kombination von Weltwissen und ausgeprägten „Reasoning“-Fähigkeiten können LLMs die Qualität von Zeitreihenprognosen bewerten und offensichtliche Fehler aufdecken.

Die Studie prüft drei zentrale Fragen: Erstens, ob LLMs Prognosen zuverlässig überwachen und unvernünftige Vorhersagen identifizieren können. Zweitens, ob sie unstrukturierte externe Daten einbeziehen, um zu bestimmen, was eine vernünftige Prognose ausmacht. Drittens, wie sich die Leistung je nach Modellgröße und Rechenfähigkeit unterscheidet. Dazu wurden sowohl synthetische als auch reale Daten verwendet.

Die Ergebnisse zeigen, dass LLMs schlechte Prognosen zuverlässig erkennen, etwa bei zeitlichen Fehlanpassungen, Trendinkonsistenzen oder Spitzenfehlern. Das leistungsstärkste Modell erreichte einen F1‑Score von 0,88, knapp unterhalb der menschlichen Leistung von 0,97. Multi‑Modal‑LLMs konnten zudem unstrukturierte Kontextinformationen nutzen, um fehlende oder falsche Werbe­spitzen zu identifizieren, was einen F1‑Score von 0,84 erzielte.

Diese Forschung demonstriert, dass moderne Sprachmodelle nicht nur Texte generieren, sondern auch als effektive Werkzeuge zur Qualitätskontrolle von Prognosen eingesetzt werden können. Damit bieten sie Einzelhändlern ein neues Mittel, die Kundenzufriedenheit, Rentabilität und betriebliche Effizienz zu steigern.

Ähnliche Artikel