TurnBack: LLMs zeigen Schwächen bei Routenumkehr – Benchmark enthüllt Grenzen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird die Fähigkeit großer Sprachmodelle (LLMs) zur geospatialen Routeninterpretation systematisch untersucht. Das Team hat ein umfangreiches Benchmark‑Set namens TurnBack entwickelt, das 36.000 Routen aus 12 Metropolen weltweit umfasst. Damit soll die bislang unzureichend quantifizierte Geospatial‑Kognition von LLMs endlich messbar gemacht werden.

Ein zentrales Element des Projekts ist PathBuilder, ein Tool, das natürliche Sprachanweisungen in Navigationsrouten umwandelt und umgekehrt. Dadurch entsteht eine Brücke zwischen Text und räumlicher Information, die bisher nur unzureichend abgedeckt war.

Mit dem neuen Evaluationsrahmen und den dazugehörigen Metriken wurden elf führende LLMs auf die Aufgabe der Routenumkehr getestet. Die Ergebnisse zeigen deutlich, dass die Modelle Schwierigkeiten haben, eine Route korrekt umzukehren: Die meisten umgekehrten Routen führen nicht zurück zum Ausgangspunkt und entsprechen nicht der optimalen Strecke. Zusätzlich weisen die Modelle eine geringe Robustheit bei der Routen­generierung auf und geben oft mit hoher Zuversicht falsche Antworten.

Der gesamte Code sowie die Datensätze sind frei verfügbar und können unter GitHub eingesehen werden. Die Studie liefert damit einen wichtigen Meilenstein für die Weiterentwicklung von LLMs im Bereich der geospatialen Navigation.

Ähnliche Artikel