Jupiter: LLMs meistern Datenanalyse dank Notebook- und Suchoptimierung

In einer wegweisenden Veröffentlichung präsentiert ein internationales Forschungsteam einen neuen Ansatz, mit dem große Sprachmodelle (LLMs) komplexe Datenanalyseaufgaben viel effizienter lösen können. Während LLMs bereits vielversprechende Fortschritte in der Automatisierung von Data‑Science‑Workflows erzielt haben, bleiben Multi‑Step‑Reasoning und der Einsatz von spezialisierten Tools häufig ein Hindernis für ihre volle Leistungsfähigkeit.

Um diese Lücke zu schließen, wurde ein skalierbarer Pipeline-Ansatz entwickelt, der aus realen Jupyter‑Notebooks und zugehörigen Datendateien hochwertige, toolbasierte Analyseaufgaben sowie ihre ausführbaren, mehrstufigen Lösungen extrahiert. Das daraus resultierende Datenset, NbQA, enthält standardisierte Aufgaben‑Lösungspaare, die authentische Tool‑Verwendungsmuster in praxisnahen Data‑Science‑Szenarien widerspiegeln.

Der Kern der Innovation ist das Framework Jupiter, das Datenanalyse als Suchproblem formuliert und Monte‑Carlo‑Tree‑Search (MCTS) einsetzt, um vielfältige Lösungspfade zu generieren. Während der Inferenz kombiniert Jupiter ein Value‑Model mit Knotenzählungen, um ausgehend von minimalen Suchschritten ausführbare Mehr‑Schritt‑Pläne zu sammeln. Dieser Ansatz reduziert die Rechenzeit erheblich und erhöht die Erfolgsquote bei komplexen Aufgaben.

Experimentelle Ergebnisse zeigen, dass die Modelle Qwen2.5‑7B und 14B‑Instruct auf dem NbQA‑Datensatz 77,82 % bzw. 86,38 % der Aufgaben im InfiAgent‑DABench lösen – ein Ergebnis, das GPT‑4o und fortgeschrittene Agenten‑Frameworks erreicht oder übertrifft. Darüber hinaus demonstrieren die Tests eine verbesserte Generalisierung und ein stärkeres Tool‑Verständnis bei einer Vielzahl von Mehr‑Schritt‑Reasoning‑Aufgaben, was Jupiter zu einem vielversprechenden Werkzeug für die nächste Generation von datengetriebenen KI‑Anwendungen macht.

Ähnliche Artikel