Forschung arXiv – cs.AI

ARC-AGI: Fortschritt bei KI-Intelligenz – Erste umfassende Analyse

Der neue Abstraction and Reasoning Corpus (ARC‑AGI) hat sich als entscheidendes Messinstrument für die Fluid Intelligence von KI-Systemen etabliert. In einer ersten, übergreifenden Analyse wurden 82 Ansätze aus drei Ben…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Der neue Abstraction and Reasoning Corpus (ARC‑AGI) hat sich als entscheidendes Messinstrument für die Fluid Intelligence von KI-Systemen etabliert.
  • In einer ersten, übergreifenden Analyse wurden 82 Ansätze aus drei Benchmark‑Versionen sowie die ARC‑Prize‑Wettbewerbe 2024‑2025 untersucht.
  • Ein zentrales Ergebnis zeigt, dass die Leistung aller Paradigmen – von Programmsynthese über neuro‑symbolische Modelle bis hin zu neuronalen Netzwerken – zwischen ARC‑AG…

Der neue Abstraction and Reasoning Corpus (ARC‑AGI) hat sich als entscheidendes Messinstrument für die Fluid Intelligence von KI-Systemen etabliert. In einer ersten, übergreifenden Analyse wurden 82 Ansätze aus drei Benchmark‑Versionen sowie die ARC‑Prize‑Wettbewerbe 2024‑2025 untersucht.

Ein zentrales Ergebnis zeigt, dass die Leistung aller Paradigmen – von Programmsynthese über neuro‑symbolische Modelle bis hin zu neuronalen Netzwerken – zwischen ARC‑AGI‑1 und ARC‑AGI‑2 um das Zwei‑ bis Dreifache zurückgeht. Während Systeme aktuell 93 % auf ARC‑AGI‑1 erreichen (z. B. Opus 4.6), sinkt die Genauigkeit auf 68,8 % bei ARC‑AGI‑2 und nur noch 13 % bei ARC‑AGI‑3. Menschen bleiben dagegen nahezu fehlerfrei in allen Versionen.

Die Kosten pro Aufgabe sind in einem Jahr um 390‑fach gesunken – von 4 500 USD bei o3 auf 12 USD bei GPT‑5.2 – was vor allem auf eine geringere Parallelisierung im Testzeitraum zurückzuführen ist. Trillion‑Skalen‑Modelle zeigen große Schwankungen in Score und Kosten, während Kaggle‑beschränkte Einreichungen (660 M bis 8 B Parameter) konkurrenzfähige Ergebnisse liefern. Testzeit‑Anpassungen und Verfeinerungs‑Loops erweisen sich als entscheidende Erfolgsfaktoren, während kompositorisches Denken und interaktives Lernen noch ungelöst bleiben.

Die Gewinner des ARC‑Prize 2025 benötigten Hunderttausende synthetischer Beispiele, um 24 % auf ARC‑AGI‑2 zu erreichen, was die Wissensabhängigkeit des Reasonings unterstreicht. Diese erste Ausgabe der ARC‑AGI Living Survey dokumentiert den Stand der Forschung bis Februar 2026 und wird regelmäßig aktualisiert unter https://nimi-ai.com/arc-survey/.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

ARC‑AGI
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Fluid Intelligence
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Programmsynthese
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen