Forschung arXiv – cs.AI

Erfolgreiche unabhängige Reproduktion der gpt‑oss‑20b‑Performance

Wissenschaftler haben erstmals die von OpenAI veröffentlichten Ergebnisse des Modells gpt‑oss‑20b selbst reproduziert, obwohl die ursprüngliche Arbeit weder die verwendeten Tools noch die Agenten-Architektur offengelegt…

02.04.2026 04:00 • ≈1 Min. Lesezeit • Originalquelle

#OpenAI #gpt‑oss‑20b #Reverse Engineering #Tool‑Erkennung #Harmony Agent Harness #Chat‑Completion #SWE Verified

Kernaussagen

Das nimmst du aus dem Beitrag mit

Wissenschaftler haben erstmals die von OpenAI veröffentlichten Ergebnisse des Modells gpt‑oss‑20b selbst reproduziert, obwohl die ursprüngliche Arbeit weder die verwende…
Durch Reverse Engineering konnten die Forscher die in‑Distribution‑Tools des Modells identifizieren.
Sie stellten fest, dass gpt‑oss auch ohne explizite Tool‑Definitionen stark auf seine Trainingswerkzeuge zurückgreift, was auf ein tief verwurzeltes Prior hinweist und n…

Durch Reverse Engineering konnten die Forscher die in‑Distribution‑Tools des Modells identifizieren. Sie stellten fest, dass gpt‑oss auch ohne explizite Tool‑Definitionen stark auf seine Trainingswerkzeuge zurückgreift, was auf ein tief verwurzeltes Prior hinweist und nicht auf Halluzinationen.

Anschließend entwickelte das Team einen nativen „Harmony Agent Harness“, der Nachrichten im ursprünglichen Format des Modells kodiert und so die verlustbehaftete Chat‑Completion‑Umwandlung umgeht. Die Kombination aus Tool‑Erkennung und dem neuen Harness ermöglichte die erste unabhängige Reproduktion der OpenAI‑Scores.

Die Ergebnisse liegen nahe an den veröffentlichten Zahlen: 60,4 % bei SWE Verified HIGH (publiziert 60,7 %), 53,3 % bei MEDIUM (publiziert 53,2 %) und 91,7 % bei AIME25 mit Tools (publiziert 90,4 %). Diese Erfolge unterstreichen die Leistungsfähigkeit von gpt‑oss‑20b und zeigen, dass die Community die Modelle nachvollziehbar und reproduzierbar nutzen kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

OpenAI ist einer der wichtigsten Taktgeber fuer KI-Produkte, Modellstarts und API-Oekosysteme.

Trenne bei OpenAI-News immer zwischen Modellleistung, Distribution ueber ChatGPT und den Folgen fuer Entwickler im API-Stack.

Ist das ein Forschungs-, API- oder ChatGPT-Update?

Wer profitiert davon zuerst: Endnutzer, Builder oder Unternehmen?

Was veraendert sich praktisch?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

OpenAI

OpenAI ist einer der wichtigsten Taktgeber fuer KI-Produkte, Modellstarts und API-Oekosysteme.

gpt‑oss‑20b

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Reverse Engineering

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

OpenAI systematisch verfolgen

Trenne bei OpenAI-News immer zwischen Modellleistung, Distribution ueber ChatGPT und den Folgen fuer Entwickler im API-Stack.

Archiv

Weitere Beispiele zu OpenAI

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

OpenAI

Trenne bei OpenAI-News immer zwischen Modellleistung, Distribution ueber ChatGPT und den Folgen fuer Entwickler im API-Stack.

5 Signale in 7 Tagen • 277 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

ChatGPT

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

65 gemeinsame Signale

Nachbar-Hub

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

53 gemeinsame Signale

Nachbar-Hub

Anthropic

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

35 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

VentureBeat – AI

OpenAGI präsentiert Lux: KI-Agent, der OpenAI und Anthropic schlägt

01.12.2025 14:00

arXiv – cs.AI

Neue Methode CADA verbessert Sicherheit von Sprachmodellen ohne Hilfsverlust

14.01.2026 05:00

VentureBeat – AI

Anthropic vs OpenAI: Red-Team-Methoden zeigen unterschiedliche Sicherheitsprioritäten

04.12.2025 05:00

VentureBeat – AI

OpenAI präsentiert „Wahrheits-Serum“ für KI: Modelle berichten selbst über Fehler

04.12.2025 00:00

VentureBeat – AI

EAGLET verbessert KI-Agenten bei langwierigen Aufgaben durch maßgeschneiderte Pläne

14.10.2025 23:27

arXiv – cs.AI

gpt-oss-120b & gpt-oss-20b: Offene Modelle mit hoher Genauigkeit

18.08.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei OpenAI, gpt‑oss‑20b konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

OpenAI

gpt‑oss‑20b

Reverse Engineering

Tool‑Erkennung

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen