Erfolgreiche unabhängige Reproduktion der gpt‑oss‑20b‑Performance
Wissenschaftler haben erstmals die von OpenAI veröffentlichten Ergebnisse des Modells gpt‑oss‑20b selbst reproduziert, obwohl die ursprüngliche Arbeit weder die verwendeten Tools noch die Agenten-Architektur offengelegt…
- Wissenschaftler haben erstmals die von OpenAI veröffentlichten Ergebnisse des Modells gpt‑oss‑20b selbst reproduziert, obwohl die ursprüngliche Arbeit weder die verwende…
- Durch Reverse Engineering konnten die Forscher die in‑Distribution‑Tools des Modells identifizieren.
- Sie stellten fest, dass gpt‑oss auch ohne explizite Tool‑Definitionen stark auf seine Trainingswerkzeuge zurückgreift, was auf ein tief verwurzeltes Prior hinweist und n…
Wissenschaftler haben erstmals die von OpenAI veröffentlichten Ergebnisse des Modells gpt‑oss‑20b selbst reproduziert, obwohl die ursprüngliche Arbeit weder die verwendeten Tools noch die Agenten-Architektur offengelegt hat.
Durch Reverse Engineering konnten die Forscher die in‑Distribution‑Tools des Modells identifizieren. Sie stellten fest, dass gpt‑oss auch ohne explizite Tool‑Definitionen stark auf seine Trainingswerkzeuge zurückgreift, was auf ein tief verwurzeltes Prior hinweist und nicht auf Halluzinationen.
Anschließend entwickelte das Team einen nativen „Harmony Agent Harness“, der Nachrichten im ursprünglichen Format des Modells kodiert und so die verlustbehaftete Chat‑Completion‑Umwandlung umgeht. Die Kombination aus Tool‑Erkennung und dem neuen Harness ermöglichte die erste unabhängige Reproduktion der OpenAI‑Scores.
Die Ergebnisse liegen nahe an den veröffentlichten Zahlen: 60,4 % bei SWE Verified HIGH (publiziert 60,7 %), 53,3 % bei MEDIUM (publiziert 53,2 %) und 91,7 % bei AIME25 mit Tools (publiziert 90,4 %). Diese Erfolge unterstreichen die Leistungsfähigkeit von gpt‑oss‑20b und zeigen, dass die Community die Modelle nachvollziehbar und reproduzierbar nutzen kann.
Welche Linse du auf diese Meldung legen solltest
OpenAI ist einer der wichtigsten Taktgeber fuer KI-Produkte, Modellstarts und API-Oekosysteme.
Trenne bei OpenAI-News immer zwischen Modellleistung, Distribution ueber ChatGPT und den Folgen fuer Entwickler im API-Stack.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Trenne bei OpenAI-News immer zwischen Modellleistung, Distribution ueber ChatGPT und den Folgen fuer Entwickler im API-Stack.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.