DeltaLogic: Neue Benchmark-Methode enthüllt Schwächen bei Beweisrevision
Traditionelle Reasoning‑Benchmarks prüfen, ob ein Modell aus einer festen Premissenmenge die richtige Antwort ableiten kann. Dabei wird jedoch ein entscheidendes Merkmal in dynamischen Umgebungen vernachlässigt: die Fäh…