RIFT: Fault-Analyse beschleunigt Fehlerdiagnose LLM-Acceleratoren 2,2-fach
Die neueste Veröffentlichung auf arXiv präsentiert RIFT – eine skalierbare Methodik, die Reinforcement Learning nutzt, um gezielt die kritischsten Fehler in modernen KI‑Acceleratoren zu identifizieren. Durch die Automatisierung der Entdeckung minimaler, aber hochwirksamer Fehlerszenarien ermöglicht RIFT eine effiziente Design‑zeitliche Fehlerbewertung, die bisherige Ansätze deutlich übertrifft.
RIFT wandelt die komplexe Suche nach Worst‑Case‑Fehlern in ein sequentielles Entscheidungsproblem um. Dabei kombiniert es eine hybride Sensitivitätsanalyse zur Reduktion des Suchraums mit Reinforcement Learning, um gezielt minimalistische Testsets zu generieren. Das Ergebnis ist ein stark komprimierter Testumfang, der dennoch alle relevanten Fehler abdeckt.
In praktischen Tests mit Billionen‑Parameter‑LLM‑Workloads auf NVIDIA A100 GPUs konnte RIFT die Fehlerbewertung um 2,2‑fach beschleunigen und die benötigte Testvektoranzahl um mehr als 99 % reduzieren – im Vergleich zu rein zufälliger Fehlerinjektion. Darüber hinaus zeigte sich, dass selektive Fehlerkorrekturcodes, die von RIFT unterstützt werden, die Kosten‑Effektivität um 12,8‑fach steigern, wenn sie im Vergleich zu gleichmäßiger Triple‑Modular‑Redundanz eingesetzt werden.
Ein weiterer Pluspunkt ist die automatische Generierung von UVM‑kompatiblen Verifikationsartefakten. Dadurch lassen sich die gewonnenen Erkenntnisse unmittelbar in kommerzielle RTL‑Verifikations‑Workflows integrieren und liefern konkrete Handlungsempfehlungen für intelligente Hardware‑Schutzstrategien.