Forschung arXiv – cs.LG

Apple ANE neu definiert: Orion ermöglicht effizientes LLM-Training und Inference

Zwei Milliarden Apple‑Geräte sind mit einem Neural Processing Unit (NPU) – dem Apple Neural Engine (ANE) – ausgestattet, doch bislang bleibt dieser leistungsstarke Prozessor für große Sprachmodelle weitgehend ungenutzt…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Zwei Milliarden Apple‑Geräte sind mit einem Neural Processing Unit (NPU) – dem Apple Neural Engine (ANE) – ausgestattet, doch bislang bleibt dieser leistungsstarke Proze…
  • Die Standard‑ML‑Bibliothek CoreML von Apple verbirgt die zugrunde liegenden Abläufe und unterstützt kein On‑Device‑Training, sodass Entwickler auf Drittanbieter‑Tools zu…
  • Mit Orion, dem ersten offenen End‑to‑End‑System, das direkte ANE‑Ausführung, einen Compiler‑Pipeline und stabilen Mehrschritt‑Training mit Checkpoint‑Wiederaufnahme in e…

Zwei Milliarden Apple‑Geräte sind mit einem Neural Processing Unit (NPU) – dem Apple Neural Engine (ANE) – ausgestattet, doch bislang bleibt dieser leistungsstarke Prozessor für große Sprachmodelle weitgehend ungenutzt. Die Standard‑ML‑Bibliothek CoreML von Apple verbirgt die zugrunde liegenden Abläufe und unterstützt kein On‑Device‑Training, sodass Entwickler auf Drittanbieter‑Tools zurückgreifen mussten.

Mit Orion, dem ersten offenen End‑to‑End‑System, das direkte ANE‑Ausführung, einen Compiler‑Pipeline und stabilen Mehrschritt‑Training mit Checkpoint‑Wiederaufnahme in einem nativen Runtime kombiniert, wird dieses Problem gelöst. Orion greift dabei auf Apples private _ANEClient‑ und _ANECompiler‑APIs zurück und umgeht CoreML vollständig.

Das System erweitert frühere Charakterisierungsarbeiten um einen Katalog von 20 Einschränkungen für MIL‑IR‑Programme, Speicher­layout, Kompilierungs­grenzen und numerisches Verhalten – 14 davon wurden erst während der Orion‑Entwicklung entdeckt. Der Compiler reduziert Graph‑IR in fünf Optimierungs­schritten zu ANE‑native MIL, während die Runtime IOSurface‑basierte Zero‑Copy‑Tensor‑I/O, Programm‑Caching und Delta‑Kompilierung für Gewicht‑Updates verwaltet. Da der ANE Gewichte zur Kompilierzeit einbettet, erfordert ein naives Training bei jedem Schritt eine komplette Neukompilierung (~4,2 s). Orion reduziert diese Zeit auf 494 ms pro Schritt, was eine 8,5‑fach schnellere Kompilierung und insgesamt eine 3,8‑fach schnellere Trainingsgeschwindigkeit bedeutet.

Auf einem M4 Max erreicht Orion beeindruckende 170+ Tokens pro Sekunde bei der Inferenz von GPT‑2 124 M. Diese Fortschritte zeigen, dass der ANE mit der richtigen Softwarearchitektur ein leistungsfähiges Werkzeug für die Entwicklung und Ausführung großer Sprachmodelle auf Apple‑Geräten sein kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Apple Neural Engine
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
CoreML
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Orion
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen