Echo-CoPilot: Mehrfachansicht-Agent für Echokardiographie-Analyse
Echokardiographie ist ein zentrales Instrument in der modernen kardiovaskulären Versorgung, doch die vollständige Auswertung eines Untersuchungsdatensatzes bleibt eine kognitiv anspruchsvolle Aufgabe, die mehrere Ansichten erfordert. Trotz der beeindruckenden Leistungen neuer Foundation‑Modelle, die einzelne Unteraufgaben wie Ansichts‑Klassifikation, Segmentierung oder Krankheitsvorhersage meistern, fehlt bislang ein einheitliches System, das diese Ergebnisse zu einer klinisch zusammenhängenden Einschätzung verbindet.
In dieser Arbeit wird Echo‑CoPilot vorgestellt – ein Multi‑View, Multi‑Task Agent, der ein großes Sprachmodell nutzt, um eine Reihe spezialisierter Echokardiographie‑Tools zu koordinieren. Durch einen ReAct‑ähnlichen Arbeitsablauf zerlegt der Agent klinische Anfragen, ruft gezielt Werkzeuge für die Ansichtserkennung, die Segmentierung kardialer Strukturen, die Messung, die Krankheitsvorhersage und die Berichtserstellung auf und integriert deren Ausgaben zu richtlinienbewussten Antworten und narrativen Zusammenfassungen.
Die Leistung von Echo‑CoPilot wurde am öffentlichen MIMIC‑EchoQA Benchmark getestet. Der Agent erreichte eine Genauigkeit von 50,8 %, was sowohl allgemeine als auch biomedizinische Video‑Vision‑Language‑Modelle deutlich übertrifft. Qualitative Analysen zeigen, dass der Agent quantitative Messwerte und physiologischen Kontext nutzt, um schwierige Fälle nahe klinischer Entscheidungsschwellen zu lösen – etwa bei borderline linksventrikulärer Hypertrophie oder bei der Schweregradbestimmung von Perikardergüssen.
Der zugehörige Code wird nach Annahme des Papiers veröffentlicht, sodass die Forschungsgemeinschaft die Möglichkeiten von Echo‑CoPilot weiter erforschen kann.