OpenTSLM: Sprachmodell für Zeitreihen revolutioniert medizinische Datenanalyse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens OpenTSLM präsentiert eine Familie von Time‑Series Language Models (TSLMs), die multimodale Zeitreihen direkt in vortrainierte Large Language Models (LLMs) integrieren. Ziel ist es, die bislang fehlende Fähigkeit von LLMs, Zeitreihen zu verarbeiten, zu überwinden und damit medizinische Daten wie Vitalparameter, Schlaf‑ und Bewegungsaufzeichnungen sowie EKG‑Signale in nutzbare Erkenntnisse zu verwandeln.

OpenTSLM wird in zwei Varianten angeboten. Die erste, OpenTSLM‑SoftPrompt, nutzt lernbare Zeitreihen‑Tokens, die über Soft‑Prompting mit Text‑Tokens kombiniert werden. Diese Methode ist parameter‑effizient, doch die Entwickler vermuten, dass ein expliziter Ansatz besser skalierbar ist. Deshalb wurde OpenTSLM‑Flamingo entwickelt, das Zeitreihen und Text über Cross‑Attention verbindet und damit eine direktere Modellierung ermöglicht.

In umfangreichen Benchmarks, die drei neue Datensätze – HAR‑CoT, Sleep‑CoT und ECG‑QA‑CoT – umfassen, übertrifft OpenTSLM die herkömmlichen Baselines, die Zeitreihen lediglich als Text‑Tokens oder als Plots behandeln. Die Modelle erzielen beispielsweise 69,9 F1‑Score beim Schlaf‑Staging und 65,4 bei der Human Activity Recognition, während text‑basierte Modelle weit darunter liegen. Besonders bemerkenswert ist, dass selbst 1‑Billion‑Parameter‑Modelle OpenTSLM die Leistung von GPT‑4o bei diesen Aufgaben übertreffen.

OpenTSLM‑Flamingo erreicht ähnliche Ergebnisse wie OpenTSLM‑SoftPrompt, zeigt jedoch bei längeren Sequenzen eine bessere Performance und behält gleichzeitig stabile Speicheranforderungen bei. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung datengetriebener, zeitreihenbasierter Entscheidungsunterstützung im Gesundheitswesen.

Ähnliche Artikel