Federated Transformers ermöglichen datenschutzfreundliche Baby‑Schrei‑Erkennung
Die Klassifizierung von Baby‑Schreien kann frühzeitig die Bedürfnisse von Neugeborenen erkennen, steht jedoch vor großen Herausforderungen: Datenschutzbedenken, Hintergrundgeräusche und Unterschiede in Aufnahmeeinstellungen erschweren die praktische Nutzung.
Eine neue End‑to‑End‑Pipeline kombiniert einen Denoising Autoencoder, einen konvolutionalen Tokenizer und einen Transformer‑Encoder, der mittels kommunikationseffizienten Federated Learning (FL) trainiert wird. Auf dem Gerät erfolgt das Rauschunterdrücken, die adaptive Segmentierung, die Kalibrierung nach dem Training und eine energiebasierte Out‑of‑Distribution‑Abstention.
Das Federated‑Training nutzt einen regulierten Control‑Variate‑Update-Mechanismus mit 8‑Bit‑Adapter‑Deltas unter sicherer Aggregation. Dadurch werden die Daten der einzelnen Clients geschützt, während gleichzeitig die Modellleistung erhalten bleibt.
In Tests mit den Baby‑Chillanto‑ und Donate‑a‑Cry‑Datensätzen, ergänzt um ESC‑50‑Rausch‑Overlays, erreichte das Modell einen Makro‑F1‑Score von 0,938, eine AUC von 0,962 und einen Expected Calibration Error (ECE) von 0,032. Gleichzeitig sank die pro Runde benötigte Upload‑Größe von ca. 36–42 MB auf lediglich 3,3 MB. Auf einem NVIDIA Jetson Nano (4 GB, TensorRT FP16) lief die Echtzeit‑Inference in 96 ms pro einsekündigem Spektrogramm‑Frame.
Diese Ergebnisse zeigen einen praktikablen Weg zu einer datenschutz‑ und geräusch‑robusten, zugleich kommunikations‑effizienten Baby‑Schrei‑Erkennung, die sich ideal für federated Deployments eignet.