Auflösung entscheidet: YOLOv11 führt bei Gesichtserkennung an
In einer aktuellen Studie aus dem arXiv-Repository wurde die Wirkung der Bildauflösung auf die Genauigkeit von Gesichtserkennungsmodellen untersucht. Dabei standen die neuesten Deep‑Learning‑Algorithmen YOLOv11, YOLOv12 und MTCNN im Fokus.
Die Forscher nutzten das umfangreiche WIDER FACE‑Datenset und testeten die Modelle bei drei Auflösungen: 160×160, 320×320 und 640×640 Pixel. Für jede Auflösung wurden Kennzahlen wie Präzision, Recall, mAP50, mAP50‑95 sowie die Inferenzzeit gemessen.
Die Ergebnisse zeigen, dass YOLOv11 bei höheren Auflösungen die höchste Erkennungsgenauigkeit erzielt, während YOLOv12 leicht bessere Recall‑Raten aufweist. MTCNN überzeugt zwar bei der Landmarkenlokalisierung, hinkt jedoch bei der Echtzeit‑Inference hinterher.
Diese Erkenntnisse liefern klare Handlungsempfehlungen: Für Anwendungen, die hohe Genauigkeit bei moderaten bis hohen Auflösungen benötigen, ist YOLOv11 die optimale Wahl. YOLOv12 eignet sich besonders, wenn ein höherer Recall entscheidend ist, während MTCNN für Szenarien mit begrenzter Rechenleistung weniger geeignet ist.