Wie viele Klassen müssen wir sehen, um neue Klassen zu entdecken?
Die Entdeckung neuer Klassen ist entscheidend, damit maschinelle Lernmodelle sich an sich wandelnde reale Daten anpassen können – von der wissenschaftlichen Forschung bis zur Robotik. In realen Datensätzen sind jedoch viele Faktoren miteinander verflochten, was die systematische Untersuchung von Klassenerkennung erschwert. Viele grundlegende Fragen bleiben daher unbeantwortet: Wann und warum gelingt die Entdeckung neuer Klassen am besten?
Um diese Fragen zu klären, stellen die Autoren ein einfaches, kontrolliertes Experiment vor, das das dSprites-Datenset mit prozedural generierten Modifikationsfaktoren nutzt. So lässt sich untersuchen, welche Einflüsse die erfolgreiche Entdeckung neuer Klassen bestimmen. Insbesondere wird die Beziehung zwischen der Anzahl bekannter und unbekannter Klassen sowie die Wirkung der Abdeckung bekannter Klassen auf die Entdeckung neuer Klassen analysiert.
Die Ergebnisse zeigen, dass der Nutzen zusätzlicher bekannter Klassen ein Sättigungspunkt erreicht, ab dem die Leistung bei der Entdeckung neuer Klassen nicht weiter steigt. Dieses Muster der abnehmenden Rendite liefert wertvolle Einblicke für Kosten-Nutzen-Analysen in der Praxis und bildet eine Grundlage für strengere zukünftige Studien zur Klassenerkennung in komplexen, realen Datensätzen.