HyPAC: Kostenoptimierte Hybrid-Annotation mit PAC-Fehlergarantie
In der heutigen Datenannotation stehen oft mehrere Quellen zur Verfügung, die unterschiedliche Kosten-Qualitäts-Verhältnisse aufweisen. Dazu gehören schnelle große Sprachmodelle (LLMs), langsame, aber präzise Rechenmodelle und menschliche Experten.
Die neue Methode HyPAC löst das Problem, Eingaben gezielt an die kosteneffizienteste Quelle weiterzuleiten, während gleichzeitig die Fehlerquote bei der Kennzeichnung kontrolliert wird. HyPAC passt die Entscheidungskriterien dynamisch an und liefert dabei verteilungsunabhängige Fehlergarantien.
Durch die Kombination von Importance Sampling und Upper Confidence Bounds werden zwei Schwellenwerte festgelegt, die die Eingaben in drei Unsicherheitsbereiche aufteilen. Jeder Bereich wird dann an die jeweils passende Annotationsquelle geschickt – sei es ein schneller LLM, ein langsameres Rechenmodell oder ein menschlicher Experte.
Die Autoren zeigen theoretisch, dass HyPAC den minimalen erwarteten Kostenaufwand erreicht und gleichzeitig eine PAC‑Garantie (probably approximately correct) für die Fehlerquote bietet, ohne dass dabei Annahmen über die Datenverteilung oder vortrainierte Modelle nötig sind.
Experimentelle Tests auf gängigen Benchmarks demonstrieren die Wirksamkeit der Methode: Die Annotationskosten konnten um beeindruckende 78,51 % reduziert werden, während die Fehlerquote eng im Rahmen gehalten blieb.