Geo-Coder: Framework für Rückwärtsgenerierung von Code aus geometrischen Bildern
Der neue Geo-Coder-Ansatz verbindet Programmcode mit Bildvision und eröffnet damit einen vielversprechenden Weg, um große multimodale Modelle durch geometrische Operationen wie Hilfslinien und Perspektivtransformationen zu verbessern. Durch die Nutzung von Code als Brücke zwischen visuellen und logischen Informationen wird eine neue Art der Aufsicht geschaffen, die die Fähigkeit der Modelle zur multimodalen Problemlösung deutlich steigert.
Traditionelle inverse Grafikmethoden stoßen bei der Rekonstruktion komplexer geometrischer Details an ihre Grenzen: wichtige geometrische Einschränkungen gehen verloren oder die Struktur wird verzerrt. Geo-Coder löst dieses Problem, indem es die Rekonstruktion in zwei klar getrennte Phasen aufteilt. In der ersten Phase werden pixelweise Ankerpunkte und visuelle Attribute präzise erfasst, wobei visuelle Operatoren und große Sprachmodelle zusammenarbeiten. Die zweite Phase nutzt einen geschlossenen Loop aus Synthese, Rendering und Validierung, bei dem bidirektionales visuelles Feedback den Code selbst korrigiert.
Umfangreiche Experimente zeigen, dass Geo-Coder die Genauigkeit der geometrischen Rekonstruktion und die visuelle Konsistenz deutlich übertrifft. Durch die konsequente Bewahrung der zentralen geometrischen Semantik liefern die rekonstruierten Bilder Leistungen, die denen der Originale in multimodalen Reasoning‑Aufgaben entsprechen. Damit wird die Robustheit des Frameworks eindrucksvoll bestätigt.
Zur weiteren Förderung der Forschung hat das Team den Geo-Coder-Datensatz, der auf dem GeoCode-Framework basiert, öffentlich zugänglich gemacht. Dieser Beitrag reduziert die Einstiegshürden für Entwickler und Forscher und fördert die Weiterentwicklung von inverse‑Programming‑Ansätzen in der Computer Vision.