Neue Mobilitätsdaten mit Kontext, POIs und KI-generierten Social Media-Posts
In einem neuen Open-Source-Resource-Paper stellen die Autoren zwei umfangreiche Datensätze vor, die reale GPS-Tracks aus Paris und New York mit einer Vielzahl semantischer Zusatzinformationen anreichern. Neben den Rohdaten enthalten die Sets Kontextschichten wie Haltepunkte, Bewegungen, Points of Interest, geschätzte Verkehrsmittel und Wetterbedingungen.
Ein besonderes Highlight ist die Integration von synthetischen, realitätsnahen Social-Media-Posts, die mithilfe großer Sprachmodelle erzeugt wurden. Diese Texte ermöglichen multimodale Analysen und eröffnen neue Forschungsfelder in der Mobilitätsforschung, dem Verhaltenstracking und der Wissensgraphenbildung.
Die Daten sind sowohl in tabellarischer als auch in RDF-Form vorliegend, was semantisches Reasoning und die Einhaltung von FAIR-Prinzipien unterstützt. Durch die offene, reproduzierbare Pipeline können Nutzer die Datensätze an ihre Bedürfnisse anpassen und damit vielfältige Anwendungen wie Mobilitätsvorhersagen, LLM-basierte Analysen oder die Entwicklung von Knowledge Graphs realisieren.
Nach Angaben der Autoren ist dies das erste Projekt, das reale Bewegungsdaten, strukturierte semantische Anreicherung, KI-generierte Texte und semantische Webkompatibilität in einem wiederverwendbaren Rahmen vereint.