Research Fokus
Integrierte Datenanalyse-Pipelines
Wir bauen eine offene und erweiterbare Systeminfrastruktur für komplexe integrierte Datenanalyse-Pipelines auf. Damit verbinden wir Datenmanagement, Machine–Learning–Pipelines (Feature Engineering, ML-Modelltraining, Debugging und Scoring) sowie High-Performance-Computing. Ziel ist es, die Hardware-Nutzung zu optimieren, um diese Infrastruktur in verwandten unternehmensübergreifenden Projekten für Bereiche wie Energie und Produktion einzusetzen.
Automatische Datenreorganisation
Unser Ziel ist es, die zunehmende Redundanz in komplexen Data-Science-Arbeitsabläufen zu reduzieren. Dabei werden Bausteine für die Datenaufbereitung und Data Cleaning, Datenanreicherung, Feature-Engineering und die Optimierung von Hyperparametern und Modelltraining verbunden. Unser Schwerpunkt liegt auf der automatischen Datenreorganisation durch Komprimierung, Caching und feinkörnige, lineagebasierte Wiederverwendung.
Data Engineering
Wir vereinfachen das Data Engineering durch eine neue Hierarchie primitiver Datentypen bei Datenvorbereitung und Data Cleaning für verschiedene Anwender (Machine Learning- Expert:innen, Data Scientists, Domänenexpert:innen) und schaffen dabei nicht nur effiziente und skalierbare Ausführungsprozesse für diese neuen Datenprimitive, sondern auch die Basis für bessere Entscheidungen durch Analytics in Unternehmen und Gesellschaft.