Ob im Job oder Privatleben – das groß angelegte Sammeln und Analysieren von Daten durch maschinelles Lernen begleitet uns heutzutage auf Schritt und Tritt. Alleine in Österreich sind auf dem Smartphone im Schnitt 28 Apps installiert – die meisten davon greifen auf mit Daten gefütterte Algorithmen zurück, die unser Leben vereinfachen sollen. Und die immer komplexer und zuverlässiger werden. Doch auch bei Film- und Produkt-Recommendern, im Health-Care-Bereich und in der Smart Production setzt die Technik laufend neue Maßstäbe – um Abonnenten das perfekte Angebot bereitzustellen, Krankheiten frühzeitig zu diagnostizieren, sein tägliches Sportspektrum abzudecken oder Produktionsabläufe zu optimieren.
Einen umfassenden Überblick über bestehende Large-Scale-Datenanalysesysteme, die auf Machine-Learning-Techniken basieren, gibt Matthias Böhm in seinem neuen Buch Data Management in Machine Learning Systems, das er zusammen mit Arun Kumar von der San Diego University of California und Jun Yang von der Duke University verfasst hat.
„In unserem Buch geben wir einen umfassenden und tiefgründigen Überblick über State-of-the-Art Datamanagemet-Techniken in Machine-Learning-Systemen, die im Data-Science- und Machine-Learning-Bereich zum Einsatz kommen“, erklärt der Co-Autor, Professor und Bereichsleiter der Know-Center-Forschungsabteilung Data Management. „Wir haben eine Klassifizierung und Strukturierung von Arbeiten zu diesem Thema vorgenommen, um die grundlegenden Konzepte vorzustellen.“ Besonders interessant sei das Fachbuch für Personen, die mit bestehenden Machine-Learning-Systemen arbeiten, aber auch für solche, die neue Systeme entwickeln – für Datenwissenschaftler und Entwickler also. „Vor allem verstehen wir unser Buch als umfassendes Nachschlagewerk für bereits funktionierende Techniken, als Lektüre um verschiedene Systeme miteinander zu vergleichen“, erklärt Böhm.
Matthias Böhm (Mitte) am European Big Data Value Forum in Wien.
Matthias Böhm ist Professor an der Technischen Universität Graz, wo er einen BMVIT-Stiftungslehrstuhl für Datenmanagement innehat, dazu leitet er den neuen Know-Center-Forschungsbereich Data Management. Bevor er Ende 2018 an das Know-Center und die TU Graz kam, war er wissenschaftlicher Mitarbeiter am IBM Almaden Research Center – seine Schwerpunkte lagen in Kompilierungs- und Laufzeittechniken für deklaratives, groß angelegtes maschinelles Lernen. Böhms bisherige Forschung umfasst auch die Systemunterstützung für die Zeitreihenprognose sowie die In-Memory-Indizierung und Query-Verarbeitung. Er ist Träger des VLDB Best Paper Award 2016 und des SIGMOD Research Highlight Award 2016.
In this book, we follow this data-centric view of ML systems and aim to provide a comprehensive overview of data management in ML systems for the end-to-end data science or ML lifecycle. We review multiple interconnected lines of work: (1) ML support in database (DB) systems, (2) DB-inspired ML systems, and (3) ML lifecycle systems. Covered topics include: in-database analytics via query generation and user-defined functions, factorized and statistical-relational learning; optimizing compilers for ML workloads; execution strategies and hardware accelerators; data access methods such as compression, partitioning and indexing; resource elasticity and cloud markets; as well as systems for data preparation for ML, model selection, model management, model debugging, and model serving. Given the rapidly evolving field, we strive for a balance between an up-to-date survey of ML systems, an overview of the underlying concepts and techniques, as well as pointers to open research questions. Hence, this book might serve as a starting point for both systems researchers and developers.
Matthias Boehm, Graz University of Technology
Arun Kumar, University of California, San Diego
Jun Yang, Duke University