Wie würdest du einem Kind den Begriff „Knowledge Discovery“ erklären?
Es geht darum, Wissen aus Daten abzuleiten. Dieses Wissen muss nützlich sein und neu, d.h. etwas, was davor noch nicht bekannt war. Es wird überall gebraucht, wo Daten existieren. Beispielsweise in der Medizin, um Diagnosen zu verbessern, in der Industrie, um Produktionsprozesse effizienter zu machen, oder um Muster in Daten zu erkennen, wie zum Beispiel das Einkaufsverhalten von Menschen.
Mit welchen Forschungsfragen beschäftigst du dich aktuell?
Ich beschäftige mich mit NLP, also Natural Language Processing, und der Analyse von textuellen Daten. Dabei interessiert mich aktuell die Frage der Kausalität. Daten an sich sagen nichts über kausale Zusammenhänge aus, man sieht nur Korrelationen. Für Vorhersagen ist das oft ausreichend, aber nicht, wenn man auf Basis der Daten Entscheidungen treffen will. Es geht darum, die richtigen Kausalitäten zu erkennen und Daten intelligent zu verknüpfen, damit sie erfolgsbringend für Unternehmen sind.
Kannst du das etwas konkreter erklären?
In der täglichen Arbeit geht es bei Data Science um ganz spezifische Fragestellungen. Ein Kunde stellt zum Beispiel fest, dass es Qualitätsabweichungen bei seinem Produkt gibt, und möchte wissen, welche Ursachen dafür ausschlaggebend sind. Im Industrie-Kontext sind die Ergebnisse von Berechnungen aber häufig schwierig zu beurteilen – dafür braucht man Fachwissen. Wenn wir etwa mit Bankdaten arbeiten, benötigen wir Hintergrundwissen zu den Abläufen, zum Beispiel welche Transaktionen im Fall einer Kreditkartenfälschung auftreten. Die Kausalität hilft uns zu erkennen, welche zusätzlichen Informationen wir benötigen, und wir können beim Kunden ganz gezielt dieses Domänenwissen abfragen. Das ermöglicht uns, nicht nur Vorhersagen zu machen, sondern besser abzuschätzen, welche Auswirkungen Entscheidungen haben.
BIAS
Menschen treffen ganz viele Annahmen, ohne darüber nachzudenken. Davor ist auch die Wissenschaft nicht gefeit. Der Charme mit der Maschine zu arbeiten liegt darin, dass die Maschine besser als Menschen in der Lage ist, auf Basis von expliziten Grundannahmen Wahrscheinlichkeiten abzuschätzen.
Weak AI
Menschen haben Angst, dass Künstliche Intelligenz ihre Arbeit ersetzen wird bzw. schlauer als der Mensch wird. Es geht aber darum, sie bei ihrer Arbeit zu unterstützen, indem KI große Datenmengen bearbeitet und Muster darin erkennt. Die Vorhersagen sind immer nur so gut, wie die Daten sind. Man spricht hier von „weak AI“.
Und worum geht es beim Thema NLP?
Die Menge an von Menschen geschriebenem Text nimmt immer mehr zu. Diese Texte sind unstrukturiert oder maximal semi-strukturiert, d.h. für die Maschine nicht direkt verwendbar. Wir müssen sie vorverarbeiten und extrahieren, das ist viel Aufwand. Mich interessieren hier auch grundlegende Fragen. In meiner Doktorarbeit habe ich untersucht, ob es möglich ist, einen Autor direkt anhand des Schreibstils zu erkennen. Menschen können das erstaunlich schlecht. Das wäre zum Beispiel in der Forensik hilfreich, um Erpresserbriefe einzuordnen, oder in der Medizin, um psychologische Zustände zu erkennen. Noch sind die Methoden nicht gut genug, um Texte einzelnen Personen zuzuordnen. Es funktioniert aber schon ganz gut mit aggregierten Daten von vielen Personen. Beispielsweise könnte man über Facebook-Posts das Alter der Personen aufgrund ihres Schreibstils bestimmen.
Was fasziniert dich an deinem Themengebiet?
In meinem Bereich arbeiten zu dürfen, ist genial. Der technische Fortschritt in den letzten Jahren ist enorm. Wir sind in einer Art Sturm und Drang Zeit, wo viel ausprobiert wird, aber das Verständnis teilweise noch nicht da ist. Oft funktioniert ein Algorithmus hervorragend, wir wissen aber nicht, wieso er so gut funktioniert. Deswegen benötigen wir Explainable AI, also erklärbare künstliche Intelligenz, damit Anwender verstehen, wie die KI eines Programms funktioniert und wie erzielte Resultate zu werten sind.
Mit welcher Haltung gehst du an Forschungsfragen heran?
Ich arbeite immer an Lösungen, völlig unabhängig von der Technologie. Dem Kunden ist es letztlich egal, ob es ein 100-Layer Deep Learning Algorithmus ist oder welche Technologie genau verwendet wurde. Ihn interessiert, dass sein Problem gelöst wird. Auch der Schutz von Privatsphäre und Datenschutz ist nicht nur ein Marketingslogan des Know-Centers. Zumindest was meine persönliche Privatsphäre anbelangt, denn auf meinem Handy ist weder Google, Microsoft noch Apple installiert (lacht). Worauf ich eigentlich hinaus will, wir haben in Österreich eine sehr kleinteilige Wirtschaft und Lieferketten werden zunehmend digitalisiert. Produkte werden entlang der Lieferkette digital begleitet. Da geht es um die Frage, wie sehen diese digitalen Artefakte aus? Welche unternehmensinternen oder vertraulichen Informationen werden offengelegt? Man benötigt entsprechende Technologien, um solche Daten zu schützen.
Hast du einen Leitgedanken, der dich begleitet?
„Versuch nicht, unter Druck ein Problem zu lösen.“ Ich habe immer jede Menge Ideen – was nicht heißt, dass sie auch gut sind – aber es reduziert den Stress, wenn man sich darauf verlassen kann, dass einem immer etwas einfällt. Studierende machen sich oft selber einen enormen Druck, das hemmt die Kreativität. In der Forschung arbeitet man häufig an Problemen, für die es (noch) keine Lösung gibt. Das ist so ziemlich die Definition von Forschung.
Würdest du deinen Studierenden empfehlen, eine Forschungslaufbahn einzuschlagen?
Eine gute Frage. Den guten Studierenden würde ich empfehlen, ans Know-Center zu gehen (lacht). Ich meine das durchaus ernst – eine Forschungseinrichtung wie das Know-Center hat den Vorteil, dass man Einblicke sowohl in die Forschung als auch die Industrie gewinnt. Durch die COMET-Projekte, die wir abwickeln, bekommt man mit wie eine große Firma oder ein Start-up funktioniert. Das ist für jemanden, der sich nicht entscheiden kann, sehr hilfreich.