Data Science – Potenziale & Herausforderungen

Maximilian Ulrich & Catherine Laflamme gaben bei einem Vortrag in Wattens einen ersten Einblick in das Thema Data Science. Im Interview beantworten die beiden nochmal die wichtigsten Punkte:

Die beiden Vortragenden in der Werkstätte Wattens

1. Data Science ist ein inzwischen sehr gängiger Begriff. Was genau versteht man unter der Begrifflichkeit?

Unter Data Science versteht man generell die Extraktion von Wissen aus Daten. Data Science ist ein interdisziplinäres Thema, das Wissen aus drei Fachbereichen integriert: Mathematik, Informatik und die sogenannte „Domain Expertise“.
„Domain Expertise“ bezeichnet das Wissen bezüglich jenes thematischen Bereichs in dem die zu lösende Fragestellung angesiedelt ist. Die Nutzung des vorhandenen Wissens aus jedem der drei Fachbereiche ist essentiell für den Erfolg von Data Science Projekten.

2. Künstliche Intelligenz, Machine Learning, Big Data – das sind nur einige Wörter, die derzeit in aller Munde sind. Im Vortrag habt ihr eine kurze Abgrenzung vorgenommen, um das Verständnis zu schärfen. Könnt ihr die Begriffe nochmals kurz erklären?

Künstliche Intelligenz ist ein Teilgebiet der Informatik, welches sich mit der Automatisierung intelligenten Verhaltens und dem Maschinellen Lernen befasst.
Künstliche Intelligenz bezeichnet den Versuch, Entscheidungsstrukturen des Menschen maschinell nachzubilden.

Machine Learning ist ein Teilgebiet der Künstlichen Intelligenz und bezeichnet Verfahren, welche anhand von Beispielen lernen und nicht explizit programmiert werden müssen, um Entscheidungen zu treffen.

„Big Data“ bezeichnet Daten, welche sich durch ihre Ausprägung im Hinblick auf die Eigenschaften Volume, Variety, Velocity (Menge, Vielfalt, Geschwindigkeit) von klassischen Daten unterscheiden, d.h. Grenzwerte bzgl. der Menge an Daten, der Vielfalt von Datenformaten und der Geschwindigkeit der Datengenerierung werden überschritten.

Eine pragmatischere Definition von „Big Data“ beruht auf der Annahme, dass es sich um „Big Data“ handelt, wenn es nicht mehr möglich ist Daten mit „State of the Art“-Tools, sowie auf Standardhardware (PC/Laptop/Server) zu verarbeiten.

3. Zum Thema Big Data: Je mehr Daten, desto besser mein Data Science Projekt. Vertretet ihr diese Meinung oder kommt es auf andere Faktoren an, um ein Projekt erfolgreich umzusetzen?

Eine umfangreiche Datenbasis ist für ein Data Science Projekt primär nicht von Nachteil, aber viel wichtiger ist aus unserer Sicht die Qualität der Daten, sowie die Eignung der Daten bzgl. der zu beantwortenden Fragestellung. Die Information zur Beantwortung einer Fragestellung muss in den zur Verfügung stehenden Daten vorhanden sein! Zu bedenken gilt auch, dass die Qualität der zur Verfügung stehenden Daten im Allgemeinen auch eine direkte Auswirkung auf das Projektergebnis hat.

4. Wie sieht ein Data Science Projekt aus und welche Schritte sind von Beginn bis zum Abschluss des Projekts erforderlich?

Wir folgen generell dem CRISP-DM-Prozess bei der Durchführung von Data Science Projekten. CRSIP-DM steht für „Cross-Industry Standard Process for Data Mining“ und beschreibt einen iterativen Prozess aus sechs Phasen, der es erleichtert die Potentiale eines Projekts optimal zu nützen und Risiken zu minimieren.

Die sechs Phasen des CRISP-DM-Prozesses sind:
Geschäftsverständnis – Definition einer zu lösenden Fragestellung
Datenverständnis – Verstehen der zur Verfügung stehenden Daten
Datenaufbereitung – Konstruktion des finalen Datensatzes für die Modellierung
Modellierung – Erstellung einer Vorhersage oder Visualisierung
Evaluierung – Validierung der Vorhersage oder Visualisierung
Implementierung – Rollout der Vorhersage oder Visualisierung

5. Welcher der Schritte ist eurer Erfahrung nach jener, der am meisten Aufmerksamkeit & Arbeit erfordert?

Unsere Erfahrung zeigt, viel Aufmerksamkeit und Arbeit steckt in den Phasen Datenverständnis und Datenaufbereitung. Die passenden Daten zur Fragestellung in einer ausreichenden Qualität und Menge zu finden und aufzubereiten kann mehr Aufwand bedeuten als zunächst angenommen. Diese Zeit ist aber gut investiert, da eine gute Datenbasis die besten Chancen auf ein erfolgreiches Data Science Projekt bietet.

6. Wo seht ihr in Data Science Projekten die größten Herausforderungen bzw. wo passieren üblicherweise Fehler, welche sich negativ auf Projekte auswirken?

Die größte Herausforderung ist die Verfügbarkeit von qualitativ hochwertigen Daten und ein üblicher Fehler ist das Überschätzen der Datenqualität und das Unterschätzen der Auswirkung schlechter Datenqualität auf die Projektergebnisse.

Daten müssen bewusst gepflegt werden, um eine hochwertige Qualität zu gewährleisten und wertvolle Ergebnisse zu ermöglichen.

Eine weitere Herausforderung bezieht sich auf den interdisziplinären Charakter von Data Science Projekten. Es ist notwendig, alle relevanten Akteure in Projekte zu integrieren, um Projektergebnisse realisieren zu können die nachhaltig zum Erfolg einer Unternehmung beitragen.

7. Fraunhofer Austria ist seit 2016 in der Werkstätte Wattens angesiedelt. Erzählt kurz, was ihr bei uns macht und mit welchen Industrien ihr hauptsächlich zusammenarbeitet.

Das Fraunhofer Innovationszentrum »Digitale Transformation der Industrie« ist eine Niederlassung der Fraunhofer Austria Research GmbH und damit Teil der größten Forschungsorganisation für anwendungsorientierte Forschung in Europa. Am Standort Wattens fokussieren wir uns branchenoffen auf das Thema „Data Science“, wo wir sowohl Auftragsforschung/Industrieprojekte, als auch öffentlich geförderte Forschung betreiben. Wir kooperieren auch eng mit Tiroler Institutionen wie z.B. der Standortagentur Tirol im Bereich Wissenstransfer (Data Science Workshops) und der Universität Innsbruck im Bereich der Forschung.