Was ist Big Data?
Mittlerweile ist Big Data zum Standard geworden. In aller Munde, aber wissen alle, die darüber reden oder davon hören was es bedeutet? Grundlegend: Einfach eine riesengroße Menge an Daten. Größer als eine einfache Tabellenkalkulation fassen kann.
Big Data bedeutet am Ende nichts anderes als das groß angelegte Erheben, Speichern und Analysieren von Daten. Zugegeben etwas stark vereinfacht.
Viele weiter gehende Definitionen sind eher vorsichtig zu betrachten. Sie sind eher Bestandteile von Projekten, die sich mit Daten beschäftigen. So zum Beispiel Datenvisualisierung. Doch Visualisierung spielt auch bei anderen Vorgehensweisen ohne Big Data eine Rolle.
Was macht Big Data aus? Die Kennzeichen
Muster und Strukturen innerhalb der Daten sind der Kern, einzelne Datensätze spielen eher eine untergeordnete Rolle. Big Data besteht unter anderem aus unterschiedlichen Datentypen und unstrukturierten Daten.
Hauptsächlich lassen sie ein paar Merkmale festhalten:
Die große Datenmenge: Je mehr Daten, umso ein besseres Bild über die Wirklichkeit.
Big Data besteht zumeist aus unterschiedlichsten Datentypen und äußerst komplexen Datensätzen (Datenvarietät). Das lässt Zusammenhänge und Muster erkennen. Die Herausforderung: Daten miteinander in eine sinnvolle Beziehung zu bringen.
Die Geschwindigkeit der Datenverarbeitung: Daten stehen heute oft schon in Echtzeit zur Verfügung. Dies wird heute und in Zukunft einer der wichtigsten Wettbewerbsvorteile. Schnelligkeit gewinnt.
Daten müssen schnell veränderlich sein. Die Bedeutung von Daten verfällt zusehends. Daten müssen darum veränderlich sein bzw. immer wieder neu erhoben werden, um weiterhin relevant zu sein. Alleine Verkehrsdaten ändern sich sekündlich und das auch noch in Abhängigkeiten von Baustellen, Ferien etc.
Visualisierung ist der Wettbewerbsvorteil
Um Entscheidungen treffen zu können, müssen Daten übersichtlich und verständlich dargestellt werden. Das ist einer der zentralen Faktoren für den Erfolg von Datenprojekten und Projekten im Allgemeinen. Denn Entscheidungen werden in der Regel nicht von Datenspezialisten getroffen. Wettbewerbsvorteile entstehen dann, wenn Entscheider schnell und bestens informiert entscheiden können.
Wer braucht Big Data? Und wie gehen wir damit um?
Wer braucht welche Fähigkeiten? Wer hat welche Rolle im System? Für den Data Engineer sind nur einzelne Aspekte von Big Data wichtig. Er muss sie allerdings beherrschen, um die Daten zur Analyse zur Verfügung stehen. Sein Interesse ist die Datenqualität. Für den Data Scientist ist Big Data der Kern seiner Arbeit. Er untersucht große Datenmengen mit Methoden aus der Mathematik, Statistik und Informatik auf eine bestimmte Fragestellung hin. Das Ziel: Mit der Analyse eine Handlungsempfehlung geben zu können. Auf der Entscheiderebene des CDO wird Big Data aus einem Kosten-Nutzen-Kalkül betrachtet.
Nicht zu vergessen: Datenschutz. Projekte können von der neuen DSGVO betroffen sein. Entscheidend ist, ob ausschließlich Maschinendaten oder auch personenbezogene Daten verarbeitet werden. Mit dem Datenschutz kommt auch die Frage nach der Datensicherheit auf. Die Data Governance ist hier verantwortlich für diese Aspekte.
Warum können Datenprojekte scheitern? Die Hauptfaktoren:
Data Skills: Datenkompetenz in Unternehmen fehlt
Data Governance: Verantwortung ist nicht definiert
Data Engineering: Der technische Aufwand, der mit Big Data verbunden ist, wird unterschätzt.
Data Science: Es bestehen unrealistische Vorstellung, was mit Big Data möglich ist.
Welche Methoden, Tools und Technologien gibt es?
Supervised Machine Learning, Machine Learning, Unsupersived Machine Learning und Deep Learning zählen zu den verbreitetsten und zurzeit wichtigsten Methoden zur Analyse von Big Data. Die verwendeten Methoden hängen von der jeweiligen Fragestellung und dem Ziel des Projektes ab. Ein wichtiger technischer Lösungsansatz bei Big-Data-Projekten ist der Data Lake. Hier werden Daten aus allen möglichen Quellen und Kontexten zusammengefasst. Cloud-Lösungen können auch einen wichtigen Teilaspekt bei Big-Data-Lösungen darstellen – insbesondere, wenn es um Geschwindigkeit bei der Verfügbarkeit von Daten geht. Gerade dieser Aspekt, machte es Big Data in den Anfangsjahren sehr schwer, da die benötigten Kapazitäten nicht vorhanden oder schier nicht zu bezahlen waren. Es scheiterte auch an den nicht vorhandenen Daten, die vor einigen Jahren von den Nutzern einfach nicht vorlagen. Die „German Angst“ lässt bei immer mehr Nutzern nach, so dass man bereitwilliger Auskunft über sich gibt.
Aktuell gibt es eine Vielzahl von Big Data Lösungen, die aufgrund unterschiedlicher Anforderungen und betriebsindividuellen Voraussetzungen entstanden sind. So gibt es nicht für jedes Projekt und jede Herausforderung die eine Lösung.
Big Data längst keine Catch Phrase mehr, sondern hat sich am Markt fest etabliert, als neuer Industrie-Standard.