Big Data und Datenseen - die Zukunftswährung?

Wer sich nicht auf das Sammeln und das Erzeugen von Daten konzentriert, kann in Zukunft das Nachsehen haben. Deshalb ist es wichtig, mehr von der Materie Daten, Big Data und Digitalisierung im Allgemeinen zu verstehen.

Warum Daten sammeln?

Die Kombination von unterschiedlichen Daten und deren Auswertung kann für Unternehmen weitreichende Entscheidungsgrundlagen bieten.
Analysen über vergangene Kundenbestellverhalten können in Korrelationen zu anderen Einflussgrößen geprüft werden. Handelt es sich vielleicht um Saisonware und die Rohstoffe unterliegen volatilen Einkaufsbedingungen? Kann also vorausschauend vielleicht ein optimierter und datenbasierter Einkaufsprozess zu besseren Konditionen führen? Wann sind die Kundenanfragen eigentlich am höchsten und wann die Abschlussquoten? Gibt es neue Marktbegleiter oder gar disruptive Einflüsse am Markt, die für eine radikale Veränderung sorgen? Und wie sieht eigentlich der Ausbauprozess von Kundenbeziehung mit weiteren Produkten aus dem eigenen Hause aus?
Erst wenn über genügend Daten verfügt wird, lassen sich Hypothesen bilden und datenbasiert überprüfen. Die Schwierigkeit Daten zu filtern, herauszufinden, welche Information die richtige ist, beschreibt die größte Herausforderung.
Nicht nur kaufmännische Daten sollten gesammelt werden, auch jegliche andere Datenquelle ist in Betracht zu ziehen. Der Fantasie der Datenverwertung sollten keine Grenzen gesetzt werden. Noch wissen wir heute nicht, welche Daten wir morgen verwerten können.
Maschinenverhalten, beispielsweise Vibrationen nach einer gewissen Laufleistung, deuten vielleicht auf benötigte Wartungen hin. Es gibt sehr viele Muster, die aus der analogen Welt bekannt sind und sich digital erkennen lassen. Der Controller-Fantasie sind kaum Grenzen gesetzt, sofern die Daten verfügbar sind und harmonisieren.
Oder die Sensoren in einem Flugzeug: Wenn heute ein Flugzeug abhebt, wird bereits dem Bestimmungsort digital mitgeteilt, welche Wartungen fällig sein werden. Ohne Big Data, nicht möglich.
In Autos sind so viele Sensoren verbaut, die permanent Daten erzeugen, dass den Fahrenden der genaue Zustand des Fahrzeugs an einem Bildschirm angezeigt wird. Das kennen sicherlich die meisten Leserinnen und Leser dieses Artikels. Aus diesem Grund wird im Abschnitt ‘Big Data 9 Vs‘ der Kern dieses Themas anhand fahrender Autos vertieft. Es soll somit nachvollziehbar werden, welche Voraussetzungen, Bedeutungen und Auswirkungen Big Data hat.
Zuvor folgt noch eine theoretische Vertiefung, um relevante Begrifflichkeiten bzw. thematische Big Data Themen nachvollziehen zu können.  

Big Data und Datenseen - die Zukunftswährung?

Wie bei dem Begriff Digitalisierung gibt es auch für den Begriff Big Data keine standardisierte Norm. Eine Primärquelle, eine Urheberschaft auf diesen Ausdruck, ist ebenfalls nicht aufzufinden.

Big Data auf Deutsch

Mit Big Data werden jene Datenmengen bezeichnet, die nicht mehr mit herkömmlichen Methoden der Datenverarbeitung analysiert werden können – zumindest was die derzeitigen Möglichkeiten betrifft.
Was Zweck und Nutzen von Big Data ist, wird nun erörtert. 

Wie entsteht Big Data?

Dank der Informatisierung ist es heute möglich, dass Unmengen an Daten aus unterschiedlichen Systemen produziert werden.
Mobiltelefone, Navigationssysteme, Maschinen, etc. werden computerisiert mit programmierten Befehlen gesteuert und verwendet. Sie sind in der Lage, Informationen über den eigenen Betriebszustand und für nachstehende Systeme und Prozesse zu senden und zu empfangen und für den eigenen Betrieb zu verwerten.
Diese Funktion wird als eine Implikation der Kombinatorik bezeichnet, in der auf Basis von digitalen Schnittstellen Fremdsysteme Kommunikation betreiben. Die dabei anfallenden Datenmengen sind ein Beispiel für die sogenannte Digitalisierungsausprägung Big Data. 
Schauen wir uns das genauer anhand von Beispielen und weiteren Hintergrundinformationen an.   

Hintergründe und thematische Vertiefung

Vereinfacht erklärt, handelt es sich bei Big Data um das Aufkommen und Sammeln von Daten aus jeglichen nur vorstellbaren Quellen. Beispielsweise erzeugen Sensoren in Maschinen Daten, aber auch Mobiltelefone und deren Apps senden u.a. Standort- und Nutzerdaten. Social Media bzw. Suchmaschinenanbieter sammeln Verhaltensweisen der User und Informationen über den Zustand der verwendeten Geräte.
Stand heute produzieren etwa 20 Milliarden Systeme Daten. Immer, teilweise in Millisekunden. Um Daten zu qualifizieren, bedarf es Ordnung.
2011 veröffentlichte Gartner eine Big-Data-Definition mit drei Vs (Volume, Velocity, Variety) nach halbwegs wissenschaftlichen Kriterien. Diese Kategorisierung geriet in die Kritik, wird seitdem dennoch fortgeführt und es kommen regelmäßig neue Vs zum Big Data Modell hinzu. Auf diese gehen wir im Abschnitt Die Big Data Vs genauer ein.

Was passiert mit Daten?

Daten bleiben häufig in ihren Applikationen gefangen und werden primär nur dort verwertet (siehe Beispiel am Anfang des Artikels: Was ist eigentlich Digitalisierung?).
Nehmen wir Daten aus einer E-Mail, beispielsweise eine Kundenbestellung. Die Informationen der Bestellung müssen zur weiteren Abwicklung in ein oder mehrere EDV-Systeme übertragen werden, (sofern nicht noch mit Zettel und Stift gearbeitet wird). Es handelt sich dabei um einen Medienbruch, da Daten von dem einem Medium manuell an ein anderes übergeben werden müssen. In der Praxis sind das in der Regel ein ERP-Tool, ein Warenwirtschaftssystem oder Excel. Damit nicht genug.
Die Dokumentation des Geschäftsprozesses muss ebenfalls gewährleistet werden – Stichwort ‚keine Buchung ohne Beleg‘ – und so füllen sich entweder parallel Aktenordner oder virtuelle Ordner mit Unterlagen oder anderen Begleitbelegen des Geschäftsprozesses. Das Beispiel könnten wir endlos weiter ausschmücken. Sie können sicherlich nachvollziehen, worauf es hinausläuft: Daten, Daten, Daten.
Die benötigten Informationen sind also in Daten verwandelt worden und stecken nun in einer der ausgewählten Anwendungen fest. Sie können zunächst nur dort verarbeitet und verwertet werden. Werden weitere, vielleicht sogar die gleichen Informationen in anderen IT-Systemen benötigt und lassen diese sich nicht automatisierbar übertragen, wird das Systembruch genannt. Daten müssen per Hand von einer Datenquelle bzw. Anwendung in die andere übertragen werden.
Mit Programmierschnittstellen (Fachbegriff API - application programming interface) lässt sich Medien- und Systembrüche entgegenwirken. Daten aus Fremdsystemen können automatisiert übernommen werden und für ein unterbrechungsfreieres Arbeiten sorgen.
Das Problem dabei ist, dass die Datenmengen unüberschaubar groß werden, in sich komplex und nicht von dauerhafter Aktualität bleiben, und, wegen einer zu schwachen Struktur, nur schwer auswertbar sind, sofern mit herkömmlichen Analysewerkzeugen gearbeitet wird. Das ist auf der einen Seite die weitere Definition von Big Data und gleichzeitig der Hinweis darauf, dass, wer diese Daten beherrscht, damit Wertschöpfung in teilweise unvorstellbaren Dimensionen betreiben kann.
In diesem Zusammenhang sind die GAFA-Unternehmen das beste Beispiel dafür, wie digitale Geschäftsmodelle, basierend auf Daten- und Applikationsservices, die Erträge und Rentabilitäten beeinflussen.
GAFA steht für Google, Apple, Facebook und Amazon. Deren Hauptgeschäfte sind besagte digitale Geschäftsmodelle. Bezahlte Suchmaschinenoptimierung, App-Stores, platzierte Werbung nach Benutzerverhalten oder ein digitales Einkaufsportal haben die Gründer der GAFA-Unternehmen zu den mächtigsten Firmeninhabern der Welt gemacht. In der nachstehenden Abbildung sind die wertvollsten Unternehmen der Welt 2020 abgebildet.
Klein- und Mittelständische Unternehmen fühlen sich häufig nicht stark oder befähigt genug, einen digitalen Weg wie die GAFA-Unternehmen zu gehen. Das ist auch nicht nötig, denn diese Märkte sind ja bereits vergeben. Aber darauf zu achten, sein Unternehmen zu digitalisieren, Prozesse digitalisiert zu verschlankern und zu automatisieren und erzeugte Daten, wo auch immer erzeugt, zu sammeln, das ist auch im KMU-Umfeld zwingend erforderlich.
Mit anderen Worten: Es lohnt sich, Daten zu sammeln. Viele Daten. Oder noch drastischer: alle Daten.

Datenseen

Damit Daten weitreichend nutzbar werden, sammeln Unternehmen diese in virtuellen Datensammelbehältern, weshalb gerne von Datenseen (engl. data lakes) gesprochen wird. Hier werden alle Daten für weitere Verwendungen angereichert und stehen bspw. zur Auswertung, Verwertung oder sogar zur Vermarktung zur Verfügung. Dank des technologischen Fortschritts und der exponentiell wachsenden Rechen- bzw. Verarbeitungskapazität von Supercomputern, lassen sich mittlerweile Daten fast in Echtzeit analysieren und verwerten.
Zur Veranschaulichung: An der Börse werden Rechenleistungen in Millisekunden optimiert, da in einer Sekunde Zeit hunderttausende Transaktionen stattfinden und von Computern überwacht werden. Wer die erste Kursschwankung am Markt digital erkennt – damit sind Aktien selbstkaufender und verkaufender Programme gemeint -, ist der Gewinner bei Börsenwetten. Deshalb wird bei Big Data in der Regel auch von Big Data Analytics und Business Itelligence gesprochen.
Es geht zunächst darum, erzeugte Daten zu sammeln, um sie zum richtigen Zeitpunkt fehlerfrei verwerten zu können. Aus diesem Anlass werden die besagten Big Data Vs genutzt, um Daten nach relevanten Merkmalen zu qualifizieren.
Die meisten anfallenden Daten werden heutzutage noch nicht genutzt. Teilweise sind Daten noch nicht kompatibel, also mit anderen Datenquellen bzw. Anwendungen ohne Weiteres vergleichbar. Doch der technologische Fortschritt ermöglicht es, unterschiedliche Daten miteinander zu vernetzen und mittels Berechnungen in relevante Korrelationen zu bringen.
So ist Big Data eine relevante Grundlage für Künstliche Intelligenz. In dem Artikel Die Mär künstlicher Intelligenz gehen wir vertiefender auf das Thema ein. 

Daten(formate): – passt oder passt nicht

Datenformate beschreiben einerseits die Struktur der Daten, andererseits geben sie Auskunft über die enthaltenen Informationen des Dateiformats.
Mittels des Datentyps ist festgelegt, um welche Art der Information es sich handelt. Wenn Sie beispielsweise eine Exceldatei auf dem MP3-Player Ihres Handys abspielen wollten, erscheint eine Fehlermeldung.
Datenformate sorgen für Aufbau, Inhalt und zeitliche Abfolge eines Datensatzes. Für IT-Laien: Stellen Sie sich vor, was passiert, wenn Sie Ihr Benzinauto mit Diesel betanken. Die Motoren sind für die unterschiedlichen Kraftstoffe nicht kompatibel und gehen kaputt. Genauso ist das mit Daten in falschen Systemen. Der Unterschied: Diese lassen sich ein stückweit migrieren bzw. mit Zwischenlösungen von einem System in ein anderes übertragen.
Die Kunst, Daten zu analysieren und anderen Systemen fehlerfrei zu übergeben, liegt darin, die unterschiedlichen Datenformate nutzen, auswerten und vor allem migrieren (anpassen) zu können. Worauf es allerdings ankommt: Der Datenleser muss sich auf die Datenqualität und -relevanz verlassen können.
Das ist der Moment der Big Data 9 Vs.

Big Data 9 Vs - beispielhaft erklärt

Um eine Vorstellung von Big Data, Rechenleistungen und Datenverfügbarkeit zu erhalten, wird das Big-Data-V-Modell historisch-chronologisch und anhand autonomen Fahrens beispielhaft erläutert.
Stellen Sie sich vor, wie ein Auto vollkommen autonom, ohne die Eingriffsmöglichkeit einer im Auto befindlichen Person, durch den Schwarzwald fährt. Sensoren überwachen das Umfeld, mittels GPS ist der genaue Standort stets bekannt und eine lückenlose Hochgeschwindigkeitsinternetverbindung – gemeint ist lückenloses 5G, derzeit noch eine Utopie – sorgt für einen Datenaustausch mit anderen Verkehrsteilnehmern, Ampeln, Schildern etc. Was passiert nun?
Den ersten Wurf des Gattungsbegriffs Big Data setzte Gartner 2011 aus den drei englischen Vs für:
  • Volume (Datenvolumen => bspw. Datenmenge, Transaktionen)
  • Velocity (Datenumlaufgeschwindigkeit => bspw. zeitnahe Verarbeitung, Livestreams)
  • Variety (Datenvielfalt => bspw. strukturierte oder unstrukturierte Daten)
zusammen.
Das autonom fahrende Auto und das Umfeld erzeugen Unmengen an Daten. Volume: Während der Fahrt entscheiden Tempozonen in Abgleich mit dem Navigationssystem, den aktuellen Verkehrsdaten, der Beschaffenheit der Fahrbahn, Wettereinflüssen, Sensoren an Baustellenschildern, Marker in der Straßenmarkierung die Fahrgeschwindigkeit.
Velocity: Wichtig ist, dass die zeitliche Genauigkeit der zu verwendenden Daten stimmt. Entsprechend schnell genug sein muss die Hardware, um die Daten in Echtzeit zu berechnen. Auch die Informationen anderer Quellen müssen in Echtzeit zur Verfügung stehen. Warum?
Fahren zwei Autos mit hoher Geschwindigkeit auf eine Kreuzung zu und soll eine Kollision vermieden werden, ist die genaue Zusammenkunft der Autos zu berechnen. Jetzt spielt die Latenz der Datenübertragung eine wichtige Rolle, denn bei einer langsamen Internetverbindung könnte ein Auto bereits weiter sein als die Daten es vermuten lassen. Je vielfältiger dabei die Daten sind, Variety, desto präziser lassen sich komplexe Zusammenhänge lösen.
Buhl et al. definierten (2013)
  • Veracity (Datenglaubwürdigkeit => bspw. Verbindlichkeit)
Als viertes elementares V von Big Data bedeutet Datenglaubwürdigkeit, dass das gesamte Modell auf multidisziplinäre und evolutorische Verbindungen angewiesen ist. Fragen zu Verwertung von Daten lauten u.a., wann welche Daten relevant sind, wie sichergestellt werden kann, ob die Inhalte der verfügbaren Daten stimmen und die erforderliche Güte verifizierbar ist.
Veracity: Zurück in unsere aufeinander zufahrenden Autos. Die Datenglaubwürdigkeit ist nun essenziell, da es
a) wichtig ist zu wissen, dass es sich wirklich um ein heranfahrendes, anderes Auto handelt.
b) von Bedeutung ist, dass die Echtzeitdaten aus anderen Datenquellen stimmen, aber auch
c) bspw. die spezielle Regeln, wer wem ausweicht oder wer Vorfahrt hat, abgestimmt sind. Bereits hier ist deutlich erkennbar, welche Wucht an Datenverarbeitung Big Data bedeutet.
Als berechenbares Ergebnis argumentieren Rossa und Holland (2014) ein fünftes V, den
  • Value (Daten(mehr)wert => bspw. Wertschöpfung durch Auswertungen)
des gesamten Datenkonstrukts und begründen eine Wertschöpfung von Daten.
Value: Der Vorstellungskraft sind keine Grenzen gesetzt, welche wirtschaftlichen Nutzen sich aus der Datenverwertung bilden lassen. Die Fahrzeuge erfassen Daten der Route, Schlaglöcher oder andere Ungereimtheiten auf der Straße werden direkt den Straßenbauämtern mitgeteilt, lösen ein Wartungsticket aus. Das gleiche Stichwort, Wartung, rechnet aus, welche Tankstelle oder Werkstatt zu welchem Zeitpunkt angesteuert werden muss. Nutzer können entscheiden, ob Sie das Tracken des Fahrverhaltens ihrer Versicherung zustellen, um durch einen ökologischen und sicheren Fahrstil von Prämien zu profitieren.
Ja, das klingt einerseits utopisch und schnell lassen sich dystopische Zustände ausmalen. Doch wenn nur für einen Augenblick die Möglichkeiten der Big-Data-Seen gesehen werden, liegt es an uns, die Kapazitäten und ethischen Fragen zu stellen. Hier sei bereits erwähnt, dass die europaweite DSGVO (kurz Datenschutzverordnung) Handel mit Daten fördern statt verhindern soll. Dazu mehr in einem eigenen Artikel.
In den vergangenen Jahren kamen weitere Vs hinzu und sicherlich werden weitere folgen. Unter den V-Aufzählungen werden kurze Beispiele zum autonomen Fahren fortgeführt.
  • Visibility (Sichtbarkeit) => Daten müssen zwischen Systemen teilbar bzw. verfügbar und verwertbar sein. Sichtbarkeit ist die Voraussetzung dafür, dass Systeme untereinander Handel betreiben. Die Voraussetzung ist also, dass Hersteller bereit sind, ihre Daten zur Verfügung zu stellen und zeitgleich, dass Daten einen Eigentumsanspruch nicht verlieren.   
  • Volatility (Schwankungsbreite) => Was passiert, wenn sich Daten volatil verhalten? Im Auto könnte ein sehr einfaches Beispiel die Öltemperatur sein. Im Winter ist das Öl bei einem über Nacht draußen stehenden Auto kälter als im Sommer. Ist der Motor bzw. das Öl nach Fahrtantritt noch nicht warmgelaufen, ist die Start -Stopp-Funktion schädlich für die Langlebigkeit des Motors. Die Schwankungsbreite der Öltemperatur muss entsprechend eingeordnet werden und zu neuen systemischen Entscheidungen führen.
  • Validity (Verlässlichkeit) => Angenommen, Daten lassen einen Zweifel der Verlässlichkeit zu, so kann dies zu verheerenden Umständen führen. Jüngst fuhr ein autonom fahrendes Auto auf einer US-amerikanischen Autobahn in einen umgestürzten LKW, da das Hindernis nicht erkannt wurde.

Fazit

  • Viability (Rentabilität) => Kurzum: Big Data wird zu einer Zukunftswährung, ja, ist es sogar schon. Das Potenzial ist vielseitig. Anfallende Kundeninformationen, Maschinenverhalten, Sensorendaten, erzeugte Spuren auf Computern, im Netz, auf dem Mobiltelefon – überall – erzeugen ein Abbild des Zustands der digitalen Gegenwart. Wer es versteht, diese Daten zu nutzen, nicht als Handelsgut, sondern zur Automation ganzer Prozesse, wird die Rentabilität der eigenen Organisationseinheit steigern.

Schon gewusst?

Das größte Big Data Unternehmen in Deutschland ist übrigens das Finanzamt. Mit nur wenig Vorstellungskraft, und nach Sichtung dieses Artikels, leuchtet ein, warum Steuerbetrug (eigentlich) Geschichte von gestern sein sollte und in mittelbarer Zukunft sein wird.
Wenn Ihnen der Artikel gefallen hat, Sie mehr über das Thema wissen wollen oder an unseren Online-Seminaren teilnehmen möchten, empfehlen wir Ihnen sich für unsere Newsletter und Veranstaltungshinweise zu registrieren. 
(Letzter Stand 16. Oktober 2023, Autor: Emmanuel Beule)