Big Data Lexikon-Beitragsbild

Big Data

Letzte Änderung: Uhr

Big Data: Was ist es, wer nutzt es und warum?

Wann spricht man von Big Data?

Der Begriff Big Data stammt aus dem Englischen und heißt so viel wie “große Daten”. Damit ist der riesige Datenberg gemeint, der im Internet sowie in den Unternehmen gehortet wird. Vorerst galt Big Data als Hype. Heute ist die Bezeichnung klar definiert und umschreibt zwei folgende Aspektbereiche:

  • rasant wachsende Datenmengen
  • leistungsstarke IT-Lösungen bzw. Systeme zur Verarbeitung der Informationsflut (Stichwort Machine Learning)

Dabei machen insbesondere unstrukturierte Daten, z.B. aus Social Media, einen großen Teil der Massendaten aus. Deren Datenverarbeitung ist allerdings mit Hilfe des sog. Grid Computing – einer speziellen Form des verteilten Rechnens – möglich.

Was kann man mit Big Data machen?

In der heutigen digitalen Welt wollen Verbraucher ihre Wünsche möglichst schnell erfüllt bekommen. Daher kommt es bei Online-Geschäftsprozessen mehr als je darauf an, dass sie in einem sehr hohen Tempo verlaufen. Letzteres ist Dank der raschen Generierung und Speicherung der Big Data möglich. Diese ermöglichen Unternehmen eine gezielte Ansprache der Zielgruppen.

Insofern setzt man in beinahe allen Branchen auf die “großen Daten”, um Trends schneller zu erkennen und diesbezügliche Neuerungen vorzunehmen. Allerdings sind die damit verbundenen endlosen Chancen auch mit gewissen Herausforderungen bei der Verwaltung und Nutzung verbunden.

Anwendungsbereiche von Big Data

Der Begriff beschreibt den Prozess, mit dem man Big Data zur Generierung von Vorteilen für eine Organisation aufnimmt, analysiert und anwendet. Damit ist es möglich, Chancen und Herausforderungen darzustellen, vorherzusagen und so den Erfolg genauer zu planen.

Dank Big Data lassen sich Unternehmensprozesse optimieren. Dabei unterstützten sie bei der Analyse von Interaktionen, Mustern und Anomalien eines Markts oder einer Branche.

Mithilfe “großer Daten” können Unternehmen effektiv Kosten senken. Denn sie helfen bei der exakten Bestimmung, wohin die Ressourcen hinfließen und in welchen Bereichen sie besser aufgehoben wären.

Ist Big Data eine Technologie?

In der Tat gibt es eine Vielzahl von Big Data Technologien. Und zwar so viele, dass es schwer fällt, den Überblick zu behalten. Dennoch kann man diese auf eine Handvoll relevanter Technologien reduzieren. Dazu gehören u.a. Apache Hadoop, Apache Spark, Apache Kafka und Apache Cassandra. Diese wollen wir uns nachfolgend ein bisschen genauer ansehen.

Der “Grundstein” Apache Hadoop

Prinzipiell bildet Apache Hadoop so etwas wie den Grundstein der Big Data Technologie. In Java geschrieben, lässt sich das System einfach skalieren und eignet sich bestens für große Datenmengen. Das Herzstück des Systems bildet Googles MapReduce-Algorithmus, mit welchem die parallele Datenverarbeitung auf massiven Clustern möglich ist.

Das “verbesserte” Apache Spark

Im Jahr 2012 eingeführt, bügelt Apache Spark die Nachteile des Hadoop MapReduce-Algorithmus aus. Anders als Letzterer, verarbeitet Spark die Datenmengen im Arbeitsspeicher. Damit ist es in der Berechnung viel leistungsfähiger.

Verteilte Datenverarbeitung durch Apache Kafka

Apache Kafka wurde von LinkedIn entwickelt. Seine Funktionsweise ist anders als die von Hadoop und Spark. Dies bedeutet, der Fokus liegt vor allem auf der verteilten Verarbeitung von Datenströmen. Dabei wird ein API zum Laden und Exportieren Letzterer für anderer Systeme bereitgestellt.

Apache Cassandra für Riesen-Datensätze

Hierbei handelt es sich um ein verteiltes Datenbanksystem, das insbesondere für riesige Datensätze ausgelegt ist. Zu den Stärken dieses spaltenorientierten Systems gehören vor allem Robustheit sowie die gute Skalierbarkeit. Außerdem spielt das Konzept der Schlüssel-Wert-Relation eine große Rolle, da es zu schnellen Abfragegeschwindigkeiten führt.

 

Erklär-Video – Was sind Big Data?

Quellen: bigdata-insider.de, talend.com, datasolut.com

[/av_one_full]