Big Data
Letzte Änderung: Uhr
Big Data: Was ist es, wer nutzt es und warum?
Wann spricht man von Big Data?
Der Begriff Big Data stammt aus dem Englischen und heißt so viel wie “große Daten”. Damit ist der riesige Datenberg gemeint, der im Internet sowie in den Unternehmen gehortet wird. Vorerst galt Big Data als Hype. Heute ist die Bezeichnung klar definiert und umschreibt zwei folgende Aspektbereiche:
- rasant wachsende Datenmengen
- leistungsstarke IT-Lösungen bzw. Systeme zur Verarbeitung der Informationsflut (Stichwort Machine Learning)
Dabei machen insbesondere unstrukturierte Daten, z.B. aus Social Media, einen großen Teil der Massendaten aus. Deren Datenverarbeitung ist allerdings mit Hilfe des sog. Grid Computing – einer speziellen Form des verteilten Rechnens – möglich.
Was kann man mit Big Data machen?
In der heutigen digitalen Welt wollen Verbraucher ihre Wünsche möglichst schnell erfüllt bekommen. Daher kommt es bei Online-Geschäftsprozessen mehr als je darauf an, dass sie in einem sehr hohen Tempo verlaufen. Letzteres ist Dank der raschen Generierung und Speicherung der Big Data möglich. Diese ermöglichen Unternehmen eine gezielte Ansprache der Zielgruppen.
Insofern setzt man in beinahe allen Branchen auf die “großen Daten”, um Trends schneller zu erkennen und diesbezügliche Neuerungen vorzunehmen. Allerdings sind die damit verbundenen endlosen Chancen auch mit gewissen Herausforderungen bei der Verwaltung und Nutzung verbunden.
Anwendungsbereiche von Big Data
Business Intelligence
Der Begriff beschreibt den Prozess, mit dem man Big Data zur Generierung von Vorteilen für eine Organisation aufnimmt, analysiert und anwendet. Damit ist es möglich, Chancen und Herausforderungen darzustellen, vorherzusagen und so den Erfolg genauer zu planen.
Innovation
Dank Big Data lassen sich Unternehmensprozesse optimieren. Dabei unterstützten sie bei der Analyse von Interaktionen, Mustern und Anomalien eines Markts oder einer Branche.
Ressourcen-Planung
Mithilfe “großer Daten” können Unternehmen effektiv Kosten senken. Denn sie helfen bei der exakten Bestimmung, wohin die Ressourcen hinfließen und in welchen Bereichen sie besser aufgehoben wären.
Ist Big Data eine Technologie?
In der Tat gibt es eine Vielzahl von Big Data Technologien. Und zwar so viele, dass es schwer fällt, den Überblick zu behalten. Dennoch kann man diese auf eine Handvoll relevanter Technologien reduzieren. Dazu gehören u.a. Apache Hadoop, Apache Spark, Apache Kafka und Apache Cassandra. Diese wollen wir uns nachfolgend ein bisschen genauer ansehen.
Apache Hadoop
Der “Grundstein” Apache Hadoop
Prinzipiell bildet Apache Hadoop so etwas wie den Grundstein der Big Data Technologie. In Java geschrieben, lässt sich das System einfach skalieren und eignet sich bestens für große Datenmengen. Das Herzstück des Systems bildet Googles MapReduce-Algorithmus, mit welchem die parallele Datenverarbeitung auf massiven Clustern möglich ist.
Apache Spark
Das “verbesserte” Apache Spark
Im Jahr 2012 eingeführt, bügelt Apache Spark die Nachteile des Hadoop MapReduce-Algorithmus aus. Anders als Letzterer, verarbeitet Spark die Datenmengen im Arbeitsspeicher. Damit ist es in der Berechnung viel leistungsfähiger.
Apache Kafka
Verteilte Datenverarbeitung durch Apache Kafka
Apache Kafka wurde von LinkedIn entwickelt. Seine Funktionsweise ist anders als die von Hadoop und Spark. Dies bedeutet, der Fokus liegt vor allem auf der verteilten Verarbeitung von Datenströmen. Dabei wird ein API zum Laden und Exportieren Letzterer für anderer Systeme bereitgestellt.
Apache Cassandra
Apache Cassandra für Riesen-Datensätze
Hierbei handelt es sich um ein verteiltes Datenbanksystem, das insbesondere für riesige Datensätze ausgelegt ist. Zu den Stärken dieses spaltenorientierten Systems gehören vor allem Robustheit sowie die gute Skalierbarkeit. Außerdem spielt das Konzept der Schlüssel-Wert-Relation eine große Rolle, da es zu schnellen Abfragegeschwindigkeiten führt.
Erklär-Video – Was sind Big Data?
Quellen: bigdata-insider.de, talend.com, datasolut.com
[/av_one_full]