Konzeption eines Testvorgehens für Hadoop Systeme

Universität Ulm

BA Abschlussvortrag, Uzun Merve, Ort: O27/5202, Datum: 12.07.2017, Zeit: 10:15 Uhr

Das kleine aber sinnmäßig große Wort „Big Data“ ist in den Unternehmen von zentraler Bedeutung. Dabei werden für die Definition und für die Problemerfassung drei wesentliche Begriffe: Volume (Größe der Daten), Velocity (Geschwindigkeit der Daten) und Variety (Vielfalt der Daten) erläutert. Durch diese drei Begriffe soll verdeutlicht werden, dass unter dem Begriff Big Data, die schnellstmögliche Speicherung und Verarbeitung der rasant wachsenden Datenvielfalt, verstanden wird. Um den Umgang mit enorm anwachsender Datenmenge und Datenvielfalt zu erleichtern, wird meistens das Hadoop Framework verwendet. Hadoop verteilt die Arbeit auf die Server im Cluster mit den zugehörigen Daten und führt diese dann dort aus. Die Teilergebnisse werden erst nach der Ausführung wieder zusammengeführt, wodurch die Geschwindigkeit der Datenverarbeitung deutlich steigt. Im Daimler TSS besteht bereits ein solches System. Das Unternehmen Daimler TSS, als IT Service Leister, beschäftigt sich sowohl mit der Implementierung eines Programmcodes, als auch mit der Qualitätssicherung. Die Qualitätssicherung wird auf dem bestehenden Hadoop System durchgeführt. Dabei enthält das bestehende System administrative Rechteverwaltung, um dadurch das System vor Missbrauch zu schützen. Dies hat jedoch für die Qualitätssicherung einen Nachteil, denn es kann kein Plattformtest durchgeführt werden. Schließlich können die Analyseergebnisse eines Anwendungstests sowohl auf die Plattform, als auch auf die Anwendung zurückgeführt werden. Um dies zu beseitigen wird in der vorliegenden Arbeit eine Hadoop Sandbox installiert. Die Hadoop Sandbox ist eine virtuelle Hadoop Umgebung, in der die Hauptbestandteile und einige Erweiterungen von Hadoop beinhaltet sind. Diese kann ggf. getestet werden, da keine strenge administrative Rechte vorliegen. Zusammengefasst ist das Ziel der vorliegenden Bachelorarbeit, eine Vorgehensweise zu entwickeln, mit der die Korrektheit einer Big Data Anwendung auf Hadoop möglichst einfach und effizient nachgewiesen werden kann. Für den Aufbau des kleinen Systems wird hierbei die Hadoop Sandbox vollzogen.