Data Science

Modulgruppe: Informatik

Das Modul "Data Science" bietet einen Einblick in die Funktionsweise aktueller Plattformen zur skalierbaren Analyse großer Datenmengen im sogenannten "Apache Hadoop Ecosystem". Neben den theoretischen Grundlagen dieser Systeme vermittelt der Kurs den Studierenden insbesondere auch einen praxisorientierten Umgang im Programmieren von verteilten Anwendungen in MapReduce. Aktuelle Trends zur Entwicklung analytischer Anwendungen in Apache Spark mit Java und Scala als Entwicklungsumgebungen runden den Kurs ab.


Das Modul kann derzeit noch nicht angeboten werden, weil der dafür vorgesehene Modulverantwortliche nicht mehr an der Universität Ulm tätig ist.

  

Das Modulhandbuch finden Sie hier.

Der Begriff Data Science ist zu einem wichtigen Schlagwort im Umgang mit großen Datenmengen geworden. Das Modul bietet einen Einblick in die Funktionsweise verteilter Dateisysteme, wie beispielsweise das verteilte Hadoop-Dateisystem (HDFS), und vermittelt den Studierenden einen praxisorientierten Umgang im Programmieren von verteilten Anwendungen in MapReduce. Des Weiteren ermöglicht der Kurs einen Einblick in aktuelle Programmierschnittstellen (API's) und Datenmodelle im sogenannten "Apache-Hadoop Ecosystem". Die Studierenden sind in der Lage die einzelnen Komponenten eines Key-Value-Stores aufzuzählen. Vertiefende Themen zu den theoretischen Grundlagen der verteilten Datenverarbeitung, zur Modellierung von klassischen Datenbankkonzepten mittels dieser neuen Technologien und zur Verarbeitung verschiedener Dokumentformate wie beispielsweise Text- und XML-Daten, aber auch neuer Datenformate wie JSON runden den Kurs ab. Dabei wird auch auf die theoretischen Grundlagen dieser Technologien eingegangen sowie ein Einblick in die internen Aspekte dieser Systeme gewährt.

Der Kurs vermittelt den Studierenden einen detaillierten Einblick in die Funktionsweise und die theoretischen Grundlagen zur skalierbaren Analyse und verteilten Verarbeitung von großen Datenmengen (Big Data). Die Studierenden erkennen, welche Datenformate und algorithmische Ansätze der verteilten Analyse von großen Datenmengen zu Grunde liegen. Des Weiteren sind die Studierenden in der Lage, komplexe Anwendungen mittels dieser Ansätze zu realisieren. Dabei sammeln die Studenten ebenfalls praktische Erfahrung mit weiteren Werkzeugen im Bereich der sogenannten KeyValue-Stores und aktuellen NoSQL-Datenbanken wie Apache HBase, Apache HIVE, Apache SPARK und MongoDB. Der Schwerpunkt dieses Moduls liegt in der praxisorientierten Anwendung der zu Grunde liegenden Architekturen, in welcher die Studierenden anhand von wöchentlichen, aufeinander aufbauenden Programmierübungen ein komplexes Projekt in Hadoop zu implementieren erlernen.

Das Online-Studium findet im Selbststudium statt. Für das Selbststudium stehen zum einen Video-Vorlesungen bereit, die Ihnen die Modulinhalte anschaulich darlegen. Als schriftliches Material empfehlen wir das Grundlagenbuch von Kemper und Eickler mit dem Titel Datenbanksysteme, eine Einführung. In den Videos und in Begleitung durch ein E-Learning-System werden die Studierenden auf entsprechende Abschnitte des Buchs verwiesen. Der Stoff wurde in Lernabschnitte unterteilt, die durch Multiple- und Single-Choice-Fragen, Quizzes und Übungsaufgaben begleitet werden. An den Präsenzterminen werden Übungsaufgaben teilweise auch in Gruppenarbeit gelöst.

Ihr Mentor wird Ihnen in regelmäßigen Abständen Online-Sprechstunden in Form von Seminaren anbieten, die Sie bei der Bearbeitung des Lernstoffs unterstützen. Außerdem steht ein Forum für den Austausch der Studierenden untereinander bereit.

Voraussetzung ist ein erster Hochschulabschluss.

Inhaltlich: Erfahrung im Umgang mit relationalen Datenbanken (SQL) und grundlegende Programmierkenntnisse in Java sind von Vorteil.

Empfohlen wird:

  • Ein Desktop-Rechner oder ein Notebook mit einer aktuellen, d.h. vom jeweiligen Hersteller unterstützten Version von Microsoft Windows, Apple macOS oder Linux
  • Ein Headset
  • Die aktuelle Version von Mozilla Firefox, Google Chrome, Apple Safari oder Microsoft Edge
  • Internet-Zugang (z.B. über xDSL, Cable, LTE, 5G) mit mindestens 3 Mbit/s in Downstream- und 384 kbit/s in Upstream-Richtung ("DSL 3000").

Bitte zögern Sie nicht, uns bei Fragen zu den technischen Anforderungen zu kontaktieren.

Für die Zulassung zur Modulprüfung (Klausur/mündl. Prüfung) sind folgende Voraussetzungen zu erfüllen:

  • Teilnahme an mindestens 2 Präsenztagen
  • Bearbeitung von als verpflichtend angegebenen Onlineinhalten

In Härtefällen kann ein formloser Antrag auf Zulassung zur Prüfung beim Modulverantwortlichen gestellt werden.

Bei Krankheit ist dem Modulverantwortlichen ein ärztliches Attest vorzulegen.

Die regelmäßige Teilnahme an Online-Foren unterstützt Sie bei der Erarbeitung des Lernstoffs. Detaillierte Informationen entnehmen Sie bitte der Modulbeschreibung im Modulhandbuch.

Bei erfolgreichem Abschluss des Moduls erhalten Sie ein Zertifikat sowie ein Supplement, das die Inhalte des Moduls als Übersicht auflistet. Im Supplement bestätigt Ihnen der Modulverantwortliche das Äquivalent von 6 Leistungspunkten nach ECTS.

Die Studiengebühren der Module für immatrikulierte Studierende bzw. für die Belegung von Einzelmodulen im Kontaktstudium finden Sie auf der Seite zur Modulübersicht.