Data Science

Modulgruppe: Informatik

Das Modul "Data Science" bietet einen Einblick in die Funktionsweise aktueller Plattformen zur skalierbaren Analyse großer Datenmengen im sogenannten "Apache Hadoop Ecosystem". Neben den theoretischen Grundlagen dieser Systeme vermittelt der Kurs den Studierenden insbesondere auch einen praxisorientierten Umgang im Programmieren von verteilten Anwendungen in MapReduce. Aktuelle Trends zur Entwicklung analytischer Anwendungen in Apache Spark mit Java und Scala als Entwicklungsumgebungen runden den Kurs ab.


Das Modul kann derzeit noch nicht angeboten werden, weil der dafür vorgesehene Modulverantwortliche nicht mehr an der Universität Ulm tätig ist.

  

Modulhandbuch

Das Modulhandbuch finden Sie hier.

Inhalte des Moduls

Der Begriff Data Science ist zu einem wichtigen Schlagwort im Umgang mit großen Datenmengen geworden. Das Modul bietet einen Einblick in die Funktionsweise verteilter Dateisysteme, wie beispielsweise das verteilte Hadoop-Dateisystem (HDFS), und vermittelt den Studierenden einen praxisorientierten Umgang im Programmieren von verteilten Anwendungen in MapReduce. Des Weiteren ermöglicht der Kurs einen Einblick in aktuelle Programmierschnittstellen (API's) und Datenmodelle im sogenannten "Apache-Hadoop Ecosystem". Die Studierenden sind in der Lage die einzelnen Komponenten eines Key-Value-Stores aufzuzählen. Vertiefende Themen zu den theoretischen Grundlagen der verteilten Datenverarbeitung, zur Modellierung von klassischen Datenbankkonzepten mittels dieser neuen Technologien und zur Verarbeitung verschiedener Dokumentformate wie beispielsweise Text- und XML-Daten, aber auch neuer Datenformate wie JSON runden den Kurs ab. Dabei wird auch auf die theoretischen Grundlagen dieser Technologien eingegangen sowie ein Einblick in die internen Aspekte dieser Systeme gewährt.

Lernziele

Der Kurs vermittelt den Studierenden einen detaillierten Einblick in die Funktionsweise und die theoretischen Grundlagen zur skalierbaren Analyse und verteilten Verarbeitung von großen Datenmengen (Big Data). Die Studierenden erkennen, welche Datenformate und algorithmische Ansätze der verteilten Analyse von großen Datenmengen zu Grunde liegen. Des Weiteren sind die Studierenden in der Lage, komplexe Anwendungen mittels dieser Ansätze zu realisieren. Dabei sammeln die Studenten ebenfalls praktische Erfahrung mit weiteren Werkzeugen im Bereich der sogenannten KeyValue-Stores und aktuellen NoSQL-Datenbanken wie Apache HBase, Apache HIVE, Apache SPARK und MongoDB. Der Schwerpunkt dieses Moduls liegt in der praxisorientierten Anwendung der zu Grunde liegenden Architekturen, in welcher die Studierenden anhand von wöchentlichen, aufeinander aufbauenden Programmierübungen ein komplexes Projekt in Hadoop zu implementieren erlernen.

Lernsetting

Das Online-Studium findet im Selbststudium statt. Für das Selbststudium stehen zum einen Video-Vorlesungen bereit, die Ihnen die Modulinhalte anschaulich darlegen. Als schriftliches Material empfehlen wir das Grundlagenbuch von Kemper und Eickler mit dem Titel Datenbanksysteme, eine Einführung. In den Videos und in Begleitung durch ein E-Learning-System werden die Studierenden auf entsprechende Abschnitte des Buchs verwiesen. Der Stoff wurde in Lernabschnitte unterteilt, die durch Multiple- und Single-Choice-Fragen, Quizzes und Übungsaufgaben begleitet werden. An den Präsenzterminen werden Übungsaufgaben teilweise auch in Gruppenarbeit gelöst.

Ihr Mentor wird Ihnen in regelmäßigen Abständen Online-Sprechstunden in Form von Seminaren anbieten, die Sie bei der Bearbeitung des Lernstoffs unterstützen. Außerdem steht ein Forum für den Austausch der Studierenden untereinander bereit.

Voraussetzungen

Erfahrung im Umgang mit relationalen Datenbanken (SQL) und grundlegende Programmierkenntnisse in Java sind von Vorteil.

Technische Voraussetzungen für die E-Learning-Lerneinheiten

Mindestens erforderlich sind:

  • Ein auf Windows 7 oder neuer, Linux oder OS X 10.9 basierender Desktop-Rechner oder Notebook
  • Aktuelle Version von Mozilla Firefox, Google Chrome, Safari oder Internet Explorer (11 oder neuer)
  • Aktuelle Version des Adobe Flash Plugin im Browser (lediglich für Online-Sprechstunde bzw. Online-Webinar benötigt)
  • Internet-Zugang via xDSL, Cable, LTE oder besser mit mindestens 2 Mbit/s in Downstream- und 192 kbit/s in Upstream-Richtung ("DSL 2000")

Empfohlen wird:

  • Ein auf Windows 7 oder neuer, Linux oder OS X 10.9 basierender Desktop-Rechner oder Notebook, Dual-Core oder mehr, 2 GHz oder mehr
  • Aktuelle Version von Mozilla Firefox, Google Chrome, Safari, IE 11 (oder neuer)
  • Aktuelle Version des Adobe Flash Plugin im Browser (lediglich für Online-Sprechstunde bzw. Online-Webinar benötigt)
  • Internet-Zugang via xDSL, Cable, LTE oder besser mit mindestens 6 Mbit/s in Downstream- und 576 kbit/s in Upstream-Richtung ("DSL 6000")

Leistungsnachweise

Für die Zulassung zur Modulprüfung (Klausur/mündl. Prüfung) sind folgende Voraussetzungen zu erfüllen:

  • Teilnahme an mindestens 2 Präsenztagen
  • Bearbeitung von als verpflichtend angegebenen Onlineinhalten

In Härtefällen kann ein formloser Antrag auf Zulassung zur Prüfung beim Modulverantwortlichen gestellt werden.

Bei Krankheit ist dem Modulverantwortlichen ein ärztliches Attest vorzulegen.

Die regelmäßige Teilnahme an Online-Foren unterstützt Sie bei der Erarbeitung des Lernstoffs. Detaillierte Informationen entnehmen Sie bitte der Modulbeschreibung im Modulhandbuch.

Zertifizierung

Bei erfolgreichem Abschluss des Moduls erhalten Sie ein Zertifikat sowie ein Supplement, das die Inhalte des Moduls als Übersicht auflistet. Im Supplement bestätigt Ihnen der Modulverantwortliche das Äquivalent von 6 Leistungspunkten nach ECTS.

Gebühren und Entgelte

Die Studiengebühren der Module für immatrikulierte Studierende bzw. die Teilnahmeentgelte für die Belegung von Einzelmodulen im Kontaktstudium finden Sie auf der Seite zur Modulübersicht.

    Gefördert von: