Seminar Applied Data Science: Replication & Extension

Repliziere Top-Paper. Baue Erweiterungen. Arbeite reproduzierbar.

In diesem Seminar reproduzieren Sie eine veröffentlichte empirische Studie (Code & Daten), prüfen diese auf Robustheit und entwickeln eine eigene sinnvolle Erweiterung – mit sauberem Research-Workflow und einem Ergebnis, das Sie vorzeigen können. Sie lernen, wie Sie KI in Ihren Arbeitsprozess sinnvoll einbauen und dokumentieren können. Weiterhin arbeiten Sie in kleinen Teams zu aktuellen Themen. 

  • Portfolio-Output: Replication Package + GitHub-Repo + Präsentation der Ergebnisse

  • Research Skills: Robustness Checks, saubere Dokumentation, reproduzierbare Analysen

  • Praxisnah & betreut: strukturierte Meilensteine und Feedback

Worum geht es in diesem Seminar?

Reproduzierbarkeit ist ein Kernprinzip guter Wissenschaft – und gleichzeitig eine der größten praktischen Hürden in datengetriebener Forschung. Im Seminar arbeiten Sie forschungsnah: Sie reproduzieren zentrale Ergebnisse einer veröffentlichten Studie, testen deren Robustheit und entwickeln eine eigene Erweiterung des Papers (z. B. neue Daten, neue Spezifikation oder methodische Verbesserung). Am Ende steht ein vollständiges, nachvollziehbares Replication Package. 

Anmeldung (zentral): Bitte melden Sie sich über das Seminarmatchingtool im Zeitraum 26.–29.01.2026 an: Link zum Tool
Tipp: Setzen Sie eine hohe Präferenzgewichtung, wenn Sie sicher teilnehmen möchten.

Was Sie am Ende wirklich können

Nach dem Seminar können Sie nicht nur „Analysen ausführen“, sondern Forschung prüfen, verbessern und reproduzierbar dokumentieren

Reproduzieren & Debuggen

Fremden Code ausführen, Abweichungen finden, Entscheidungen sauber dokumentieren.

Robustness Checks

Spezifikationen, Subsamples und Sensitivität systematisch testen – inkl. Plausibilitätschecks.

Erweiterungen entwickeln

Neue Daten/Zeiträume/Länder ergänzen oder eine methodische Verbesserung umsetzen.

Systematischer Workflow

Strukturierte Projekte, Versionierung mit Git/GitHub, reproduzierbare Reports (Quarto/R Markdown).

Kommunikation

Ergebnisse verständlich visualisieren, interpretieren und überzeugend präsentieren.

Saubere Forschungspraxis

Transparent arbeiten: nachvollziehbare Entscheidungen, klare Dokumentation, respektvolle Diskussion.

Ihr Output am Ende (zum Vorzeigen):

  • ein sauberes GitHub-Repository (Code, Dokumentation, Reproduzierbarkeit)

  • ein vollständiges Replication Package (lauffähig, nachvollziehbar)

  • eine Präsentation inkl. Diskussion der Robustheit und Ihrer Extension

Ablauf & Meilensteine

Das Seminar ist in fünf Phasen organisiert. Jede Phase endet mit einem klaren Meilenstein, damit Sie kontinuierlich Fortschritte machen.

  1. Anmeldung (zentral)

    Bitte melden Sie sich im Seminarmatchingtool für das Seminar an (26. - 29.01.2026): Link zum Tool

  2. Kick-off & Paper-Matching am 20.02.2026
    Tool-Setup (GitHub/Quarto), Erwartungsmanagement, Themen- & Paper-Auswahl → Hier eine Liste möglicher Paper

  3. Reproduktion (Baseline) bis Mitte Mai 2026
    Reproduktion der Hauptergebnisse, Dokumentation von Abweichungen, Klärung fehlender Details.

  4. Robustness + Erweiterung bis Mitte Juni 2026
    Systematische Robustheitschecks und Entwicklung einer eigenen Erweiterung (Daten oder Methode).

  5. Finalisierung & Präsentation Mitte/Ende Juni 2026
    Replikation und Erweiterung vorstellen und diskutieren.

Sie arbeiten in diesem Seminar in kleinen Teams mit klaren Fragestellungen und kurzen Feedback-Schleifen.

Wichtig: Die Anwesenheit beim Kick-off und der Präsentation der Ergebnisse ist unbedingt erforderlich!

Welche Projektarten sind möglich?

Sie wählen ein Forschungspapier und definieren früh, welche Art von Erweiterung Sie umsetzen wollen.

Eine Übersicht mit Vorschlägen von möglichen Forschungspapieren finden Sie in dieser Liste. Sie können auch selbst ein Forschungspapier auswählen:

Robustness Replication

Alternative Spezifikationen, Placebos, Sensitivität, Subsamples

Datenerweiterung

Neue Datenquelle, neuer Zeitraum, anderes Land / andere Gruppe

Methodische Erweiterung

Verbesserte Identifikation, zusätzliche Kontrollen, alternative Modelle

Tools & Workflow

In diesem Seminar arbeiten Sie mit aktuellen Tools und im Team  – wie es in Forschungsteams und Data-Science-Jobs üblich ist.

  • Primär R, Python optional (für Teilaufgaben/Extensions)

  • Git/GitHub (Versionierung, Teamarbeit, Nachvollziehbarkeit)

  • Quarto / R Markdown (reproduzierbare Reports)

  • Docker & GitHub Actions (reproduzierbare Umgebungen, automatisierte Runs)

  • LLM/Coding Assistants (als Werkzeug – nicht als Blackbox)

Prüfungsleistung & Bewertung

Die Bewertung folgt dem, was im Seminar zählt: nachvollziehbare Ergebnisse, saubere Reproduktion und klare Kommunikation.

Bewertung:

  • 40% Replication Package
    (Kurzer Bericht: ca. 3-4 Seiten + Code/Output + Reproduzierbarkeit )

  • 50% Präsentation
    (20 Minuten + Q&A)

  • 10% Mitarbeit & Kollaboration
    (Peer-Feedback, konstruktive Diskussion)

Wichtig ist nicht „perfekt“, sondern transparent: Was hat funktioniert? Wo gab es Abweichungen? Welche Entscheidungen wurden getroffen?

Voraussetzungen – für wen passt das?

Erforderlich:

  • Solide R (oder Python) Kenntnisse (Datenaufbereitung, Regressionen/Modelle, Visualisierung)

  • Grundverständnis empirischer Forschung (Interpretation von Schätzungen)

  • Bereitschaft, mit Git/GitHub zu arbeiten (Basics reichen)

Empfohlen:

  • Quarto/R Markdown oder ähnliche Report-Workflows

  • Interesse an Kausalinferenz / Panel / DiD (je nach Paper)

✅ Sie sind richtig, wenn Sie schon eigenständig kleine Analysen in R/Python umsetzen können.

⚠️ Wenn Sie R gerade erst lernen: bitte zuerst einen Grundlagenkurs/Projektkurs belegen.

FAQs

In diesem Seminar werden Sie in kleinen Teams (meistens zu zweit) arbeiten. Teamarbeit ist realistisch und hilft, Code, Methoden und Schreiben zu trennen.

Nein. Viele Extensions nutzen zusätzliche Datenquellen, aber sie sind nicht zwingend nötig. Entscheidend ist, dass Ihr Projekt eine klare, prüfbare Erweiterung liefert.

Das ist Teil des Lernziels: Sie lernen, wie man fehlende Details identifiziert, Entscheidungen dokumentiert und trotzdem transparent zu einem reproduzierbaren Ergebnis kommt.

Primär arbeiten wir in R. Python ist für Teilaufgaben/Extensions möglich, wenn der Workflow reproduzierbar dokumentiert ist.