Datenqualität in User-Generated Content (DQUGC)

Datenqualität in User-Generated Content (DQUGC)

Textuelle nutzergenerierte Inhalte (User-Generated Content, UGC) wie bspw. Kundenrezensionen, Wiki-Beiträge oder Social-Media-Posts bilden heute eine zentrale Grundlage für datengetriebene Anwendungen. Spätestens mit dem breiten Einsatz generativer KI-Systeme wie ChatGPT und anderer Large Language Models ist deutlich geworden, wie stark die Leistungsfähigkeit moderner KI von der Qualität textueller Daten abhängt. Unzureichende Datenqualität kann dabei nicht nur die Güte von Analyseergebnissen beeinträchtigen, sondern auch zu Verzerrungen, Instabilität und schwer nachvollziehbaren Entscheidungen führen.

Das von der Deutschen Forschungsgemeinschaft (DFG) geförderte Projekt DQUGC ist ein Folgeprojekt des Vorhabens DQNGI und wird im Rahmen eines DFG-Fortsetzungsantrags durchgeführt. Im Vorgängerprojekt wurde mit einer Veröffentlichung in MIS Quarterly ein zentraler konzeptioneller Beitrag zur Messung von Datenqualität geleistet: Erstmals wurde gezeigt, wie Ereignisse (Events) als Ursachen von Datenqualitätsproblemen explizit modelliert und über charakteristische Muster in den Daten identifiziert werden können. Am Beispiel von Duplikaten wurde ein ereignisgetriebener Ansatz entwickelt, der Datenqualität nicht rein syntaktisch, sondern über event-spezifische Datenmuster probabilistisch messbar macht.

DQUGC greift diesen Event-basierten Ansatz gezielt auf und entwickelt ihn weiter. Ziel des Projekts ist es, das Konzept der ereignisgetriebenen Datenqualitätsmessung auf weitere Arten textueller Daten sowie auf zusätzliche Datenqualitätsdimensionen jenseits von Duplikaten auszurollen. DQUGC zielt dabei verstärkt auf unstrukturierte, textuelle Inhalte, wie sie in UGC und Trainingsdaten moderner KI-Systeme vorliegen.

Ein zentraler Schwerpunkt liegt darauf zu untersuchen, wie sich Event-Bezüge und daraus abgeleitete Datenqualitätsinformationen systematisch in maschinelle Lernverfahren integrieren lassen. Dies umfasst unter anderem die Nutzung von Qualitätsinformationen zur Gewichtung, Auswahl oder Vorverarbeitung von Trainingsdaten sowie zur Interpretation von Modellergebnissen. Damit adressiert das Projekt grundlegende Herausforderungen aktueller GenAI-Systeme.

Die in DQUGC entwickelten Ansätze sind sowohl für die wissenschaftliche Forschung im Bereich Datenqualität, Textanalyse und maschinelles Lernen relevant als auch für Praxispartner interessant, die große Mengen textueller Daten oder KI-basierte Systeme einsetzen. Gleichzeitig bietet das Projekt Studierenden die Möglichkeit, sich im Rahmen von Abschlussarbeiten und Forschungsprojekten mit aktuellen Fragestellungen an der Schnittstelle von Datenqualität, Events und moderner KI auseinanderzusetzen.

Die Universität Ulm verfolgt in Kooperation mit der Universität Regensburg dabei folgende Forschungsfragen:

  1. Wie lässt sich Datenqualität in textuellen nutzergenerierten Inhalten ereignisgetrieben automatisiert messen und verbessern?
  2. Wie lassen sich Datenqualitätsinformationen methodisch fundiert in maschinelle Lernverfahren und GenAI-Modelle integrieren?

Kooperationspartner: Universität Regensburg

Fördergeber: Deutsche Forschungsgemeinschaft (DFG)

Projektzeitraum: bis 2027