Datenqualität in Nutzer-generierten Inhalten (DQNGI)

Datenqualität in Nutzer-generierten Inhalten (DQNGI)

In einer zunehmend digitalen Welt steigt die Menge an Nutzer-generierten Inhalten (NGI) – z. B. Kundenrezensionen auf Bewertungsplattformen, Artikel in Wikis oder Beiträge in sozialen Medien – sehr stark an. Da dieser Datenschatz ein enormes ökonomisches Potential birgt, haben maschinelle Lernverfahren zur Analyse der großen Mengen an unstrukturierten Daten in den vergangenen Jahren in Wissenschaft und Praxis stark an Relevanz gewonnen.

Derartige Analysen und die daraus resultierenden Ergebnisse und Entscheidungen können jedoch nur dann valide und wertstiftend sein, wenn die zugrunde gelegten Inputdaten qualitätsgesichert sind. Dennoch existieren – im Gegensatz zum Bereich der strukturierten Daten – für unstrukturierte, textuelle NGI bisher keine vergleichbaren Ansätze zur automatisierten Messung und Verbesserung der Datenqualität. Auch die zur Analyse verwendeten maschinellen Lernverfahren berücksichtigen derzeit nur sehr bedingt, dass textuelle NGI schlechte Datenqualität aufweisen können. An diesem Punkt setzt das geplante Vorhaben an und sucht nach Lösungen zur Messung der Datenqualität von NGI und zur Berücksichtigung der Datenqualität von NGI in maschinellen Lernverfahren.

Die Universität Ulm verfolgt in Kooperation mit der Universität Regensburg dabei folgende Forschungsfragen:

  1. Wie kann die DQ bei textuellen NGI automatisiert gemessen und verbessert werden?
  2. Wie lassen sich DQ-annotierte textuelle NGI bei maschinellen Lernverfahren methodisch fundiert verarbeiten?

Kooperationspartner: Universität Regensburg

Fördergeber: Deutsche Forschungsgemeinschaft (DFG)

Projektzeitraum: läuft bis 2024