DQMM@Wiki

Datenqualitätsmessung und -maßnahmen bei Wikis und Knowledge Graphen

Unternehmen stehen heutzutage eine Vielzahl von internen und externen Datenquellen zur Verfügung. Dabei können Organisationen, die größere Datenmengen (Stichwort „Big Data“) intensiv nutzen, um Entscheidungen zu unterstützen, und die sich als „datengetrieben“ begreifen, signifikant bessere finanzielle und operative Ergebnisse vorweisen. Vor diesem Hintergrund stellen die in Organisationen genutzten Daten eine entscheidende Ressource dar. Aktuell werden die internen und externen Daten dabei jedoch häufig in vielen voneinander getrennten „Daten-Silos“ mit unterschiedlichen Strukturierungsgraden vorgehalten. Das erschwert die Nutzung, da Mitarbeiter die situativ relevanten Daten nicht effektiv und effizient finden und auf sie zugreifen können. Zwei moderne Möglichkeiten zur Abbildung und Formalisierung von statischem und dynamischem Domänenwissen sind dabei (Enterprise) Wikis und Knowledge Graphen.

(Enterprise) Wikis können Daten, Informationen und Wissen vieler Mitarbeiter in semi-strukturierter aber vor allem auch unstrukturierter (textueller) Form zur Verfügung zu stellen. So wurde bspw. Wikipedia nach dem Start im Jahr 2001 innerhalb kurzer Zeit zu einer zentralen Datenquelle im Internet – sowohl für Organisationen als auch für einzelne Personen.

Während Wikis Daten und Informationen für Menschen leicht zugänglich und editierbar machen, sind sie aufgrund ihres semi-/unstrukturierten Formats für eine algorithmische Auswertung (Stichwörter Machine Learning und Künstliche Intelligenz) und insbesondere eine semantische Interpretation schwerer zugänglich. Konkret ist es für Algorithmen nur bedingt möglich, automatisch die semantischen Relationen der Daten und Informationen eines Wikis qualitätsgesichert zu extrahieren. Knowledge Graphen bieten hier die Möglichkeit, Daten und Informationen (z. B. aus Wikis) in Form von Attributen und Beziehungen von und zwischen Entitäten für weiterführende Dienste verfügbar zu machen und daraus neue Erkenntnisse abzuleiten.

Die Charakteristika von Wikis und Knowledge Graphen bspw. hinsichtlich Strukturierungsgrad, Vielzahl potenzieller Datenquellen und beteiligter Personen (mit meist unkontrollierten Publikations- und Nutzungsprozessen) und der schwer zugänglichen semantischen Relationen, stellen die Sicherstellung der Datenqualität vor neue Herausforderungen. Kann dabei die Datenqualität nicht gewährleistet werden, zieht dies erhebliche negative Konsequenzen nach sich, da die aus Wikis und Knowledge Graphen abgeleiteten Ergebnisse sowie darauf basierende Entscheidungen nur dann valide und wertstiftend sind, wenn die zugrundeliegenden Daten und Informationen (semantisch) korrekt, konsistent, aktuell etc. sind. Zudem werden viele Knowledge Graphen automatisiert aufgebaut (bspw. DBpedia), indem aus unstrukturierten Textdaten aus Wikis strukturierte Daten und Informationen extrahiert werden. Dies stellt einerseits eine große Chance für das Datenmanagement dar, da das in Wikis gespeicherte Wissen in der strukturierten Form eines Knowledge Graphen für Algorithmen besser nutzbar wird. Andererseits können sich Datenqualitätsprobleme der zugrundeliegenden unstrukturierten Daten in diesem Prozess auf den Knowledge Graphen direkt übertragen, oder durch Fehler während des Extraktionsprozesses neue Datenqualitätsprobleme hinzukommen.

Im Projekt „Datenqualitätsmessung und -maßnahmen bei Wikis und Knowledge Graphen (DQMM@Wiki)“ sollen daher Methoden und Metriken zur Messung sowie Maßnahmen zur Verbesserung der Datenqualität von Wikis und Knowledge Graphen entwickelt werden. Zudem sollen Ansätze zur automatisierten und qualitätsgesicherten Erstellung von Knowledge Graphen aus unstrukturierten Daten wie (Enterprise) Wikis entwickelt werden.

Kooperationspartner: xapio GmbH

Fördergeber: Staatsministerium für Wirtschaft, Landesentwicklung und Energie Bayern

Projektzeitraum: 2020 – 2023