Verarbeitung großer Datenmengen in Ontologien mittels Abstraktion und Verfeinerung

Ontologie-basierter Datenbankzugriff (OBDZ) ist ein zunehmend populäres Paradigma im Bereich der logik-basierten Wissensrepräsentation und in Informationssystemen. Unter einer Ontologie versteht man dabei eine Kombination aus einer TBox mit anwendungsspezifischem Hintergrundwissen und einer ABox mit Fakten über Elemente der Anwendungsdomäne. Das Hintergrundwissen dient der Anreicherung und Integration der meist großen, unvollständigen und heterogenen Datenbestände mittels maschinellem Schlussfolgern. Zahlreiche Daten aus Wikipedia liegen z.B. in maschinenlesbarer Form vor und stellen, angereichert durch das Hintergrundwissen aus einer Ontologie, eine wichtige Informationsquelle für vielen Anwendungen dar. Ein typischer Ansatz zum maschinellen Schlussfolgern in diesem Kontext ist die Materialisierung, d.h. alle ableitbaren Konsequenzen werden explizit zu den Daten hinzugefügt bevor Anfragen an das System akzeptiert werden. Die Materialisierung großer ABoxen kann allerdings mehrere Stunden dauern.

Ziel des Projektes ist die Entwicklung eines neuen Ansatzes für die Materialisierung, in dem die Materialisierung nicht direkt auf den (meist großen) Eingabedaten berechnet wird, sondern auf einer kleineren Abstraktion der Daten. Für die Abstraktion definieren wir Kriterien unter denen Individuen der ABox als äquivalent betrachtet werden. Solche nicht unterscheidbaren Individuen werden dann durch ein repräsentatives Individuum in der Abstraktion dargestellt. Wenn die TBox im Vergleich zur ABox klein ist (was im OBDZ Szenario typischerweise der Fall ist), kann die Materialisierung der kleinen Abstraktion effizient im Hauptspeicher berechnet werden. Durch das Ableiten neuer Konsequenzen können bisher nicht unterscheidbare Individuen unterscheidbar werden. Um dies zu berücksichtigen, wird die initiale Abstraktion in einem iterativen Prozess bis zu einem Fixpunkt verfeinert. In dem Projekt soll analysiert werden, bis zu welcher Sprachmächtigkeit das Verfahren ausgebaut werden kann (bei Erhalt von Vollständigkeit und Korrektheit). Weiterhin soll untersucht werden, wie Parallelisierung in dem Prozess der iterativen Verfeinerung eingesetzt werden kann und wie die materialisierte Abstraktion auch für komplexere Schlussfolgerungsaufgaben verwendet werden kann.

Das Projekt unterstützt somit die effektive und effiziente Nutzung der immer größer werdenden Datenmengen indem bestehende Technologien aus dem Bereich der Datenbanken mit Ontologie-basierten Verfahren auf neue Art und Weise kombiniert werden.

Projektlaufzeit: April 2015 bis November 2018