GraphScale Projektbeschreibung

"Welche Studien haben Wirkstoffe aus der Klasse der Neurotransmitter getestet, die die gleichen Rezeptoren wie Epinephrin aktivieren?" Die schnelle und korrekte Beantwortung solcher Fragen ist ein erfolgsentscheidender Faktor für Unternehmen, die aus einer Vielzahl von Forschungsdaten zeitnah bessere Medikamente entwickeln wollen. Auch in Unternehmen anderer agiler Branchen wird Wertschöpfung zunehmend durch wissensintensive Tätigkeiten erzeugt. Semantische Technologien stellen hier eine Schlüsseltechnologie, welche Bedeutung mit Daten assoziiert und bei Anfragen auch verborgene Wissenszusammenhänge durch automatische Schlussfolgerungsmethoden ableiten kann.

Die Standards des World Wide Web Consortiums (W3C) zur Wissensrepräsentation spielen in diesem Zusammenhang eine wichtige Rolle. Dabei wird Wissen in der Form von Tripeln dargestellt, z.B. sagt das Tripel (Adrenalin sameAs Epinephrin), dass Adrenalin ein Synonym für Epinephrin ist, da das W3C für das Schlüsselwort sameAs die Bedeutung "Synonym" festgelegt hat. Weitere derartige Modellierungskonstrukte sind z.B. subClassOf zum Festlegen von Unterklassenbeziehungen oder type zum Definieren von Instanzbeziehungen. Durch die Tripel Form bietet es sich an, das Wissen als Graph aufzufassen: Adrenalin und Epinephrin werden dabei als Knoten gesehen, die durch eine mit sameAs markierte Kante verbunden sind. Durch die standardisierte Semantik der Schlüsselworte, kann das automatische Ableiten impliziter Wissenszusammenhänge mit Hilfe eines Schlussfolgerungssystems automatisiert werden. Wissensintensive Tätigkeiten können dadurch schneller, präziser und besser nachvollziehbar erledigt werden.

In der Praxis zeigt sich jedoch, dass bekannte Speicher- und Verarbeitungsansätze Kompromisse erzwingen, wenn umfangreiche, komplexe und dynamische Daten vorliegen. Im Projekt GraphScale wird eine Technologie entwickelt, die Wissen in revisionsfähigen Graphstrukturen speichert und parallele Schlussfolgerungsalgorithmen einsetzt. Im Gegensatz zu herkömmlichen Ansätzen verspricht die Graphrepräsentation eine effizientere Speicherung sowie bessere Parallelisierbarkeit und damit performantere Schlussfolgerungsdienste.

Dazu werden Schlussfolgerungskalkülen entwickelt und optimiert, die auf Graphdatenbanken basieren. Bzgl. der Optimierungen sollen insbesondere Modularisierungs- und Graphpartitionierungsansätze in Schlussfolgerungssysteme integriert werden. Ein weiterer Aspekt ist die Adaption der üblicherweise hochoptimierten, aber hauptspeicherbasierten Schlussfolgerungsalgorithmen auf die Verwendung von Sekundärspeichern. Hierzu muss jeweils mit Teilmengen der Gesamtdaten gearbeitet werden, wobei dennoch die Vollständigkeit des Systems gewährleistet sein muss. Die entwickelten Algorithmen werden in einem Prototyp imlementiert, der die praxisorientierten Anforderungen der assoziierten Partner berücksichtigt. Der Prototyp dient im weiteren Projektverlauf zur Evaluierung der Projektergebnisse.

Projektlaufzeit: Juli 2012 bis August 2014

Das Projekt ist ein KMU innovativ Projekt mit dem Verbundpartner derivo GmbH  finanziert durch das Bundesministerium für Bildung und Forschung (BMBF).

Projektteilnehmer