Etablierung eines Datenmanagementsystems inklusive Datenstandardisierung

Das zentrale Datenmanagement fällt in den Verantwortungsbereich des Zentrums für Systembiologie. Eine einheitliche Datenspeicherung wird über ein zentrales Serversystem bestehend aus Datenbank und Webserver realisiert. Der Zugriff der Projektpartner auf die zentral gespeicherten Daten wird über eine abgesicherte Verbindung erfolgen. Das Datenmanagement umfasst die Teil-Arbeitspakete:

A.a. Standardisierung des Datenzugriffs
A.b. Standardisierung der Datenhaltung
A.c. Standardisierung der Modellierung

A.a. Standardisierung des Datenzugriffs

Für das Datenmanagement wird eine zentrale Datenbank am Center for Systems Biology of Aging eingerichtet. Der Datenzugriff erfolgt über eine gesicherte Webverbindung. Intranet Zugriff ist über https möglich, externer Zugriff nur über eine VPN-Verbindung. Es wird eine HTML-Oberfläche mit Schnittstellen zur Datenintegration, Datenauswertung und zu externen Datenbanken implementiert. Auf der HTML-Oberfläche werden Standard Operating Procedures zur Datenauswertung angeboten. Die Schnittstellen implementieren den Datenzugriff auf die Datenbank, das Aufrufen der Auswertungsprozeduren und die Formatierung der Ergebnisse. Weitere Schnittstellen implementieren einen standardisierten Zugriff auf Informationen aus externen Datenbanken (z.B. GO, KEGG, TRANSPATH, Genbank). Verknüpfungen zu Informationen aus externen Datenbanken werden in die Metainformationen der No-SQL Datenbank eingepflegt.

A.b. Standardisierung der Datenhaltung

Die Standardisierung der Datenhaltung wird über die Integration einer NoSQL- und einer SQL-Datenbank erreicht. Erfaßt werden strukturierte Daten (z.B. Patientendaten), experimentelle Rohdaten (z.B. Genexpressionsdaten), Zusatzinformationen (z.B. Labor) und Ergebnisse statistischer Auswertungen. Es wird eine gesicherte MySQL Datenbank eingerichtet. Unstrukturierte Daten (z.B. Bilddateien, ASCII Textdateien) werden in der NoSQL Datenbank CouchDB abgelegt. Die von den Projektpartnern eingereichten Daten werden in einem halb-automatischen Prozeß mit Metainformationen annotiert. Es sollen Ontologien (RDF/OWL) zur Annotation und Verknüpfung der Dateneinträge entwickelt und implementiert werden. Der Webserver wird um standardisierte Abfragen zur semantischen Suche erweitert.

A.c. Standardisierung der Modellierung

Die Modelle aus der Systembiologie werden ebenfalls mit der Datenbank abgeglichen. Die Systems Biology Markup Language (SBML) soll als gemeinsamer Standard zur Beschreibung der Modelle von den Arbeitsgruppen zur Systembiologie zum Einsatz kommen. Alle Projekte definieren und implementieren jeweils für die Datenhaltung ihrer Modellierungsansätze, in gegenseitiger Absprache, SBML-Erweiterungen und angepasste Schnittstellen zur zentralen Datenbank. Bereits implementiert wurde u.a. eine Schnittstelle zu SBML für den Import und Export von Boole'schen Netzwerken.

Beteiligte Arbeitsgruppen

Folgende Arbeitsgruppen sind an diesem Arbeitspaket beteiligt:

Hans A. Kestler (Bioinformatik & Systembiologie)
Günther Palm (Neuroinformatik)
Ulrich Stadtmüller (Stochastik)
NN Junior PI
NN Senior PI