Daten aus der Forschung effektiver teilen

Forschung

24.7.2020
Lesezeit: 3 Min.

Bund und Länder wollen Forschungsdaten einfacher zugänglich machen. Das Ziel: der Aufbau einer nationalen Forschungsdateninfrastruktur. Jetzt wurden neun Konsortien ausgewählt, die solche Strukturen für verschiedene Forschungsbereiche entwickeln. Die Technische Universität München (TUM) bringt ihre Expertise auf dem Gebiet Data Science ein und ist an drei Konsortien beteiligt. Diese befassen sich mit Daten aus den Ingenieurwissenschaften, der Katalyse- und der Genomforschung.

Der Höchstleistungsrechner Super MUC am Leibniz Rechenzentrum (LRZ) in Garching. — Der Höchstleistungsrechner Super MUC-NG am Leibniz-Rechenzentrum (LRZ) in Garching. Solche Computer sind mittlerweile unverzichtbare Werkzeuge für die Spitzenforschung. Gemeinsam mit der TUM und den anderen Projektpartnern wirkt das LRZ daran mit, eine nationale Forschungsdateninfrastruktur zu entwickeln.

GHGA

Genomsequenzierungen produzieren immense Datenmengen. Im Deutschen Humangenom-Phänom Archiv (GHGA) sollen diese für die Wissenschaft verfügbar gemacht werden, ohne Persönlichkeitsrechte von Patientinnen und Patienten zu verletzen. Der Schwerpunkt des GHGA liegt zunächst auf Datensammlungen zu Krebs und seltenen genetische Erkrankungen. Deutschlandweit entstehen mehrere Knotenpunkte, über die Forschende auf Datensätze zugreifen können. Das Teilarchiv, das unter Regie der TUM am Leibniz-Rechenzentrum (LRZ) aufgebaut wird, könnte beispielsweise Zugriff auf pseudonymisierte Datensets bayerischer Forscherinnen und Forscher zu seltenen genetischen Erkrankungen gewähren. Federführend für das Projekt an der TUM sind Julien Gagneur, Professor für Computational Molecular Medicine, Juliane Winkelmann, Professorin für Neurogenetik, und Thomas Meitinger, Professor für Humangenetik. Die Wissenschaftlerinnen und Wissenschaftler werden sich in ihrem Projektteil unter anderem den besonderen Herausforderungen widmen, die Datenbanken zu seltenen genetischen Erkrankungen mit sich bringen. Verschiedene Datensätze vergleichbar zu machen, stellt bei diesen Erkrankungen eine besondere technische Herausforderung dar. Außerdem werden sie das Interface entwickeln, mit dem Nutzerinnen und Nutzer die Daten ausgeben können.

NFDI4Cat

Bislang gibt es kein einheitliches Format, in dem Versuchsdaten aus der Forschung zu katalytischen Prozessen zugänglich gemacht werden können. Das Konsortium NFDI4Cat will einen solchen Standard schaffen. Die Mitglieder entwickeln dazu eine Informationsstruktur, mit der Daten aus teilweise sehr unterschiedlich arbeitenden Feldern Heterogene und Homogene Katalyse, aber auch Photo-, Bio- und Elektrokatalyse einheitlich und miteinander verknüpfbar erfasst werden können. Die Datensätze müssen einerseits möglichst detailliert sein, um Informationsverlust zu vermeiden, andererseits dürfen sie aber für die Untersuchung der Datenstruktur nicht zu groß werden. Ziel dieses Projekts ist es nicht nur, Versuchsabläufe nachvollziehbar zu machen, sondern auch durch das Verknüpfen von Datensätzen aus ganz unterschiedlichen Forschungsbereichen mittels Machine Learning Vorhersagen zu katalytischen Prozessen zu erlauben. Johannes Lercher, Professor für Technische Chemie II an der TUM, arbeitet gemeinsam mit Kollegen an dem Teilprojekt „Heterogene Katalyse“ und entwickelt seinem Team unter anderem Vorschläge, welche Daten zur Kinetik der beteiligten Stoffe für dieses Forschungsfeld erfasst werden müssen. In Kooperation mit den anderen Bereichen wird das geeignetste einheitliche Format gesucht, und die besten Lösungen, um Forscherinnen und Forschern deutschlandweit Zugriff auf diese Daten zu ermöglichen.

NFDI4ING

Auch in den Ingenieurwissenschaften entstehen große Mengen an Forschungsdaten. Durch die Vielfalt der Themen ist auch das Format dieser Daten sehr unterschiedlich. Ziel des Konsortiums NFDI4ING ist es, ein effektives Datenmanagement zu etablieren, um eine weitergehende Nutzung der Daten auch für Machine-Learning-Anwendungen zu ermöglichen. Zudem werden dadurch ingenieurwissenschaftliche Forschungsergebnisse transparenter und besser nachvollziehbar. Zu diesem Zweck wurden zunächst verschiedene Archetypen von Daten identifiziert, Klassen von Forschungsdaten, die bestimmte Eigenschaften und besondere Herausforderungen bei ihrer Verarbeitung teilen. Christian Stemmer, Professor am Lehrstuhl für Aerodynamik und Strömungsmechanik der TUM, ist im Lenkungskreis vertreten und Sprecher des Teilbereichs „high-performance measurement and computation“. Dieser Archetyp beschäftigt sich mit sehr großen Datenmengen. Diese werden entweder auf Supercomputern errechnet oder durch hochauflösende Experimente gemessen und können nur auf Großrechenanlagen verarbeitet werden. In den kommenden Jahren wollen Stemmer und sein Team unter anderem daran arbeiten, wie Forschende Zugang zu diesen oftmals sehr großen Datensätzen bekommen können. Dabei sollen Werkzeuge entstehen, mit denen Ergebnisse aufgerufen werden können, ohne die Rechenzentren, in denen sie gespeichert sind, in die Knie zu zwingen. Ein weiteres Arbeitsgebiet der Wissenschaftlerinnen und Wissenschaftler ist, aussagekräftige Metadaten zu definieren, anhand derer die Datensätze gefunden und wiederverwertet werden können.

Weitere Informationen und Links