Big Data ermöglicht weltweite Bakterien-Analyse

Forschung

6.10.2016

Wenn biologische Proben genommen werden von Haut, Darm oder Boden, kommen die daraus sequenzierten Daten in ein Archiv. Dadurch können Forscher weltweit darauf zugreifen. Allerdings sind inzwischen immens große Datenmengen entstanden. Um diese Daten nutzen und analysieren zu können, werden neue Auswertungsmethoden notwendig. Wissenschaftler an der Technischen Universität München (TUM) haben ein bioinformatisches Tool entwickelt, mit dem sie sämtliche Bakteriensequenzen in diesen Datenbanken in kurzer Zeit nach Ähnlichkeiten oder Vorkommen durchsuchen können.

Im Sequenz Read Archive, das ist eine öffentliche bioinformatische Datenbank fürs Archivieren von Sequenzen, sind inzwischen über 100.000 Sequenzen als Datensätze zusammen gekommen, die in ihrer Gesamtheit bisher nicht auswertbar sind. (Foto: Fotolia/ Dreaming Andy)

Mikrobielle Gemeinschaften nehmen in Ökosystemen weltweit eine Schlüsselposition ein. Sie spielen bei essentiellen biologischen Funktionen vom Kohlenstoff- über den Stickstoffkreislauf in der Umwelt bis hin zur Regulation von Immun- und Stoffwechselprozessen in tierischen oder menschlichen Körpern eine wichtige Rolle. Sie eingehender zu erforschen, ist daher das Ziel vieler Wissenschaftler.

Sequenzierung für mikrobiologische DNA-Analyse

Zunächst war etwa 30 Jahre lang fürs Entziffern des DNA-Codes von Mikroben die 1975 entwickelte Sanger-Sequenzierung vorherrschend. Mit dieser Methode konnte die Abfolge der Bausteine auf der DNA aufgeklärt werden – das läutete die Ära der Genomforschung ein. Inzwischen haben die sogenannten Next Generation Sequencing-Technologien (NGS) zu einer weiteren Revolution geführt: Die aktuellen Geräte können mit geringem personellem Aufwand innerhalb von 24 Stunden so viele Daten erzeugen wie zuvor hundert Durchläufe der ersten DNA-Sequenzierungsmethode.

Die Sequenzanalyse bakterieller 16S-rRNA-Gene ist heutzutage die häufigste unter den Identifikationsmethoden von Bakterien. Die 16S-rRNA-Gene gelten als ideale molekulare Marker für die Rekonstruktion von Verwandtschaftsgraden unter Organismen, weil an ihnen die gesamte Entwicklungsgeschichte eines Organismus abgelesen werden kann. Die Abkürzung rRNA steht für ribosomale Ribonukleinsäure.

Im Sequenz Read Archive (SRA), eine öffentliche bioinformatische Datenbank fürs Archivieren von Sequenzen, sind inzwischen über 100.000 solcher 16S-rRNA–Sequenzen als Datensätze zusammen gekommen. Denn die neuen technischen Verfahren der DNA-Sequenzierung haben den Umfang und die Komplexität genomischer Forschungsdaten in den vergangenen Jahren explosionsartig anwachsen lassen. Im SRA schlummern Datensätze, die in ihrer Gesamtheit bisher nicht auswertbar sind.

„Über all die Jahre wurden aber nicht nur Sequenzen von humanen Umgebungen wie Darm oder Haut genommen, sondern ebenso vom Boden oder aus dem Ozean“, erklärt Dr. Thomas Clavel vom Zentralinstitut für Ernährungs- und Lebensmittelforschung (ZIEL) an der TU München. „Wir haben jetzt ein Tool geschaffen, womit sich diese Datenbanken in relativ kurzer Zeit durchsuchen lassen, um Verwandtschaften unter Bakterien zu erkennen“, sagt Clavel – „ein Wissenschaftler kann damit binnen einiger Stunden eine Abfrage durchführen, um zu überprüfen, in welcher Art von Proben wie etwa Boden- oder Darmproben das ihn interessierende Bakterium noch zu finden ist – beispielweise ein pathogener Erreger aus dem Krankenhaus. Diese Querverbindungen auszulesen war bisher nicht möglich.“ Die neue Plattform heißt Integrated Microbial Next Generation Sequencing (IMNGS) und ist über www.imngs.org allgemein zugänglich.

Wie IMGS funktioniert, wird am Beispiel des Darmbakteriums Acetatifactor muris in der aktuellen Onlineausgabe von „Scientific Reports“ detailliert beschrieben. Registrierte Nutzer können Abfragen tätigen gefiltert nach der Herkunft ihrer Bakteriendaten oder auch ganze Sequenzen herunterladen.

Bald könnten solche bioinformatischen Sequenzierungen aus der täglichen klinischen Routinediagnostik nicht mehr wegzudenken sein. Ein kritischer Punkt ist dabei aber, dass die vielen Unterarten der mikrobiologischen Gemeinschaften beschrieben werden müssen, da sie nicht ganz so leicht identifiziert und nummeriert werden können. „Das wird die große Herausforderung sein“, sagt Clavel – „die Qualität der Daten ist noch nicht gut genug, die Beschreibungen der einzelnen Proben in der Datenbank sind unvollständig und somit die Vergleichsmöglichkeiten per IMNGS derzeit noch eingeschränkt.“

Wissenschaftler Clavel kann sich aber vorstellen, dass eine Kooperation mit Kliniken ein Beschleuniger sein könnte, sofern die Datenbank akribischer befüllt werde. „Dann können wir auf Basis sehr gut gepflegter Datenbanken mit innovativen Tools wie IMNGS chronische Erkrankungen schneller diagnostizieren“, sagt Clavel.

Publikation:

Ilias Lagkouvardos, Divya Joseph, Martin Kapfhammer, Sabahattin Giritli, Matthias Horn, Dirk Haller and Thomas Clavel: IMNGS: A comprehensive open resource of processed 16S rRNA microbial profiles for ecology and diversity studies, Scientific Reports 2016. DOI: 10.1038/srep33721.
www.nature.com/articles/srep33721

Kontakt:

Dr. habil. Thomas Clavel
Technische Universität München
ZIEL – Institute for Food and Health
Core Facility NGS/Microbiome
Tel: +49 81 61 71 55 34
E-Mail: thomas.clavelspam prevention@tum.de

Technische Universität München

Corporate Communications Center