Künstliche Intelligenz entschlüsselt genetische Codes

Mit Hilfe künstlicher Intelligenz (KI) ist es einem deutsch-amerikanischen Wissenschaftsteam gelungen, komplexe Anweisungen der Genregulation in der DNA zu entschlüsseln. Sie trainierten ihr neuronales Netzwerk mit hochauflösenden Protein-DNA-Bindungsdaten. Mit Hilfe von Modellinterpretationstechniken gelang es ihnen, die relevanten DNA-Sequenzmuster aufzudecken. Die Ergebnisse liefern ein tieferes Verständnis dafür, wie DNA Sequenzen organisiert sind, um Gene zu regulieren.

Algorithmen für künstliche Intelligenz sind äußerst leistungsfähig, um umfangreiche und komplexe Datensätze zu erschließen. Wie die Maschine zu bestimmten Vorhersagen kommt, wenn eine bestimmte Eingabe präsentiert wird, ist jedoch nicht einfach zu verstehen. Da nachvollziehbare Interpretationen in der medizinischen Diagnostik wichtig sind, steht dieses Black-Box-Verhalten der KI einer breiten Akzeptanz entgegen und schränkt ihre Nützlichkeit in Naturwissenschaften ein, in denen das Verständnis von Mechanismen das Ziel ist.

Ein interdisziplinäres Forschungsteam aus Biologie und Informatik der Technischen Universität München, des Stowers Institute for Medical Research und der Stanford University hat nun gezeigt, dass die Anwendung neuronaler Netze, wie sie zur Gesichtserkennung verwendet werden, zusammen mit neu entwickelten Techniken zur Modellinterpretation verwendet werden kann, um komplexe Anweisungen zu entschlüsseln, die in der DNA kodiert sind.

Eines der großen ungelösten Probleme in der Biologie ist der zweite Code des Genoms, der regulatorische Code. Denn die Abfolge der DNA-Basen beinhaltet nicht nur die Anweisungen zum Aufbau von Proteinen, sondern auch wann und wo diese Proteine in einem Organismus hergestellt werden.

Der regulatorische Code wird von Proteinen gelesen, die Transkriptionsfaktoren genannt werden und an kurze DNA-Abschnitte binden, die als Motive bezeichnet werden. Wie bestimmte Kombinationen und Anordnungen von Motiven die regulatorische Aktivität beeinflussen, ist jedoch ein äußerst komplexes Problem, das bisher nicht lösbar war.

DNA-Bindungsexperimente und Computermodellierung gehen Hand in Hand

Ein wichtiger Schlüssel zum Erfolg war es, Transkriptionsfaktor-DNA-Bindungsexperimente und Computermodellierungen mit der höchstmöglichen Auflösung durchzuführen, also auf der Ebene einzelner DNA-Basen. Die hohe Auflösung ermöglichte es dem Team, nicht nur hochpräzise neuronalen Netzwerkmodelle zu trainieren, sondern auch die Schlüsselelemente und Muster aus den Modellen zu extrahieren, einschließlich der Bindungsmotive für Transkriptionsfaktoren und der kombinatorischen Regeln, nach denen sie zusammen als Code fungieren.

„Neuronale Netze gelten als schwer durchschaubare Black Box, sie können aber digital befragt werden. Mit einer großen Zahl virtueller Experimente gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt hat,“ sagt Erstautor Dr. Žiga Avsec, Mitarbeiter im Labor von Julien Gagneur, Professor für Computational Molecular Medicince an der TU München. Zusammen mit Anshul Kundaje, Professor an der Stanford University, schuf er die erste Version des Modells, als er Stanford als Gastwissenschaftler besuchte.

Das Team wandte den Ansatz auf die Hauptregulatoren embryonaler Stammzellen der Maus an und bestätigte die Ergebnisse durch CRISPR-Genom-Edition experimentell. Die entdeckten Muster zeigten klare Regeln, die unter anderem auf eine präzise Positionierung entlang der DNA-Doppelhelix hinwiesen und eine bevorzugte Reihenfolge der Transkriptionsfaktoren beinhalten.

„Das war äußerst befriedigend,“ sagt Projektleiterin Julia Zeitlinger, Forscherin am Stowers Institute und Professorin am Medical Center der University of Kansas, „da die Ergebnisse hervorragend zu den vorhandenen experimentellen Ergebnissen passen, aber auch neue, überraschende Erkenntnisse enthüllen.“

Ein Muster wird sichtbar: Wie Nanog an die DNA bindet

Zum Beispiel fand das Forschungsteam heraus, dass ein gut untersuchter Transkriptionsfaktor namens Nanog bevorzugt an DNA bindet, wenn mehrere seiner Motive periodisch angeordnet sind, so dass sie auf derselben Seite der spiralförmigen DNA-Helix erscheinen.

„Es gibt eine Menge experimenteller Hinweise, dass eine solche Motivperiodizität im Regulierungscode manchmal vorkommt,“ sagt Zeitlinger. „Die genauen Umstände waren jedoch bisher schwer zu erfassen. Es war daher eine Überraschung, dass Nanog ein solches Muster zeigt, insbesondere da wir nicht speziell nach diesem Muster gesucht haben. “

„Dies ist der Hauptvorteil der Verwendung neuronaler Netze für diese Aufgabe. Ein klassisches Rechenmodell basiert auf handgefertigten, starren Regeln, um sicherzustellen, dass es interpretiert werden kann “, sagt Avsec. „Die Biologie ist jedoch äußerst reich und kompliziert. Indem wir darauf verzichten, einzelne Parameter zu interpretieren, können wir viel flexiblere und vielschichtigere Modelle trainieren, die alle biologischen Phänomene erfassen, einschließlich der noch unbekannten.“

Ein leistungsstarker Bottom-up Ansatz

Dieses neuronale Netzmodell, Base Pair Network genannt, oder kurz BPNet, ist ein leistungsstarker Bottom-up-Ansatz, der der Gesichtserkennung in Bildern ähnelt. Das neuronale Netzwerk erkennt zuerst Kanten in den Pixeln, dann lernt es, wie Kanten Gesichtselemente wie Auge, Nase oder Mund formen, und schließlich, wie Gesichtselemente zusammen ein Gesicht bilden.

Anstatt aus Pixeln zu lernen, lernt BPNet aus der DNA-Sequenz. Es lernt zuerst Motive zu erkennen und dann die kombinatorischen Regeln, nach denen die Elemente zusammen die Bindungsdaten vorhersagen.

Die Arbeitsgruppen von Julia Zeitlinger und Anshul Kundaje verwenden BPNet bereits, um Bindungsmotive für andere Zelltypen zuverlässig zu identifizieren, Motive mit biophysikalischen Eigenschaften in Verbindung zu bringen und andere strukturelle Merkmale im Genom zu analysieren. Damit andere Wissenschaftler BPNet verwenden und an ihre eigenen Bedürfnisse anpassen können, haben die Forscher die gesamte Software mit Dokumentation und Tutorials zur Verfügung gestellt.

„Diese Arbeit ist eine technologische Tour de Force,“ sagt Julien Gagneur. „Sie kombiniert Deep-Learning-Modellierung genomweiter Daten in höchster Auflösung mit neuentwickelten erklärbaren KI-Techniken, mit denen interpretiert werden kann, was die „Black Box“ gelernt hat. Die Methodik wird der biologischen Forschung helfen, die vollständige regulatorische Grammatik zu studieren.“

Publikationen:

Base-resolution models of transcription factor binding reveal soft motif syntax
Žiga Avsec, Melanie Weilert, Avanti Shrikumar, Sabrina Krueger, Amr Alexandari, Khyati Dalal, Robin Fropf, Charles McAnany, Julien Gagneur, Anshul Kundaje, and Julia Zeitlinger
nature genetics, Feb. 18, 2021 – DOI: 10.1038/s41588-021-00782-6

Mehr Informationen:

Diese Arbeit wurde vom Stowers Institute for Medical Research und dem National Human Genome Research Institute sowie dem National Institute of General Medical Sciences der National Institutes of Health (NIH) unterstützt. Zusätzliche Unterstützung erhielten das Bundesministerium für Bildung und Forschung sowie ein Stanford BioX-Stipendium und ein internationales Studentenforschungsstipendium des Howard Hughes Medical Institute.

Die Gensequenzierung wurde am Stowers Institute for Medical Research und am Genomics Core des Medical Center der Universität Kansas durchgeführt, unterstützt durch die NIH-Förderung des Nationalen Instituts für Kindergesundheit und menschliche Entwicklung und des Nationalen Instituts für allgemeine medizinische Wissenschaften der USA.

Bild mit hoher Auflösung

Wissen