Deep Learning in der Naturwissenschaft

Ein KI-System soll auf der Grundlage bekannter Wirkstoffe Kandidaten für neue Medikamente vorschlagen. Damit ziehen neue Konzepte des Maschinenlernen jetzt auch in die naturwissenschaftliche Forschung ein.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • Tom Simonite
Inhaltsverzeichnis

Was kommt heraus, wenn man Aspirin mit Ibuprofen kreuzt? So genau weiß das Alán Aspuru-Guzik, Chemie-Professor an der Harvard University zwar auch nicht. Aber er hat Software darauf trainiert, ihm das zu verraten: Sie schlägt eine Molekularstruktur vor, die Eigenschaften der beiden Medikamente vereint.

Auf diese Weise könnte das Programm für Deep Learning die Suche nach neuen medizinischen Wirkstoffen beschleunigen. In der Pharmaforschung wird intensiv mit Software gearbeitet, die riesige Pools von Kandidaten durchforstet. Dazu nutzt sie von Chemikern geschriebene Regeln oder Simulationen, die nützliche Molekularstrukturen identifizieren oder voraussagen sollen. Bei den Regeln aber müssen Menschen enge Vorgaben machen, und Simulationen sind durch ihre Genauigkeit und die verfügbare Rechenleistung eingeschränkt.

Aspuru-Guziks System Künstlicher Intelligenz dagegen soll Strukturen stärker unabhängig von Menschen entwerfen und trotzdem ohne aufwendige Simulationen auskommen. Dabei nutzt es seine eigene Erfahrung, entwickelt über Maschinenlern-Algorithmen und Daten zu hunderttausenden Molekülen, die als Wirkstoff geeignet sind.

"Das System erkundet stärker intuitiv und nutzt dabei gelerntes Wissen über Chemie, genau wie es ein Chemiker machen würde“, sagt Aspuru-Guzik. "Mit derartiger Software als Assistenten könnten Menschen bessere Chemiker werden." Aspuru-Guzik gehörte im Jahr 2010 zu den von der US-Ausgabe von Technology Review ausgewählten viel versprechenden jungen Innovatoren.

Sein neues System basiert auf der Maschinenlern-Technik Deep Learning, die in der Informatik bereits weite Verbreitung gefunden hat, in der Naturwissenschaft aber bislang weniger. Aspuru-Guzik arbeitet mit einem so genannten generativen Modell, das große Mengen an Daten verarbeitet und daraus lernt, plausible eigene Daten hervorzubringen.

Üblicherweise werden generative Modelle genutzt, um Bilder, Sprache oder Texte zu erzeugen, zum Beispiel bei Googles Smart Reply, das Antworten auf E-Mails vorschlägt. Im Oktober aber haben Aspuru-Guzik und Kollegen von Harvard, der University of Toronto sowie der University of Cambridge über ihre Entwicklung eines generativen Modell berichtet, das mit 250.000 medikamentenähnlichen Molekülen trainiert wurde.

Das System soll plausible neue Strukturen vorschlagen, indem es Merkmale bestehender Wirkstoffe kombiniert. Dabei soll es zum Beispiel Moleküle bevorzugen, die bestimmte Eigenschaften wie etwa Wasserlöslichkeit besonders deutlich aufweisen und leicht zu synthetisieren sind.

Vijay Pande, Chemie-Professor an der Stanford University und Partner bei der Wagniskapitalfirma Andreesen Horowitz, sieht das Projekt als weiteren Beleg dafür, dass neue Konzepte im Bereich des Maschinenlernens die wissenschaftliche Forschung grundlegend verändern werden.

Die Arbeit zeige, dass sich Software für Deep Learning so etwas wie chemisches Wissen aneignen und dadurch Wissenschaftlern helfen könne, erklärt Pande. "Ich glaube, dass dieses Prinzip sehr breite Anwendung finden könnte. Es könnte dabei helfen, neue Medikamenten-Kandidaten zu finden und zu optimieren, aber auch in anderen Bereichen wie Solarzellen oder Katalysatoren eine Rolle spielen."

Die Forscher um Aspuru-Guzik haben bereits damit experimentiert, ihr System mit einer Datenbank von organischen LED-Molekülen zu trainieren, die für Displays eingesetzt werden. Allerdings wird es noch mehr chemisches Wissen brauchen, um zu einem echten Praxis-Werkzeug zu werden, denn noch schlägt es manchmal unsinnige Strukturen vor.

Ein Problem beim Deep Learning-Ansatz ist laut Pande, dass Forscher noch nicht wissen, in welchem Datenformat sich chemische Strukturen am besten in diese Software einspeisen lässt. Bilder, Sprache und Text haben sich als gut geeignet erwiesen, wie sich an Software zeigt, die bei Bild- und Spracherkennung sowie Übersetzungen bestens funktioniert. Doch die bisherigen Methoden zum Codieren von chemischen Strukturen sind noch nicht unbedingt die richtigen.

Aspuru-Guzik und seine Kollegen denken darüber nach, ebenso wie über die Frage, wie sich mit neuen Funktionen die Zahl der Fehlschläge ihres Systems verringern lässt.

Außerdem hofft der Professor darauf, dass sein Deep Learning-System leistungsfähiger wird, wenn es mehr Daten bekommt – so wie Datenbanken mit Millionen Fotos maschinelle Bilderkennung besser gemacht haben. In der Datenbank der American Chemical Society sind etwa 100 Millionen bekannte chemische Strukturen enthalten. Früher oder später will Aspuru-Guzik sie alle in sein KI-Programm einspeisen.

(sma)