Editorial

Katalog des Lebens

(29.07.2021) 50 Jahre ist es her, da saßen Forscher auf einer Wiese und ersannen die erste digitale, frei verfügbare Datenbank der Biologie: die Protein Data Bank.
editorial_bild

Hier überlegen John Kendrew und Max Perutz noch, wie man die riesigen Datenmengen von Proteinstrukturen sinnvoll verwalten kann

Es war eine aufregende Woche Anfang Juni 1971 auf Long Island, an der Ostküste der USA. Aus ganz Amerika und Europa waren Forscher und Forscherinnen zu einem Symposium angereist, um über die Struktur und Funktion von Proteinen auf dreidimen­sionaler Ebene zu sprechen.

Seit den Chemie-Nobelpreisen für Max Perutz, John Kendrew (beide 1962) und Dorothy Hodgkin (1964) hatte die Struktur­biologie einen ordentlichen Schub erhalten und zog immer mehr Forscher in den Bann. „Es schien eine gute Zeit zu sein, diese unterschiedlichen Leute zusammen­zubringen, um darüber zu reden, wo die Protein­forschung steht und welche Proteine als Nächstes reif wären, sie vollständig zu verstehen,“ schrieb der Organisator des Long-Island-Symposiums, ein gewisser James Watson.

Editorial

Nobelpreisträger und Pioniere

Angereist waren daher nicht nur Max Perutz und Dorothy Hodgkin, unter den Anwesenden befanden sich auch die späteren Nobelpreis­träger Aaron Klug und William Lipscomb sowie natürlich eine ganze Reihe Nachwuchs-Forscher, die das Wissen der Experten begierig aufsaugen wollten. „Es war ein enorm spannendes Meeting, besonders für junge Kristallo­graphen. So ziemlich alle Pioniere der Disziplin waren anwesend, um ihre Ergebnisse zu präsentieren“, erinnert sich eine dieser jungen Forscherinnen, Helen Berman. Die deutsche Delegation bestand übrigens aus Robert Huber und Dietmar Kukla vom damaligen Max-Planck-Institut für Eiweiß- und Leder­forschung in München sowie Kenneth Holmes vom Max-Planck-Institut für medizinische Forschung in Heidelberg.

Gesprochen wurde über Proteasen, Dehydro­genasen und Muskelproteine, über Elektronen-Dichte-Karten des Tabak­mosaikvirus und die Verwendung eines ganz neuartigen Computer-kontrollierten Display-Systems, um molekulare Konformationen zu untersuchen. Die idyllische Umgebung ließ die Protein-Forscher aber auch außerhalb der Symposium­mauern zusammen­kommen. Man traf sich am Strand, unterm Obstbaum auf der Wiese, beim Ballspiel, beim Segeln, Ponystreicheln oder Herumtollen mit den Kindern – einige Forscher hatten sogar ihre Familien mitgebracht.

Schweres Problem

Bei einem dieser gemütlichen Treffen, zu dem Max Perutz eingeladen hatte, überlegte man, wie sich denn am besten die immer größer werdende Menge an Proteinstruktur-Daten sammeln ließe und vor allem wie andere Forscher problemlos an diese Daten herankämen. Das war damals ein durchaus schwer­wiegendes Problem.

Denn als Speichermedium für digitale Daten dienten noch immer einfache Lochkarten. Und die hatten nicht gerade viel Platz zu bieten. Eine Lochkarte hatte gerade genug Speicher­kapazität für ein einziges Atom. Das hieß, für ein großes Protein, wie etwa Myoglobin, benötigte man etwa 1.000 Lochkarten. Um diese dann noch an ein interessiertes Labor, vielleicht sogar am anderen Ende der Welt, zu verschicken, war einiges an Transport-Logistik notwendig. Von den Portokosten ganz zu schweigen. Etwas später kamen dann auch Magnet­bänder auf, die auf 27 cm großen Rollen gewickelt waren. Das machte den Versand etwas einfacher. Der Empfänger war beim Zusammen­puzzeln der einzelnen Daten auf Band oder Karte dann jedoch immer noch auf sich gestellt.

Nun saß man also auf einer Wiese auf Long Island und sann darüber nach, wie man die Dinge vereinfachen könnte. Einige Forscher, darunter die Nachwuchs-Struktur­biologin Berman, hatten darüber schon gegrübelt. Ihre Idee: eine eigene Datenbank, die die Daten sammelt, verwahrt und verteilt, frei zugänglich für alle – oder Open Access, wie wir heute sagen. Die Daten sollten sowohl in den USA als auch in Europa hinterlegt werden.

Es wird offiziell

In den USA bot sich das Brookhaven National Laboratory in New York an, in Europa das Crystallo­graphic Data Centre im englischen Cambridge. Nur wenige Monate später, im Oktober 1971, wurde es offiziell: Nature New Biology kündigte in einem kurzen Artikel die neue „Protein Data Bank“ (PDB) an. „The system will be responsible for storing atomic coordinates, structure factors and electron density maps and will make these data available on request. (… ) There will be no charge for the service other than handling costs. (…) The success of the proposed system will depend on the reponse of the protein crystallo­graphers supplying data.“

Tatsächlich tat sich die Datenbank zu Beginn ein wenig schwer. Denn viele Struktur­biologen wollten ihre Daten nicht einfach so heraus­rücken. Der damalige PDB-Chef Tom Koetzle suchte eigenhändig die Literatur nach neu veröffentlichten Strukturen ab und schrieb die Autoren dann höchst­persönlich an. Ob sie denn nicht ihre Daten in der PDB hinterlegen würden, immerhin wären sie dann auch für die Nachwelt gesichert und stünden einem viel größeren Publikum zur Verfügung.

Nur sehr langsam füllte sich die Datenbank. Das lag aber auch an den Daten selbst. „Die Originaldaten wurden auf Magnetband abgespeichert, aber einige Datensätze kamen auch auf Lochkarten und ein oder zwei wurden von gedruckten Koordinaten abgeschrieben (und es dauerte Jahre bis alle Schreibfehler ausgemerzt waren)“, erinnert sich Frances Bernstein, die von 1974 bis 1998 Teil des PDB-Teams war. Und das bestand zu Beginn auch nur aus drei Leuten (zwei davon in Teilzeit), die hauptsächlich damit beschäftigt waren, Daten zu kuratieren, formatieren und an Forscher weltweit zu versenden (die ihnen ein leeres Magnetband zur Überspielung geschickt hatten).

Myoglobin und Hämoglobin

Mitte der 1970er-Jahre enthielt die Datenbank gerade mal 13 Strukturen. Unter den allerersten: Myoglobin (hinterlegt 1973, veröffentlicht 1976), Hämoglobin vom Pferd (1973/1977) und Subtilisin von Bacillus amyloliquefaciens (1972/1977). Es dauerte noch ein ganzes Jahrzehnt, bis der richtige Durchbruch kam. Der kam allerdings durch äußere Umstände, denn ab 1989 mussten alle makro­molekularen Strukturen, die publiziert werden sollten, in einer Datenbank hinterlegt werden. Der Run auf die Protein Data Bank begann.

Inzwischen hatten auch neue Techniken Einzug gehalten in die Struktur­biologie: die Kernspin­resonanz­tomographie (NMR) beispielsweise und die Kryo­elektronen­mikroskopie (Kryo-EM). Auch Speichermedien und Kommunikations­möglichkeiten hatten in der Zwischenzeit riesige Entwicklungs­sprünge gemacht. Nun konnte man statt schwerer Magnetbänder kleine und leichte CD-ROMs verschicken und schnell und einfach via E-Mail kommunizieren.

Die weltweite Verfügbarkeit des Internets hat den Zugang noch einfacher gemacht. Nun kann sich jeder, ob Strukturbiologe oder nicht, an der Eleganz makro­molekularer Strukturen erfreuen, diese hochladen und runterladen, wie es ihm beliebt, jederzeit. Derzeit stecken in der Protein Data Bank 1 Terabyte an Daten von mehr als 175.000 Protein-, DNA- und RNA-Strukturen.

Was als echte Graswurzel­bewegung auf einer Wiese (!) auf Long Island begann, ist zu einer der wichtigsten Ressourcen für Lebens­wissenschaftler aller Couleur geworden. Gerade auch jetzt während der Pandemie. Und so betont Helen Berman, Co-Gründerin und Director emerita in einem aktuellen Essay: „Indeed, the current public health crisis caused by the SARS-CoV-2 virus highlights the critical importance of structural biology. Several hundred new entries have been deposited in the PDB in the quest to find therapeutics for SARS-CoV-2 and abate the COVID-19 pandemic.“

Vielleicht kann dazu auch eine neue Struktur-Datenbank beitragen, deren pure Ankündigung eine Welle der Euphorie unter Struktur­biologen ausgelöst hat: die Alphafold-Datenbank, an der unter anderem auch das EMBL beteiligt war. Ob alpha-Helix, pi-Helix, beta-Schleife oder Random Coil, die Anwendung kann für über 300.000 Proteine aus Mensch, Zebrafisch, Tuberkulose­bakterien und mehr Struktur-Vorhersagen treffen. Und somit, wie EMBL-General­direktorin Edith Heard schreibt, eine weitere „wirkliche Revolution in den Biowissen­schaften“ lostreten.

Kathleen Gransalke

Bild: MRC Laboratory of Molecular Biology

Referenzen

„Protein Data Bank“, Nature New Biology, 233, 223
„The PDB Talks with Frances Bernstein“, PDB Newsletter, Number 18, Summer 2003
„PDB Community Focus: Helen M. Berman“, PDB Newsletter, Number 21, Spring 2004
„Synergies between the Protein Data Bank and the community“, Nature Structural & Molecular Biology, 28:400–1
„Celebrating the Protein Data Bank“, ASBMB Today (2021)
„The Protein Data Bank: a historical perspective“, Acta Crystallographica Section A, 64(1):88-95
„Structure and Function of Proteins at the Three-Dimensional Level“, Symposium-Website


Weitere Artikel aus der Wissenschaftsgeschichte


- Aller Anfang ist schwer

Im Jahr 1831 schrieben William Whewell und John Lubbock den vermutlich ersten Peer Review für ein akademisches Journal. Nach monatelangem Streit.

- Bienchen und Blümchen

Faszinierten Christian Konrad Sprengel so sehr, dass er vor 230 Jahren den Grundstein für eine ganz neue Disziplin der Botanik legte: die Blütenbiologie.

- LJ-Rätsel: Die Benennungsverweigerte

Mit ihren Ergebnissen beschämte sie keinen Geringeren als Carl von Linné. Woraufhin dieser ihr die wohlverdiente Anerkennung verweigerte.

 



Letzte Änderungen: 29.07.2021