Chemische Datenbank
Eine chemische Datenbank ist eine Datenbank zur Speicherung von Informationen über chemische Verbindungen. Dabei kann es sich um Strukturinformationen (Kristall- oder Molekülstruktur), physikalische und thermodynamische Eigenschaften, Spektren, Reaktionen und Synthesen handeln.
Arten von chemischen Datenbanken
Chemische Strukturen
Chemische Strukturen werden in der Regel als Skelettformeln dargestellt. Mit üblichen Computerprogrammen werden sie als zweidimensionale Pixel- oder Vektorgrafiken mit Buchstaben für Atome und Strichen für Bindungen gespeichert. Diese Dateitypen sind leicht anzuzeigen (beziehungsweise zu rendern) und ideal für das Verständnis durch einen Chemiker geeignet. Für den computergestützten Einsatz sind sie (bis auf ihre leichte Anzeigbarkeit) gänzlich ungeeignet, da sie sowohl speicherineffizient als auch praktisch nicht durchsuchbar sind.
In chemischen Datenbanken erfolgt die Darstellung kleiner Moleküle (oder Liganden im Wirkstoffdesign-Prozess) in der Regel in Form von Listen – einer Liste mit den Atomen und einer mit den Bindungen zwischen den Atomen. Große Moleküle weisen dagegen häufig nur wenige Strukturgrundbausteine (Monomere) auf. In einer kompakteren Darstellungsform kann für solche Moleküle die Sequenz dieser Monomere angegeben werden, etwa für Proteine die Aminosäure-Sequenz.
Große Datenbanken für chemische Strukturen werden aufgebaut, um die Speicherung und Abruf von Informationen über Millionen von Molekülen und ihren physikalischen Eigenschaften oder ihrer Verbindungen zu handhaben.
Literaturdatenbank
Chemische Literaturdatenbanken verbinden Strukturen und andere chemische Informationen mit relevanten Referenzen wie wissenschaftlichen Arbeiten oder Patenten. Beispiele sind STN, SciFinder und Reaxys.
Kristallographische Datenbank
Kristallographische Datenbanken verwalten Kristallstrukturdaten. Typische Beispiele sind die Protein Data Bank und die Cambridge Structural Database.
NMR-Spektren-Datenbank
NMR-Spektren-Datenbanken korrelieren chemische Strukturen mit NMR-Daten. Reine NMR-Datenbanken sind selten, die meisten Datenbanken kombinieren mehrere spektroskopische Methoden (etwa auch FTIR und MS).
Datenbanken von Reaktionen
Reaktionsdatenbanken enthalten Informationen über Produkte, Edukte und Mechanismen von Reaktionen. Während chemische Datenbanken nur langlebige Verbindungen erfassen, speichern Reaktionsdatenbanken auch instabile Intermediate.
Thermophysikalische Datenbank
Thermophysikalische Datenbanken speichern Informationen über
- Phasengleichgewichte (Dampf-Flüssigkeit-Gleichgewichte, Löslichkeit von Gasen oder Feststoffen in Flüssigkeiten), Mischungswärmen, Verdampfungs- und Schmelzenthalpien
- Kalorische Daten wie Wärmekapazitäten, Standardbildungsenthalpien und Verbrennungswärmen
- Transporteigenschaften wie Viskosität und Wärmeleitfähigkeit.
Chemische Strukturdarstellung
Es gibt zwei grundlegende Techniken für die Darstellung chemischer Strukturen in digitalen Datenbanken.
Eine Darstellungsform ist die graphentheoretische, wobei Atomen als Knoten und Bindungen als Kanten dargestellt werden. Hierzu werden Verbindungstabellen, Adjazenzmatrizen und andere Formen von Listen genutzt. Beispiele sind MDL Molfile, PDB und CML.
Die andere ist eine Notation als lineare Zeichenfolge auf Basis der Tiefen- oder Breitensuche. Beispiele sind SMILES / SMARTS, SLN, WLN und InChI.
Diese Ansätze wurden gegenüber den grundlegenden graphentheoretischen Konzepten verfeinert, um besondere Aspekte chemischer Verbindungen darstellen zu können, darunter stereochemische Unterschiede und besondere Bindungsarten, die vor allem in metallorganischen Verbindungen vorkommen. Hauptvorteile der computerlesbaren Darstellung sind der verringerte Speicherplatzbedarf sowie die flexible Durchsuchbarkeit.
Suche
Substruktursuche
Datenbanken können nach Grund- und Teilstrukturen, Bestandteilen von IUPAC-Namen einschränkenden Eigenschaften durchsucht werden.
Insbesondere die Möglichkeit, nach einer Substruktur zu suchen, grenzt chemische Datenbanken von Allzweckdatenbanken ab. Substruktursuchen werden in der internen graphentheoretischen Darstellungsform als Suchen nach Subgraphisomorphismen (Monomorphismus) durchgeführt. Die Suchalgorithmen weisen zeitliche Komplexitäten von O (N3) oder O (N4) auf (N ist die Anzahl der beteiligten Atome) und sind damit im Vergleich zu anderen Suchalgorithmen sehr rechenintensiv.
Die Suche der Komponenten heißt Atom-für-Atom-Suche (ABAS). In dieser Suche werden Atome und Bindungen mit dem Zielmolekül verglichen. Die ABAS nutzt in der Regel den Ullman-Algorithmus[1] oder Variationen davon (etwa SMSD[2]). Beschleunigungen der Suche werden durch Aufteilungen erreicht. Dazu wird ein Index angelegt, indem vorberechnete Daten gespeichert werden, die dann bei Suchanfragen genutzt werden können. Typischerweise sind dies Bitstrings, die die An- oder Abwesenheit bestimmter Molekülfragmente darstellen. Bei der eigentlichen Suche werden dann nur Verbindungen betrachtet, die über die vorgerechneten Fragmente verfügen, die restlichen müssen bei der Suche gar nicht berücksichtigt werden. Diese Eliminierung wird als Screening bezeichnet. Die Bit-Strings, die für diese Anwendungen verwendet werden, werden Struktur-Schlüssel genannt. Die Leistung solcher Schlüssel hängt von der Wahl der Fragmente für die Konstruktion der Schlüssel und der Wahrscheinlichkeit ihres Auftretens in den einzelnen Molekülen ab. Eine andere Art von Schlüssel nutzt Hash-Codes, um Fragmente abzuleiten. Diese werden als „Fingerabdrücke“ bezeichnet (ein Begriff, der manchmal auch für Struktur-Schlüssel verwendet wird). Die Größe des Speichers, der benötigt wird, um Struktur-Schlüssel und Fingerabdrücke zu speichern, kann durch „Faltung“ reduziert werden. Hierbei werden Teile des Schlüssels mit bitweisen Operationen kombiniert, wodurch sich die Gesamtlänge verkürzt.[3]
3D-Konformation
Die Suche nach passenden 3D-Konformationen von Molekülen unter Angabe räumlicher Einschränkungen ist ein Merkmal, das besonders in der Wirkstoffentwicklung wichtig ist. Suchen dieser Art sind kompliziert; sie benötigen in der Regel viel Rechenzeit und liefern dabei nur ungefähre Ergebnisse. Suchalgorithmen basieren beispielsweise auf BCUTs (Eigenwerte von Adjazenzmatrizen), Darstellung als spezielle Funktionen, Trägheitsmomenten (beziehungsweise Trägheitstensoren), Raytracing-Histogrammen, Abstandshistogrammen und Multipol-Formen.[4][5][6][7][8]
Deskriptoren
Alle Eigenschaften von Molekülen, die nicht direkt aus ihrer Struktur hervorgehen, werden als Deskriptoren bezeichnet. Dies können beispielsweise physikalische (Siede- und Schmelztemperatur), physikalisch-chemische (thermodynamische Parameter wie die Gibbs-Energie, Lipophilie, Acidität/Basizität) oder pharmakologische Eigenschaften sein.
Weitere Deskriptoren sind die mehr oder weniger standardisierten Benennungen der Moleküle entsprechend den verschiedenen Nomenklaturen, die teilweise auch mehrdeutig sein können. Der IUPAC-Name ist in der Regel ein guter Kompromiss für die Darstellung einer Molekülstruktur, da er eine sowohl für Menschen lesbare als auch eine eindeutige und damit von Computern verarbeitbarer Zeichenfolge darstellt. IUPAC-Namen sind jedoch für größere Moleküle unhandlich. Trivialname, Homonyme und Synonyme sind dagegen eine schlechte Wahl für die Definition eines Datenbank-Schlüssels.
Während physikalisch-chemische Deskriptoren wie die molare Masse und die Ladung – in geringerem Maße auch Partialladungen und Löslichkeiten – direkt auf der Struktur des Molekül basieren und deshalb berechnet werden können, können pharmakologische Deskriptoren nur indirekt mit einbezogen werden (multivariate Statistik oder experimentelle Ergebnisse aus Screenings und Bioassays) und deshalb nicht für die Moleküldarstellung verwendet werden.
Chemische Ähnlichkeit
Chemische Ähnlichkeit (oder molekulare Ähnlichkeit) bezieht sich auf strukturelle oder funktionelle Ähnlichkeit chemischer Elemente, Moleküle oder Verbindungen. Es gibt keine einheitliche Definition der molekularen Ähnlichkeit, aber das Konzept kann je nach Anwendung wie folgt definiert werden und wird oft als das Inverse eines Entfernungsmaßes im Deskriptor-Raum beschrieben. Zwei Moleküle könnten als eher ähnlich bezeichnet werden, wenn z. B. die Differenz ihrer molaren Massen geringer ist als im Vergleich zu anderen Molekülen. Eine Vielzahl verschiedener Größen (Dipolmoment, Säure- und Basenkonstanten, …) können zu einem multivarianten Abstandsmaß zusammengeführt werden. Entfernungsmaße werden oft in euklidische oder nichteuklidische Metriken klassifiziert, je nachdem, ob die Dreiecksungleichung bestand hat. Die Suche nach maximalen gemeinsamen Subgraphen (maximum common subgraph, MCS) basierte Substruktursuche[9] ist ein weiteres häufig eingesetztes Distanzmaß. Sie wird außerdem verwendet, um in Molekülen gemeinsame Teilstrukturen zu finden.[10]
In chemischen Datenbanken werden Gruppen von „ähnlichen“ Molekülen auf Ähnlichkeiten hin geclustert. Sowohl hierarchische als auch nicht-hierarchische Clustering-Ansätze können auf chemische Einheiten mit mehreren Attributen angewendet werden. Diese Attribute oder molekulare Eigenschaften können entweder empirisch oder rechnerisch bestimmt werden. Einer der beliebtesten Clustering-Ansätze ist der Jarvis-Patrick-Algorithmus.[11]
In pharmakologisch ausgerichteten chemischen Repositories wird die Ähnlichkeit in der Regel in Bezug auf die biologische Wirkung der Verbindungen definiert (ADME / tox), die wiederum halbautomatisch aus ähnlichen Kombinationen von physikalisch-chemischen Deskriptoren (QSAR-Methoden) ermittelt werden können.
Registrierung
Für gewisse Anwendungszwecke (beispielsweise die Indexierung von Patent- und Industrie-Datenbanken) müssen die erfassten Informationen in einer garantiert eindeutigen Darstellung gespeichert werden. Dies gelingt durch die Erzeugung von einzigartigen / kanonischen Zeichenketten (etwa SMILES) als Repräsentanten der chemischen Verbindung. Einige Registriersysteme wie das CAS-System nutzen zu diesem Zweck Hashfunktionen.
Ein wesentlicher Unterschied zwischen einer Registrierung und einer einfachen chemischen Datenbank ist die Fähigkeit, genau darzustellen, was bekannt, unbekannt oder teilweise bekannt ist. Zum Beispiel könnte eine chemische Datenbank ein Molekül mit spezifizierter Stereochemie speichern, während ein chemisches Registriersystem den Registrar auffordert anzugeben, ob die Stereo-Konfiguration unbekannt ist oder ob es sich um ein Racemat oder eine bestimmte (bekannte) Mischung ist.
Registriersysteme können auch Informationen aufbereiten, um die Registrierung von Stoffen zu vermeiden, die im Vergleich zu bereits registrierten Verbindungen nur triviale chemische Unterschiede aufweisen (beispielsweise andere Halogenatome).
Werkzeuge
Die rechnerischen Darstellungen sind in der Regel grafische Darstellungen der Daten, entsprechend der Eingaben des Registrars. Die Dateneingabe wird auch durch die Verwendung von chemischen Struktureditoren vereinfacht. Diese Editoren wandeln die internen Daten in grafischen Darstellungen der Moleküle oder Reaktionen um. Es gibt auch zahlreiche Algorithmen für die Umwandlung von verschiedenen Formaten der Repräsentation. Ein Open-Source-Programm für die Konvertierung ist Openbabel.
Diese Suche und Konvertierungsalgorithmen sind entweder innerhalb der Datenbank-System selbst implementiert oder als externe Komponente (Cartridge), an Standard-Relationalen Datenbanksystemen angepasst, implementiert und nachträglich installiert. Sowohl Oracle als auch PostgreSQL-basierte Systeme nutzen Cartridge-Technologie, die eigene Benutzer-Datentypen (z. B. CTAB als Struktur-Datentyp) erlauben. Diese externen Komponente erlauben es dem Benutzer, SQL-Abfragen mit chemischen Suchkriterien zu formulieren, z. B. eine Anfrage für Aufzeichnungen mit einem Phenylring in ihrer Struktur als einem Smiles-Zeichenkette in einer SMILESCOL Spalte dargestellt suchen könnte.
SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')
Algorithmen für die Umwandlung von IUPAC-Namen in strukturieren Darstellungen und umgekehrt sind auch für die verwendete Extraktion struktureller Informationen aus dem Text möglich. Es gibt jedoch Schwierigkeiten wegen der Existenz mehrerer IUPAC-Dialekte. Als einzigartiger Standard hat sich hier InChI etabliert.
Siehe auch
- Biologische Datenbanken
- Beilstein-Datenbank Beilsteins Handbuch der Organischen Chemie ist eine Datenbank für organische Chemie, eine der größten Faktendatenbanken der Welt und ein Standardwerk der chemischen Literatur.
- Dortmund Datenbank (kurz DDB) ist eine Sammlung thermophysikalischer und thermodynamischer Daten reiner Stoffe und Stoffgemische.
- ChEBI ein freies Lexikon über molekulare Entitäten
- ChemSpider ist eine freie Datenbank chemischer Verbindungen
- DrugBank eine Datenbank die Medikamente (d. h. chemischen, pharmakologischen und pharmazeutischen Daten) mit umfassenden Target (d. h. Sequenz, Struktur, Weg) Informationen kombiniert
- PubChem
- SPRESI-Datenbank
Weblinks
Datenbanken mit chemischen Strukturen
- mcule database, kostenlose Datenbank für virtuelles Screening und Bestellung
- Synthesis references database Synthese-Referenz-Datenbank
- eChemPortal, ein globales Portal der OECD mit Informationen über chemische Stoffe
- NLM ChemIDplus, biomedizinische Chemie, durchsuchbar nach Name und Struktur
- Organic synthesis database Organische-Synthese-Datenbank
- ZINC, eine freie Datenbank für das virtuelle Screening
- ChemSpider, Freier Zugang zu > 20 Millionen chemischen Strukturen, Stoffdaten und systematischen Identifikatoren
- MMsINC, eine kostenlose Web-orientierte Datenbank kommerziell erhältlicher Verbindungen für virtuelles Screening und Chemoinformatik Anwendungen
- ChemIndustry eine freie Datenbank abgeleiteter PubChem-Daten
- NCI/CADD Chemical Structure Lookup Service, Verzeichnis, in welchen Datenbanken eine Struktur auftritt (derzeit > 70 Millionen indizierte chemische Strukturen)
- ChEBI, freien chemischen Substanz Registrierung für biologisch relevante Moleküle
- Chemonaut Chemonaut ist die weltweit umfassendste Quelle für physikalisch verfügbare kommerzielle Verbindungen
- chemicalize.org Kostenlose, webbasierte Datenbank von ChemAxon bietet Ähnlichkeit, Substruktur oder exakte Struktur, sucht mit Web und Dokument (pdf, Microsoft-Dokumente usw.) Parsing-Funktionen
Datenbanken der chemischen Namen
- ChemSub Online, kostenloses Web-Portal und Informationssystem über chemische Stoffe, Stoffnamen in acht Sprachen
- EuroChem Online-Datenbank, die freie Chemikalien-Datenbank
Anmerkungen und Literatur
- Julian R. Ullmann: An algorithm for subgraph isomorphism. In: Journal of the ACM. 23, Nr. 1, 1976, S. 31–42. doi:10.1145/321921.321925.
- S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) toolkit. In: Journal of Cheminformatics. 1, 2000, S. 12. doi:10.1186/1758-2946-1-12.
- Maxwell D. Cummings, Alan C. Maxwell, Renee L. DesJarlais: Processing of Small Molecule Databases for Automated Docking. In: Medicinal Chemistry. 3, Nr. 1, 2007, S. 107–113.
- R.S. Pearlman, K.M. Smith: Metric Validation and the Receptor-Relevant Subspace Concept. In: J. Chem. Inf. Comput. Sci.. 39, 1999, S. 28–35.
- Hung Lin Jr, Timothy Clark: An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. In: JCIM. 45, Nr. 4, 2005, S. 1010–1016.
- P. J. Meek, Z. Liu, L. Tian, C. J Wang, W. J Welsh, R. J Zauhar: Shape Signatures: speeding up computer aided drug discovery. In: DDT 2006. 19–20, 2006, S. 895–904.
- J. A Grant, M. A. Gallardo, B. T. Pickup: A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. In: JCIC. 17, Nr. 14, 1996, S. 1653–1666.
- P. J. Ballester, W. G. Richards: Ultrafast shape recognition for similarity search in molecular databases. In: Proceedings of the Royal Society A. 463, 2007, S. 1307–1321.
- S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12.
- S. Asad Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) Toolkit. In: Journal of Cheminformatics. 1, 2009, S. 12. doi:10.1186/1758-2946-1-12.
- Darko Butina: Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. In: Chem. Inf. Comput. Sci.. 39, 1999, S. 747–750.