Clustal
Clustal ist ein weitverbreitetes Computerprogramm für Multiples Sequenzalignment. Die aktuelle Version ist 2.1. Es gibt drei Varianten des Programms:
- ClustalW: ein Kommandozeilenprogramm
- ClustalX: mit grafischer Benutzeroberfläche. Das Programm ist für Windows, Mac OS und Unix/Linux verfügbar.
- Clustal Omega: ein Kommandozeilenprogramm. Das Programm kann viele Sequenzen (>100.000) schnell und mit großer Qualität alignieren.
Clustal Omega | |
---|---|
Basisdaten | |
Entwickler | Des Higgins, Fabian Sievers (Conway Institute, UCD) |
Aktuelle Version | 1.2.1 (28. Februar 2014) |
Betriebssystem | Unix, Linux, Mac, MS-Windows |
Programmiersprache | C++ |
Kategorie | Bioinformatik-Tool |
Lizenz | GNU General Public License, version 2[1] |
www.clustal.org/omega/ |
Clustal | |
---|---|
Basisdaten | |
Entwickler | Gibson T. (EMBL), Thompson J. (CNRS), Higgins D. (UCD) |
Aktuelle Version | 2.1 (17. November 2010) |
Betriebssystem | Unix, Linux, macOS, Windows |
Programmiersprache | C++ |
Kategorie | Bioinformatik-Tool |
Lizenz | ab Version 2.1 LGPL, davor für akademische Benutzer kostenlos |
www.clustal.org |
Eingabe / Ausgabe
Das Programm kann eine große Auswahl Eingabeformate verarbeiten, darunter NBRF/PIR, FASTA, EMBL/Swissprot bzw. UniProt, Clustal, GCC/MSF, GCG9 RSF und GDE.
Die Ausgabe kann in folgenden Formaten erfolgen: Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS.
Multiples Sequenzalignment
Clustal führt drei Hauptschritte durch:
- Paarweises Alignment,
- einen phylogenetischen Baum erstellen (oder einen benutzerdefinierten verwenden),
- den phylogenetischen Baum für das multiple Alignment verwenden.
Diese Schritte werden automatisch durchgeführt, wenn man Do Complete Alignment (Komplettes Alignment durchführen) auswählt. Als weitere Optionen stehen Do Alignment from guide tree (Führe Alignment anhand eines Guide tree) und Produce guide tree only (Nur den Guide Tree erstellen).
Profil Alignments
Paarweise Alignments werden für alle und gegen alle Sequenzen berechnet; Übereinstimmungen werden in einer Matrix gespeichert. Diese wird anschließend in eine Distanzmatrix (distance matrix) konvertiert, wo der Distanzwert den evolutionären Abstand zwischen jedem Sequenzpaar widerspiegelt.
Aus dieser Distanzmatrix wird anhand eines Neighbor-Joining-Algorithmus zur Clusterbildung (Neighbor-joining clustering algorithm) ein Guide Tree oder ein phylogenetischer Baum konstruiert, der die Reihenfolge vorgibt, in der Sequenzpaare aligniert (angeordnet) und mit vorangegangenen Alignments kombiniert werden sollen. Sequenzen werden an jedem Zweigpunkt progressiv aligniert, wobei mit demjenigen Sequenzpaar begonnen wird, das den geringsten Abstand aufweist.
Einstellungen
Benutzer können unter Verwendung der Standardeinstellung Sequenzen alignieren, aber von Fall zu Fall ist es sinnvoll, eigene Parameter zu verwenden.
Die Hauptparameter sind gap opening penalty und die gap extension penalty (siehe Sequenzalignment).
Beschleunigte Version
Eine FPGA-basierte Version des ClustalW Algorithmus wird von der Firma Progeniq angeboten und verzeichnet eine zwanzigfach höhere Verarbeitungsgeschwindigkeit gegenüber der Software-Implementierung.
Quellen
- J. D. Thompson et al. (1997): The ClustalX windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. In: Nucleic Acids Research. Bd. 25, S. 4876–4882. PMID 9396791
- R. Chenna et al. (2003): Multiple sequence alignment with the Clustal series of programs. In: Nucleic Acid Research. Bd. 31, S. 3497–3500. PMID 12824352
- M. A. Larkin et al. (2007): Clustal W and Clustal X version 2.0. In: Bioinformatics. Bd. 23, S. 2947–2948. PMID 17846036
- F. Sievers et al. (2011): Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. In: Mol Syst Biol 7. 2011 Oct 11. doi:10.1038/msb.2011.75
Weblinks
- EBI: ClustalW (englisch)
- Clustal Homepage (englisch)
- Progeniq Pte Ltd, White Paper - Accelerating Intensive Applications at 10x-50x Speedup to Remove Bottlenecks in Computational Workflows
- Progeniq BoostServe, 1000 CPU Cores
Einzelnachweise
- See file COPYING, in source archive, abgerufen am 15. Januar 2014