Der Leitfaden für Anfänger zur DNA-Sequenzausrichtung

Glücklicherweise wissen diejenigen von uns, die das Sequenzieren gelernt haben, dass das Ausrichten von Sequenzen viel einfacher und weniger zeitaufwendig ist als das Erstellen . Unabhängig davon, ob Sie Sequenziergele, Sanger-basierte Methoden oder die neuesten Pyrosequenzierungs- oder Ionen-Torrent-Technologien verwenden, war es nie einfacher, Ihre Sequenzen zu erhalten, zu manipulieren und zu analysieren.

Wir werden einen Blick darauf werfen

Wie viele Sequenzen kann ich ausrichten?

Sie müssen mindestens 2 Sequenzen haben, um eine Ausrichtung durchzuführen. Zum Vergleichen von 2 Sequenzen müssen Sie eine „paarweise“ Ausrichtung durchführen. Die meisten Programme richten 3 oder mehr Sequenzen gleichzeitig aus und erfordern einen anderen Algorithmus, z. B. MUSCLE oder einen der Clustal-Algorithmen wie ClustalW.

Sie können mehrere hundert bis mehrere tausend ausrichten, wenn Sie möchten, aber es gibt mehrere Faktoren, die dies einfach und unkompliziert machen können, oder ein Zeitraffer, wenn nicht unmöglich. Zunächst müssen Sie einen geeigneten Algorithmus auswählen. Zum Beispiel kann das Sequenzierungsprogramm MUSCLE Normalerweise kann ich große Datenmengen mit einem hohen Maß an Genauigkeit verarbeiten. Aus einer bestimmten Perspektive kann ich mit MUSCLE normalerweise ~ 750 Sequenzen mit jeweils 1000 Nukleotiden in etwa einer Stunde ausrichten. Zum Ausrichten einer großen Anzahl von Sequenzen benötigen Sie ausreichend Computerspeicher und Speicher.

Was ist der Unterschied zwischen Ähnlichkeit und Identität?

Identität ist der Grad der Korrelation zwischen zwei Sequenzen ohne Lücken und zeigt an, dass die Aminosäuren oder Nukleotide an einer bestimmten Position eine sind genau Spiel. Im Allgemeinen deutet eine Identität von 25% oder höher auf das Potenzial für eine Ähnlichkeit der Funktion hin; Eine Identität von 18-25% impliziert eine Ähnlichkeit der Struktur oder Funktion. Es ist wichtig zu beachten, dass 2 oder mehr völlig unabhängige Sequenzen eine Identität von 20% oder mehr haben können, daher ist dies keine feste Regel. Ähnlichkeit ist der Grad der Ähnlichkeit zwischen zwei Sequenzen, wenn sie verglichen werden, und zeigt an, dass die Aminosäuren oder Nukleotide an einer bestimmten Position einige Eigenschaften gemeinsam haben (zum Beispiel Ladung oder Hydrophobizität), aber nicht identisch sind. Ein hoher Prozentsatz ähnlicher Reste kann auch auf eine konservierte Funktion oder Struktur hinweisen.

Was ist eine „Konsensus“ -Sequenz?

Eine Konsensussequenz wird normalerweise oben auf Ihrem Alignment-Arbeitstisch angezeigt. und jedes Nukleotid (oder jede Aminosäure) der Sequenz basiert auf dem Rest, der an dieser Position am häufigsten in Ihrer ausgerichteten Sequenz erscheint. Wenn Sie beispielsweise 5 Sequenzen ausrichten und die Nukleotide an Position 20 A, A, T sind, A und G, dann hat die Konsensussequenz an Position 20 ein A. Die Verwendung von Konsensussequenzen kann sehr nützlich sein, wenn evolutionäre Beziehungen zwischen Sequenzen mit hohem Identitätsgrad untersucht werden. Es ist auch nützlich, den Konsens zu verwenden, um potenzielle Lücken zu identifizieren in Ihren ausgerichteten Sequenzen.

Warum sind Lücken wichtig?

Eine Lücke besteht aus einem oder mehreren Leerzeichen in einer einzelnen Zeichenfolge einer bestimmten Ausrichtung und entspricht normalerweise einem Einfügen oder Löschen in einem oder mehr Sequenzen innerhalb des Alignments. Das Einfügen oder Löschen kann eine Kunst sein ifact der Sequenzierungschemie und kein Hinweis auf die authentische DNA-Sequenz. Laut dem Europäischen Institut für Bioinformatik gibt es mehrere andere mögliche Erklärungen für:

  • Eine einzelne Mutation kann eine Lücke schaffen (sehr häufig).
  • Eine ungleiche Überkreuzung bei der Meiose kann dazu führen zum Einfügen oder Löschen von Basenstrings.
  • DNA-Schlupf im Replikationsverfahren kann zur Wiederholung eines Strings führen.
  • Retrovirus-Insertionen.
  • Translokationen von DNA zwischen Chromosomen.

Woher weiß ich, dass meine Sequenzdaten gut sind?

Alphabetsuppe. Viele As, Ts, Cs und Gs. Unabhängig von Ihren Methoden zum Erhalten Ihrer Sequenzen hängt der Gesamterfolg und die Genauigkeit Ihrer Sequenzausrichtungen und nachfolgenden Analysen vollständig von der Qualität Ihrer Sequenzdaten ab. Dinge wie solide Upstream-Präparate, Primer-Design und Reagenzienqualität können Sie zu einem Helden machen… oder zu einer Null. In wissenschaftlicher Hinsicht ist die Qualität der Sequenzdaten direkt proportional zum Erfolg und zur Robustheit Ihrer Alignments. Sie wissen, „Müll rein – Müll raus“.

In den meisten Fällen sind Ihre Rohdaten “ bewertet “und von der Sequenzer-Software bereinigt, was zu Ihrer fertigen, exportierbaren Sequenz führt. Die Qualität kann je nach verwendeter Technologie und Chemie auf viele verschiedene Arten bewertet werden und verwendet Kriterien wie Signalstärke, Anzahl der gelesenen zusammenhängenden Nukleotide und die Leichtigkeit mit Dabei wird jedes Nukleotid bestimmt, z. B. ein sauberer, ungehinderter Peak in einem Chromatographen. Außer As, Ts, Cs und Gs ist es wichtig, andere Codes zu verstehen, die in Ihren Daten enthalten sein können (klicken Sie hier, um die vollständige Liste der IUPAC-Codes anzuzeigen).

Einige hilfreiche Tipps

  • Ich würde Ihnen wärmstens empfehlen, sich daran zu gewöhnen, Ihre Arbeit früh und häufig zu speichern!
  • Gewöhnen Sie sich an FASTA-Dateiformate – diese benötigen Sie beim Herunterladen von Clearingstellen wie GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • Im Allgemeinen Wenn Sie Sequenzen mit LTR-Regionen (Long Terminal Repeats) ausrichten, können Sie versuchen, diese Regionen zu löschen, solange sie alle in Zusammensetzung und Länge identisch sind. Dies beschleunigt Ihre Ausrichtung, ohne die Genauigkeit zu beeinträchtigen.
  • Je länger Ihre Sequenzen sind, desto länger ist die erforderliche Zeit.

Seien Sie gespannt auf den nächsten Artikel in dieser Reihe, in dem wir über die verschiedenen verfügbaren Sequenzierungs-Alignment-Programme sprechen.

Hat Ihnen das geholfen? Dann teilen Sie dies bitte Ihrem Netzwerk mit.

Geschrieben von Jason Garner

Leave a Reply

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.