Le guide du débutant sur l'alignement des séquences ADN

Heureusement, ceux d’entre nous qui ont appris à séquencer savent que l’alignement des séquences est beaucoup plus facile et prend moins de temps que de les créer . Que vous utilisiez des gels de séquençage, des méthodes basées sur Sanger ou les dernières technologies de pyroséquençage ou de torrent ionique, obtenir, manipuler et analyser vos séquences n’a jamais été aussi simple.

Nous allons y jeter un coup d’œil. à juste les bases de l’alignement de séquence pour vous aider à démarrer.

Combien de séquences puis-je aligner?

Vous devez avoir un minimum de 2 séquences pour effectuer un alignement. Pour comparer 2 séquences, vous devrez effectuer un alignement « par paires ». La plupart des programmes aligneront 3 séquences ou plus à la fois et nécessiteront un algorithme différent, par exemple MUSCLE ou l’un des algorithmes Clustal comme ClustalW.

Vous pouvez aligner plusieurs centaines à plusieurs milliers si vous le souhaitez, mais il y a plusieurs facteurs qui peuvent rendre cela simple et simple, voire un dépassement du temps, sinon impossible. Tout d’abord, vous devez choisir un algorithme approprié. Par exemple, le programme de séquençage MUSCLE peut gèrent généralement de grands ensembles de données avec une plus grande précision. Pour une certaine perspective, je peux généralement aligner environ 750 séquences de 1 000 nucléotides chacune en une heure environ à l’aide de MUSCLE. Pour aligner un grand nombre de séquences, vous devez disposer d’une mémoire et d’un stockage suffisants.

Quelle est la différence entre la similarité et l’identité?

L’identité est le degré de corrélation entre 2 séquences non espacées, et indique que les acides aminés ou nucléotides à une position particulière sont un exact correspondre. En général, une identité de 25% ou plus suggère le potentiel de similitude de fonction; une identité de 18 à 25% implique une similitude de structure ou de fonction. Il est important de noter que 2 séquences totalement indépendantes ou plus peuvent avoir une identité de 20% ou plus, ce n’est donc pas une règle absolue. La similitude est le degré de ressemblance entre deux séquences lorsqu’elles sont comparées, et indique que les acides aminés ou nucléotides à une position particulière ont certaines propriétés en commun (par exemple, charge ou hydrophobicité), mais ne sont pas identiques. Un pourcentage élevé de résidus similaires peut également suggérer une fonction ou une structure conservée.

Qu’est-ce qu’une séquence «consensus»?

Une séquence consensus apparaît généralement en haut de votre table de travail d’alignement, et chaque nucléotide (ou acide aminé) de la séquence est basé sur le résidu qui apparaît le plus souvent à cette position dans votre séquence alignée. Par exemple, si vous alignez 5 séquences et que les nucléotides en position 20 sont A, A, T, A et G, la séquence consensus aura alors un A en position 20. L’utilisation de séquences consensus peut être très utile lors de l’examen des relations évolutives entre des séquences à haut degré d’identité. Il est également utile d’utiliser le consensus pour identifier les lacunes potentielles dans vos séquences alignées.

Pourquoi les espaces sont-ils importants?

Un espace est un ou plusieurs espaces dans une seule chaîne d’un alignement donné et correspond généralement à une insertion ou une suppression dans un ou plusieurs séquences dans l’alignement. L’insertion ou la suppression peut être un art ifact de la chimie de séquençage et non indicatif de la séquence d’ADN authentique. Selon l’Institut Européen de Bioinformatique, il existe plusieurs autres explications potentielles pour:

Une seule mutation peut créer un écart (très fréquent).
Un croisement inégal dans la méiose peut conduire à l’insertion ou à la suppression de chaînes de bases.
Le glissement d’ADN dans la procédure de réplication peut entraîner la répétition d’une chaîne.
Insertions de rétrovirus.
Translocations de ADN entre les chromosomes.

Comment savoir si mes données de séquence sont bonnes?

Soupe à l’alphabet. Beaucoup de As, Ts, Cs et Gs. Quelles que soient vos méthodes pour obtenir vos séquences, le succès global et la précision de vos alignements de séquences et des analyses ultérieures dépendent entièrement de la qualité de vos données de séquence. Des choses comme les préparations solides en amont, la conception des amorces et la qualité des réactifs peuvent faire de vous un héros… ou un zéro. Donc, en termes scientifiques, la qualité des données de séquence est directement proportionnelle au succès et à la robustesse de vos alignements, vous savez, « garbage in – garbage out ».

Dans la plupart des cas, vos données brutes sont » marqué »et nettoyé par le logiciel séquenceur, ce qui donne une séquence finie et exportable. La qualité peut être évaluée de différentes manières, selon la technologie et la chimie utilisées, et utilise des critères tels que la force du signal, le nombre de nucléotides contigus lus et la facilité avec lequel chaque nucléotide est déterminé, par exemple un pic propre et non obstrué dans un chromatographe. Hormis As, Ts, Cs et Gs, il est important de comprendre les autres codes qui peuvent apparaître dans vos données (cliquez ici pour la liste complète des codes IUPAC).

Quelques conseils utiles

Je vous recommande vivement de prendre l’habitude de sauvegarder votre travail tôt et souvent!
Habituez-vous aux formats de fichiers FASTA – vous en aurez besoin lors du téléchargement à partir de chambres de compensation comme GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
En général, si vous alignez des séquences avec des régions LTR (longues répétitions terminales), vous pouvez essayer de supprimer ces régions tant qu’elles sont toutes identiques en composition et en longueur – cela accélérera vos alignements sans sacrifier la précision.
Plus vos séquences sont longues, plus le temps nécessaire est long.

Restez à l’écoute pour le prochain article de cette série, dans lequel nous parlerons des différents programmes d’alignement de séquençage disponibles.

Cela vous a-t-il aidé? Alors veuillez partager avec votre réseau.

Écrit par Jason Garner

Mont Blanc

Le guide du débutant sur l’alignement des séquences ADN