La guida per principianti all’allineamento delle sequenze di DNA

Fortunatamente, quelli di noi che hanno imparato a sequenziare sanno che l’allineamento delle sequenze è molto più semplice e richiede meno tempo rispetto alla loro creazione . Che tu stia impiegando gel di sequenziamento, metodi basati su Sanger o le ultime tecnologie di pirosequenziamento o torrent ionico, ottenere, manipolare e analizzare le tue sequenze non è mai stato così facile.

Daremo un’occhiata solo le basi dell’allineamento delle sequenze per iniziare.

Quante sequenze posso allineare?

Devi avere un minimo di 2 sequenze per eseguire un allineamento. Per confrontare 2 sequenze dovrai eseguire un allineamento “pairwise”. La maggior parte dei programmi allineerà 3 o più sequenze alla volta e richiederà un algoritmo diverso, ad esempio MUSCLE o uno degli algoritmi Clustal come ClustalW.

Puoi allineare da diverse centinaia a diverse migliaia, se lo desideri, ma ci sono diversi fattori che possono renderlo semplice e diretto o un divoratore di tempo se non impossibile. Per prima cosa, devi scegliere un algoritmo appropriato. Ad esempio, il programma di sequenziamento MUSCLE può di solito gestiscono set di dati di grandi dimensioni con una maggiore precisione. Per una certa prospettiva, di solito posso allineare ~ 750 sequenze di 1000 nucleotidi ciascuna in circa un’ora utilizzando MUSCLE. Per allineare un gran numero di sequenze, è necessario disporre di memoria e spazio di archiviazione sufficienti.

Qual è la differenza tra somiglianza e identità?

L’identità è il grado di correlazione tra 2 sequenze senza gap e indica che gli amminoacidi o nucleotidi in una particolare posizione sono un esatto incontro. In generale, un’identità del 25% o superiore suggerisce il potenziale per la somiglianza di funzione; un’identità del 18-25% implica somiglianza di struttura o funzione. È importante notare che 2 o più sequenze completamente non correlate possono avere un’identità del 20% o superiore, quindi questa non è una regola rigida e veloce. La somiglianza è il grado di somiglianza tra due sequenze quando vengono confrontate e indica che gli amminoacidi o nucleotidi in una particolare posizione hanno alcune proprietà in comune (ad esempio, carica o idrofobicità), ma non sono identici. Un’alta percentuale di residui simili può anche suggerire una funzione o struttura conservata.

Cos’è una sequenza di “consenso”?

Una sequenza di consenso di solito appare nella parte superiore del tuo tavolo di lavoro di allineamento, e ogni nucleotide (o amminoacido) della sequenza si basa sul residuo che appare in quella posizione più frequentemente nella sequenza allineata. Ad esempio, se allinei 5 sequenze ei nucleotidi alla posizione 20 sono A, A, T, A e G, quindi la sequenza di consenso avrà una A alla posizione 20. L’uso di sequenze di consenso può essere molto utile quando si esaminano le relazioni evolutive tra sequenze con alti gradi di identità. È anche utile utilizzare il consenso per identificare potenziali lacune nelle sequenze allineate.

Perché gli spazi sono importanti?

Uno spazio è uno o più spazi in una singola stringa di un dato allineamento e di solito corrisponde a un inserimento o cancellazione in uno o più sequenze all’interno dell’allineamento L’inserimento o la cancellazione può essere un’arte effetto della chimica del sequenziamento e non indicativo dell’autentica sequenza del DNA. Secondo l’Istituto europeo di bioinformatica, ci sono molte altre potenziali spiegazioni per:

  • Una singola mutazione può creare un divario (molto comune).
  • Un crossover disuguale nella meiosi può portare all’inserimento o alla cancellazione di stringhe di basi.
  • Lo slittamento del DNA nella procedura di replicazione può provocare la ripetizione di una stringa.
  • Inserzioni di retrovirus.
  • Traslocazioni di DNA tra i cromosomi.

Come faccio a sapere se i miei dati di sequenza sono buoni?

Zuppa alfabetica. Molti As, Ts, Cs e Gs. Indipendentemente dai metodi per ottenere le sequenze, il successo e l’accuratezza complessivi degli allineamenti di sequenza e delle analisi successive dipendono interamente dalla qualità dei dati della sequenza. Cose come preparazioni a monte solide, design del primer e qualità dei reagenti possono renderti un eroe … o uno zero. Quindi, in termini scientifici, la qualità dei dati di sequenza è direttamente proporzionale al successo e alla robustezza dei tuoi allineamenti, sai, “garbage in – garbage out”.

Nella maggior parte dei casi, i tuoi dati grezzi sono ” segnato “e ripulito dal software sequencer, ottenendo la sequenza finita ed esportabile. La qualità può essere valutata in molti modi diversi, a seconda della tecnologia e della chimica utilizzata, e utilizza criteri come la potenza del segnale, il numero di nucleotidi contigui letti e la facilità con quale ciascun nucleotide è determinato, ad esempio un picco pulito e non ostruito in un cromatografo. A parte As, Ts, Cs e Gs, è importante comprendere altri codici che possono apparire nei dati (fare clic qui per l’elenco completo dei codici IUPAC).

Alcuni suggerimenti utili

  • Consiglio vivamente di prendere l’abitudine di salvare il tuo lavoro presto e spesso!
  • Abituati ai formati di file FASTA: ti serviranno quando scarichi da centri di compensazione come GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • In generale, se stai allineando le sequenze con regioni LTR (ripetizioni terminali lunghe), potresti provare a eliminare queste regioni a condizione che siano tutte identiche per composizione e lunghezza: questo velocizzerà i tuoi allineamenti senza sacrificare la precisione.
  • Più lunghe sono le tue sequenze, più lungo sarà il tempo richiesto.

Resta sintonizzato per il prossimo articolo di questa serie, in cui parleremo dei diversi programmi di allineamento delle sequenze disponibili.

Questo ti ha aiutato? Quindi condividi con la tua rete.

Scritto da Jason Garner

Leave a Reply

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *