Ghidul pentru începători pentru alinierea secvenței ADN

Din fericire, cei dintre noi care am învățat cum să secvențial știm că alinierea secvențelor este mult mai ușoară și consumă mai puțin timp decât crearea lor . Indiferent dacă folosiți geluri de secvențiere, metode bazate pe Sanger sau cele mai noi tehnologii de pirozecvențare sau de torrent ionic, obținerea, manipularea și analiza secvențelor dvs. nu a fost niciodată mai ușoară.

Vom arunca o privire doar la elementele de bază ale alinierii secvenței pentru a începe.

Câte secvențe pot alinia?

Trebuie să aveți minimum 2 secvențe pentru a efectua o aliniere. Pentru a compara 2 secvențe, va trebui să efectuați o aliniere „în perechi”. Majoritatea programelor vor alinia 3 sau mai multe secvențe la un moment dat și vor necesita un algoritm diferit, de exemplu MUSCLE sau unul dintre algoritmii Clustal precum ClustalW.

Puteți alinia câteva sute la câteva mii, dacă doriți, dar există mai mulți factori care pot face acest lucru simplu și simplu sau un porc de timp, dacă nu imposibil. În primul rând, trebuie să alegeți un algoritm adecvat. De exemplu, programul de secvențiere MUSCLE poate gestionează de obicei seturi mari de date cu o precizie superioară. Pentru o anumită perspectivă, pot alinia de obicei ~ 750 de secvențe de 1000 de nucleotide fiecare în aproximativ o oră folosind MUSCLE. Pentru alinierea unui număr mare de secvențe, trebuie să aveți suficientă memorie și stocare pe computer.

Care este diferența dintre similitudine și identitate?

Identitatea este gradul de corelație dintre 2 secvențe ne-decalate și indică faptul că aminoacizii sau nucleotidele dintr-o anumită poziție sunt un exact Meci. În general, o identitate de 25% sau mai mare sugerează potențialul de asemănare a funcției; o identitate de 18-25% implică asemănarea structurii sau funcției. Este important să rețineți că 2 sau mai multe secvențe complet lipsite de legătură pot avea o identitate de 20% sau mai mare, deci aceasta nu este o regulă dificilă și rapidă. Asemănarea este gradul de asemănare între două secvențe atunci când acestea sunt comparate și indică faptul că aminoacizii sau nucleotidele dintr-o anumită poziție au unele proprietăți comune (de exemplu, sarcină sau hidrofobicitate), dar nu sunt identice. Un procent ridicat de reziduuri similare poate sugera, de asemenea, o funcție sau o structură conservată.

Ce este o secvență „consens”?

O secvență consens apare de obicei în partea de sus a tabelului de lucru de aliniere, și fiecare nucleotidă (sau aminoacid) din secvență se bazează pe reziduul care apare în acea poziție cel mai frecvent în secvența dvs. aliniată. De exemplu, dacă aliniați 5 secvențe, iar nucleotidele din poziția 20 sunt A, A, T, A și G, atunci secvența consens va avea un A în poziția 20. Utilizarea secvențelor consens poate fi foarte utilă atunci când se examinează relațiile evolutive între secvențe cu grade ridicate de identitate. De asemenea, este util să se utilizeze consensul pentru a identifica potențiale lacune. în secvențele dvs. aliniate.

De ce sunt importante golurile?

Un gol este unul sau mai multe spații într-un singur șir al unei aliniere date și corespunde de obicei unei inserții sau ștergeri într-una sau mai multe secvențe în cadrul alinierii. Inserarea sau ștergerea pot fi o artă ifact al secvențierii chimiei și nu indicativ al secvenței ADN autentice. Potrivit Institutului European de Bioinformatică, există câteva alte explicații potențiale pentru:

  • O singură mutație poate crea un decalaj (foarte frecvent).
  • Încrucișarea inegală a meiozei poate duce pentru inserarea sau ștergerea șirurilor de baze.
  • Alunecarea ADN-ului în procedura de replicare poate duce la repetarea unui șir.
  • Inserări de retrovirus.
  • Translocări de ADN între cromozomi.

De unde știu că datele mele de secvență sunt bune?

Supă de alfabet. O mulțime de As, Ts, Cs și Gs. Indiferent de metodele dvs. de obținere a secvențelor, succesul general și acuratețea alinierilor secvenței și analizelor ulterioare depind în totalitate de calitatea datelor secvenței. Lucruri precum preparatele solide din amonte, designul grundului și calitatea reactivilor vă pot face un erou … sau un zero. Deci, din punct de vedere științific, calitatea datelor secvenței este direct proporțională cu succesul și robustețea alinierilor dvs., știți, „gunoi în – gunoi afară”.

În majoritatea cazurilor, datele brute sunt „ notat „și curățat de software-ul secvențier, rezultând secvența dvs. finită, exportabilă. Calitatea poate fi notată în mai multe moduri diferite, în funcție de tehnologia și chimia utilizată și utilizează criterii precum puterea semnalului, numărul de nucleotide contigue citite și ușurința cu care este determinat de fiecare nucleotidă, de ex. un vârf curat, neobstrucționat într-un cromatograf. În afară de As, Ts, Cs și Gs, este important să înțelegeți alte coduri care pot apărea în datele dvs. (faceți clic aici pentru lista completă a codurilor IUPAC).

Câteva sfaturi utile

  • Aș recomanda cu tărie să vă obișnuiți să vă salvați munca devreme și des!
  • Obișnuiți-vă cu formatele de fișiere FASTA – veți avea nevoie de acestea atunci când descărcați din case de compensare precum GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • În general, dacă aliniați secvențe cu regiunile LTR (repetări terminale lungi), puteți încerca să ștergeți aceste regiuni atâta timp cât toate sunt identice ca compoziție și lungime – acest lucru vă va accelera alinierile fără a sacrifica precizia.
  • Cu cât secvențele dvs. sunt mai lungi, cu atât este mai mare timpul necesar.

Rămâneți la curent cu următorul articol din această serie, în care vom vorbi despre diferitele programe de aliniere a secvențierii disponibile.

Te-a ajutat acest lucru? Apoi vă rugăm să partajați cu rețeaua dvs.

Scris de Jason Garner

Leave a Reply

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *