La guía para principiantes sobre la alineación de secuencias de ADN

Afortunadamente, aquellos de nosotros que hemos aprendido a secuenciar sabemos que alinear secuencias es mucho más fácil y requiere menos tiempo que crearlas . Ya sea que esté empleando geles de secuenciación, métodos basados en Sanger o lo último en tecnologías de pirosecuenciación o torrente de iones, obtener, manipular y analizar sus secuencias nunca ha sido tan fácil.

Vamos a echar un vistazo en lo básico de la alineación de secuencias para comenzar.

¿Cuántas secuencias puedo alinear?

Debe tener un mínimo de 2 secuencias para realizar una alineación. Para comparar 2 secuencias, necesitará realizar una alineación «por pares». La mayoría de los programas alinearán 3 o más secuencias a la vez y requerirán un algoritmo diferente, por ejemplo, MUSCLE o uno de los algoritmos Clustal como ClustalW.

Puede alinear varios cientos a varios miles si lo desea, pero hay varios factores que pueden hacer que esto sea sencillo y sencillo o que pierda el tiempo si no es imposible. Primero, debe elegir un algoritmo apropiado. Por ejemplo, el programa de secuenciación MUSCLE puede Por lo general, maneja grandes conjuntos de datos con una gran precisión. Para tener cierta perspectiva, generalmente puedo alinear ~ 750 secuencias de 1000 nucleótidos cada una en aproximadamente una hora usando MUSCLE. Para alinear una gran cantidad de secuencias, debe tener suficiente memoria y almacenamiento de computadora.

¿Cuál es la diferencia entre similitud e identidad?

La identidad es el grado de correlación entre 2 secuencias sin espacios, e indica que los aminoácidos o nucleótidos en una posición particular son una exacto partido. Generalmente, una identidad del 25% o más sugiere el potencial de similitud de función; una identidad del 18-25% implica similitud de estructura o función. Es importante tener en cuenta que 2 o más secuencias completamente no relacionadas pueden tener un 20% de identidad o más, por lo que esta no es una regla estricta. La similitud es el grado de semejanza entre dos secuencias cuando se comparan e indica que los aminoácidos o nucleótidos en una posición particular tienen algunas propiedades en común (por ejemplo, carga o hidrofobicidad), pero no son idénticas. Un alto porcentaje de residuos similares también puede sugerir una función o estructura conservada.

¿Qué es una secuencia de «consenso»?

Una secuencia de consenso suele aparecer en la parte superior de la mesa de trabajo de alineación, y cada nucleótido (o aminoácido) de la secuencia se basa en el residuo que aparece en esa posición con mayor frecuencia en su secuencia alineada. Por ejemplo, si alinea 5 secuencias y los nucleótidos en la posición 20 son A, A, T, A, y G, entonces la secuencia de consenso tendrá una A en la posición 20. El uso de secuencias de consenso puede ser muy útil cuando se examinan las relaciones evolutivas entre secuencias con altos grados de identidad. También es útil usar el consenso para identificar posibles brechas en sus secuencias alineadas.

¿Por qué son importantes los espacios?

Un espacio es uno o más espacios en una sola cadena de una alineación dada y generalmente corresponde a una inserción o eliminación en uno o más secuencias dentro de la alineación. La inserción o eliminación puede ser un arte es un acto de secuenciación química y no es indicativo de la auténtica secuencia de ADN. Según el Instituto Europeo de Bioinformática, hay varias otras posibles explicaciones para:

  • Una sola mutación puede crear una brecha (muy común).
  • Un cruce desigual en la meiosis puede conducir a la inserción o eliminación de cadenas de bases.
  • El deslizamiento del ADN en el procedimiento de replicación puede resultar en la repetición de una cadena.
  • Inserciones de retrovirus.
  • Translocaciones de ADN entre cromosomas.

¿Cómo sé que los datos de mi secuencia son buenos?

Sopa de letras. Muchas A, Ts, Cs y Gs. Independientemente de sus métodos para obtener sus secuencias, el éxito general y la precisión de sus alineaciones de secuencia y análisis posteriores dependen completamente de la calidad de sus datos de secuencia. Cosas como preparaciones sólidas aguas arriba, diseño de cebadores y calidad de los reactivos pueden convertirlo en un héroe … o en cero. Entonces, en términos científicos, la calidad de los datos de secuencia es directamente proporcional al éxito y la solidez de sus alineaciones, ya sabe, ‘basura dentro – basura fuera’.

En la mayoría de los casos, sus datos sin procesar son » puntuado ”y limpiado por el software secuenciador dando como resultado su secuencia exportable terminada. La calidad se puede puntuar de muchas formas diferentes, dependiendo de la tecnología y la química utilizada, y utiliza criterios como la intensidad de la señal, el número de nucleótidos contiguos leídos y la facilidad con en el que se determina cada nucleótido, por ejemplo, un pico limpio y sin obstrucciones en un cromatógrafo. Aparte de As, Ts, Cs y Gs, es importante comprender otros códigos que pueden aparecer en sus datos (haga clic aquí para ver la lista completa de códigos IUPAC).

Algunos consejos útiles

  • ¡Recomiendo encarecidamente adquirir el hábito de guardar su trabajo temprano y con frecuencia!
  • Familiarícese con los formatos de archivo FASTA; los necesitará cuando descargue desde cámaras de compensación como GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • En general, si está alineando secuencias con regiones LTR (repeticiones terminales largas), puede intentar eliminar estas regiones siempre que sean idénticas en composición y longitud; esto acelerará sus alineaciones sin sacrificar la precisión.
  • Cuanto más largas sean sus secuencias, mayor será el tiempo requerido.

Estén atentos al próximo artículo de esta serie, en el que hablaremos sobre los diferentes programas de alineación de secuenciación que están disponibles.

¿Te ha ayudado esto? Entonces por favor comparta con su red.

Escrito por Jason Garner

Leave a Reply

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *