O guia para iniciantes no alinhamento de sequências de DNA

Felizmente, aqueles de nós que aprenderam como sequenciar sabem que alinhar sequências é muito mais fácil e menos demorado do que criá-las . Esteja você empregando géis de sequenciamento, métodos baseados em Sanger ou as mais recentes tecnologias de pirosequenciamento ou torrent de íons, obter, manipular e analisar suas sequências nunca foi tão fácil.

Vamos dar uma olhada apenas no básico do alinhamento de sequência para você começar.

Quantas sequências posso alinhar?

Você deve ter no mínimo 2 sequências para realizar um alinhamento. Para comparar 2 sequências, você precisará realizar um alinhamento “pareado”. A maioria dos programas alinhará 3 ou mais sequências por vez e exigirá um algoritmo diferente, por exemplo, MUSCLE ou um dos algoritmos Clustal como ClustalW.

Você pode alinhar várias centenas a vários milhares, se desejar, mas há vários fatores que podem tornar isso direto e simples ou demorado, se não impossível. Primeiro, você deve escolher um algoritmo apropriado. Por exemplo, o programa de sequenciamento MUSCLE pode geralmente lidam com grandes conjuntos de dados com um prêmio em precisão. Para alguma perspectiva, posso alinhar ~ 750 sequências de 1000 nucleotídeos cada em cerca de uma hora usando MUSCLE. Para alinhar um grande número de sequências, você deve ter memória de computador e armazenamento suficientes.

Qual é a diferença entre similaridade e identidade?

Identidade é o grau de correlação entre 2 sequências não espaçadas e indica que os aminoácidos ou nucleotídeos em uma posição particular são um exato Combine. Geralmente, uma identidade de 25% ou mais sugere o potencial para similaridade de função; uma identidade de 18-25% implica semelhança de estrutura ou função. É importante notar que 2 ou mais sequências completamente não relacionadas podem ter 20% de identidade ou mais, portanto, esta não é uma regra rígida e rápida. Similaridade é o grau de semelhança entre duas sequências quando são comparadas e indica que os aminoácidos ou nucleotídeos em uma posição particular têm algumas propriedades em comum (por exemplo, carga ou hidrofobicidade), mas não são idênticos. Uma alta porcentagem de resíduos semelhantes também pode sugerir uma função ou estrutura conservada.

O que é uma sequência de “consenso”?

Uma sequência de consenso geralmente aparece no topo de sua mesa de trabalho de alinhamento, e cada nucleotídeo (ou aminoácido) da sequência é baseado no resíduo que aparece naquela posição com mais frequência em sua sequência alinhada. Por exemplo, se você alinhar 5 sequências, e os nucleotídeos na posição 20 são A, A, T, A e G, então a sequência de consenso terá um A na posição 20. O uso de sequências de consenso pode ser muito útil ao examinar relações evolutivas entre sequências com altos graus de identidade. Também é útil usar o consenso para identificar lacunas potenciais em suas sequências alinhadas.

Por que as lacunas são importantes?

Uma lacuna é um ou mais espaços em uma única string de um determinado alinhamento e geralmente corresponde a uma inserção ou exclusão em um ou mais sequências dentro do alinhamento. A inserção ou exclusão pode ser uma arte ifato da química do sequenciamento e não indicativo da sequência de DNA autêntica. De acordo com o Instituto Europeu de Bioinformática, existem várias outras explicações potenciais para:

Uma única mutação pode criar uma lacuna (muito comum).
O cruzamento desigual na meiose pode levar à inserção ou exclusão de strings de bases.
O deslizamento do DNA no procedimento de replicação pode resultar na repetição de uma string.
Inserções de retrovírus.
Translocações de DNA entre cromossomos.

Como sei que meus dados de sequência são bons?

Sopa do alfabeto. Muitos As, Ts, Cs e Gs. Independentemente de seus métodos para obter suas sequências, o sucesso geral e a precisão de seus alinhamentos de sequência e análises subsequentes dependem inteiramente da qualidade de seus dados de sequência. Coisas como preparações upstream sólidas, design de primer e qualidade do reagente podem torná-lo um herói … ou um zero. Então, em termos científicos, a qualidade dos dados de sequência é diretamente proporcional ao sucesso e robustez de seus alinhamentos, você sabe, ‘lixo entra – lixo sai’.

Na maioria dos casos, seus dados brutos são ” classificado “e limpo pelo software sequenciador, resultando em sua sequência exportável acabada. A qualidade pode ser avaliada de muitas maneiras diferentes, dependendo da tecnologia e da química usada, e utiliza critérios como intensidade do sinal, número de nucleotídeos contíguos lidos e facilidade com em que cada nucleotídeo é determinado, por exemplo, um pico limpo e desobstruído em um cromatógrafo. Além de As, Ts, Cs e Gs, é importante entender outros códigos que podem aparecer em seus dados (clique aqui para a lista completa de códigos IUPAC).

Algumas dicas úteis

Eu recomendo fortemente adquirir o hábito de salvar seu trabalho cedo e frequentemente!
Acostume-se com os formatos de arquivo FASTA – você precisará deles ao fazer download de câmaras de compensação como o GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Em geral, se estiver alinhando sequências com regiões LTR (repetições terminais longas), você pode tentar excluir essas regiões, desde que sejam todas idênticas em composição e comprimento – isso irá acelerar seus alinhamentos sem sacrificar a precisão.
Quanto mais longas forem suas sequências, mais tempo será necessário.

Fique ligado no próximo artigo desta série, no qual falaremos sobre os diferentes programas de alinhamento de sequenciamento que estão disponíveis.

Isso ajudou você? Em seguida, compartilhe com sua rede.

Escrito por Jason Garner

Mont Blanc