Przewodnik dla początkujących po wyrównaniu sekwencji DNA

Na szczęście ci z nas, którzy nauczyli się sekwencjonować, wiedzą, że wyrównywanie sekwencji jest o wiele łatwiejsze i mniej czasochłonne niż ich tworzenie . Niezależnie od tego, czy stosujesz żele do sekwencjonowania, metody oparte na Sangerze, czy też najnowsze technologie pirosekwencjonowania lub torrentów jonowych, uzyskiwanie, manipulowanie i analizowanie sekwencji nigdy nie było łatwiejsze.

Przyjrzymy się temu od podstaw wyrównywania sekwencji, aby zacząć.

Ile sekwencji mogę wyrównać?

Aby przeprowadzić wyrównanie, musisz mieć co najmniej 2 sekwencje. Aby porównać 2 sekwencje, musisz przeprowadzić dopasowanie „parami”. Większość programów dopasuje 3 lub więcej sekwencji na raz i będzie wymagać innego algorytmu, np. MUSCLE lub jednego z algorytmów Clustal, takich jak ClustalW.

Możesz wyrównać od kilkuset do kilku tysięcy, jeśli chcesz, ale jest kilka czynników, które mogą to uczynić prostym i prostym lub czasochłonnym, jeśli nie niemożliwym. Najpierw musisz wybrać odpowiedni algorytm. Na przykład program sekwencjonowania MUSCLE może zwykle radzę sobie z dużymi zestawami danych z premią pod względem dokładności. Z pewnego punktu widzenia mogę zwykle wyrównać ~ 750 sekwencji po 1000 nukleotydów w ciągu około godziny przy użyciu MUSCLE. Aby wyrównać dużą liczbę sekwencji, musisz mieć wystarczającą pamięć komputera i pamięć.

Jaka jest różnica między podobieństwem a identycznością?

Tożsamość to stopień korelacji między 2 sekwencjami bez przerw i wskazuje, że aminokwasy lub nukleotydy w określonej pozycji są dokładne mecz. Ogólnie, tożsamość 25% lub wyższa sugeruje możliwość podobieństwa funkcji; tożsamość 18-25% oznacza podobieństwo struktury lub funkcji. Należy zauważyć, że 2 lub więcej całkowicie niepowiązanych sekwencji może mieć co najmniej 20% identyczności, więc nie jest to sztywna i szybka zasada. Podobieństwo to stopień podobieństwa między dwiema sekwencjami, gdy są porównywane, i wskazuje, że aminokwasy lub nukleotydy w określonej pozycji mają pewne wspólne właściwości (na przykład ładunek lub hydrofobowość), ale nie są identyczne. Wysoki procent podobnych reszt może również sugerować konserwatywną funkcję lub strukturę.

Co to jest sekwencja „konsensusowa”?

Sekwencja konsensusowa zwykle pojawia się na górze stołu roboczego dopasowywania, a każdy nukleotyd (lub aminokwas) sekwencji jest oparty na reszcie, która pojawia się w tej pozycji najczęściej w dopasowanej sekwencji. Na przykład, jeśli dopasujesz 5 sekwencji, a nukleotydy w pozycji 20 to A, A, T, A i G, wtedy sekwencja konsensusowa będzie miała A na pozycji 20. Zastosowanie sekwencji konsensusowych może być bardzo przydatne przy badaniu relacji ewolucyjnych między sekwencjami o wysokim stopniu identyczności. Przydatne jest również wykorzystanie konsensusu do identyfikacji potencjalnych luk w twoich wyrównanych sekwencjach.

Dlaczego przerwy są ważne?

Przerwa to jedna lub więcej spacji w pojedynczym ciągu danego wyrównania i zwykle odpowiada wstawieniu lub usunięciu w jednym lub więcej sekwencji w dopasowaniu. Insercja lub delecja może być sztuką jeśli jest to akt chemii sekwencjonowania i nie wskazuje na autentyczną sekwencję DNA. Według Europejskiego Instytutu Bioinformatyki istnieje kilka innych potencjalnych wyjaśnień:

Pojedyncza mutacja może stworzyć lukę (bardzo często).
Nierówne krzyżowanie się w mejozie może prowadzić do wstawienia lub usunięcia łańcuchów zasad.
Poślizg DNA w procedurze replikacji może spowodować powtórzenie ciągu.
Insercje retrowirusa.
Translokacje DNA między chromosomami.

Skąd mam wiedzieć, że moje dane o sekwencji są dobre?

Zupa alfabetyczna. Wiele As, Ts, Cs i Gs. Niezależnie od metod uzyskiwania sekwencji, ogólny sukces i dokładność dopasowań sekwencji i późniejszych analiz zależą całkowicie od jakości danych sekwencji. Rzeczy takie jak stałe preparaty, projekt startera i jakość odczynników mogą uczynić z Ciebie bohatera… lub zero. Tak więc, z naukowego punktu widzenia, jakość danych sekwencyjnych jest wprost proporcjonalna do sukcesu i solidności twoich dopasowań, wiesz, „śmieci wrzucane – usuwane”.

W większości przypadków surowe dane to „ ocenione ”i oczyszczone przez oprogramowanie sekwencera, co skutkuje gotową, możliwą do wyeksportowania sekwencją. Jakość można ocenić na wiele różnych sposobów, w zależności od zastosowanej technologii i chemii, i wykorzystuje kryteria, takie jak siła sygnału, liczba odczytywanych ciągłych nukleotydów oraz łatwość który określa każdy nukleotyd, np. czysty, niezakłócony pik w chromatografie. Poza As, Ts, Cs i Gs ważne jest, aby zrozumieć inne kody, które mogą pojawić się w twoich danych (kliknij tutaj, aby uzyskać pełną listę kodów IUPAC).

Kilka pomocnych wskazówek

Zdecydowanie polecam nabycie nawyku wczesnego i częstego zapisywania swojej pracy!
Przyzwyczaj się do formatów plików FASTA – będziesz ich potrzebować podczas pobierania z izb rozliczeniowych, takich jak GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Ogólnie rzecz biorąc, jeśli dopasowujesz sekwencje z regionami LTR (długich powtórzeń końcowych), możesz spróbować usunąć te regiony, o ile wszystkie mają identyczny skład i długość – przyspieszy to wyrównanie bez utraty dokładności.
Im dłuższe sekwencje, tym dłuższy jest wymagany czas.

Czekaj na następny artykuł z tej serii, w którym omówimy różne dostępne programy do dopasowywania sekwencji.

Czy to ci pomogło? Następnie udostępnij w swojej sieci.

Autor: Jason Garner

Mont Blanc