Průvodce pro začátečníky k zarovnání sekvence DNA

Naštěstí ti z nás, kteří se naučili sekvence, vědí, že srovnávání sekvencí je mnohem jednodušší a méně časově náročné než jejich vytváření . Ať už používáte sekvenační gely, metody založené na Sangeru nebo nejnovější technologie pyrosekvenování nebo iontového torrentu, získání, manipulace a analýza vašich sekvencí nebylo nikdy jednodušší.

Podíváme se na to stačí základy zarovnání sekvence, abyste mohli začít.

Kolik sekvencí mohu zarovnat?

K provedení zarovnání musíte mít minimálně 2 sekvence. Pro porovnání 2 sekvencí budete muset provést „párové“ zarovnání. Většina programů zarovná 3 nebo více sekvencí najednou a bude vyžadovat jiný algoritmus, např. MUSCLE nebo jeden z algoritmů Clustal, jako je ClustalW.

Můžete si zarovnat několik stovek až několik tisíc, pokud si přejete, ale existuje několik faktorů, které to mohou učinit přímočarým a jednoduchým, nebo časově nepříjemným, pokud ne nemožným. Nejprve musíte zvolit vhodný algoritmus. Například sekvenční program MUSCLE může obvykle zpracovávám velké datové soubory s důrazem na přesnost. Z nějakého hlediska můžu pomocí MUSCLE obvykle srovnat ~ 750 sekvencí po 1000 nukleotidech každý za hodinu. Pro zarovnání velkého počtu sekvencí musíte mít dostatek paměti a paměti počítače.

Jaký je rozdíl mezi podobností a identitou?

Identita je míra korelace mezi 2 sekvencemi bez mezer a naznačuje, že aminokyseliny nebo nukleotidy v určité poloze jsou přesné zápas. Obecně identita 25% nebo vyšší naznačuje potenciál pro podobnost funkce; identita 18-25% znamená podobnost struktury nebo funkce. Je důležité si uvědomit, že 2 nebo více zcela nesouvisejících sekvencí může mít 20% identitu nebo více, takže to není tvrdé a rychlé pravidlo. Podobnost je míra podobnosti mezi dvěma sekvencemi, když jsou porovnávány, a naznačuje, že aminokyseliny nebo nukleotidy v určité poloze mají některé společné vlastnosti (například náboj nebo hydrofobnost), ale nejsou identické. Vysoké procento podobných zbytků může také naznačovat konzervovanou funkci nebo strukturu.

Co je to „konsensuální“ sekvence?

Konsenzuální sekvence se obvykle objevuje v horní části pracovního stolu se zarovnáním, a každý nukleotid (nebo aminokyselina) sekvence je založen na zbytku, který se v dané pozici ve vaší seřazené sekvenci vyskytuje nejčastěji. Pokud například srovnáváte 5 sekvencí a nukleotidy v poloze 20 jsou A, A, T, A a G, pak bude mít konsensuální sekvence A na pozici 20. Použití konsenzuálních sekvencí může být velmi užitečné při zkoumání evolučních vztahů mezi sekvencemi s vysokým stupněm identity. Je také užitečné použít konsenzus k identifikaci potenciálních mezer. ve vašich zarovnaných sekvencích.

Proč jsou mezery důležité?

Mezera je jedna nebo více mezer v jednom řetězci daného zarovnání a obvykle odpovídá vložení nebo odstranění v jednom nebo více více sekvencí v rámci zarovnání. Vložení nebo odstranění může být umění bez ohledu na chemii sekvenování a neindikující autentickou sekvenci DNA. Podle Evropského institutu pro bioinformatiku existuje několik dalších možných vysvětlení:

  • Jedna mutace může vytvořit mezeru (velmi častá).
  • Nerovný přechod v meióze může vést k vložení nebo odstranění řetězců bází.
  • Sklouznutí DNA v replikačním postupu může mít za následek opakování řetězce.
  • Inzerce retroviru.
  • Translokace DNA mezi chromozomy.

Jak poznám, že moje sekvenční data jsou dobrá?

Abecední polévka. Spousta As, Ts, Cs a Gs. Bez ohledu na vaše metody získávání sekvencí závisí celkový úspěch a přesnost zarovnání sekvencí a následné analýzy zcela na kvalitě vašich dat sekvence. Věci jako pevné upstream přípravky, design primerů a kvalita reagencií z vás mohou udělat hrdinu… nebo nulu. Vědecky řečeno, kvalita sekvenčních dat je přímo úměrná úspěchu a robustnosti vašich zarovnání, víte, ‚garbage in – garbage out‘.

Ve většině případů jsou vaše nezpracovaná data “ skóroval “a vyčistil jej softwarem sekvenceru, což vedlo k vaší hotové, exportovatelné sekvenci. Kvalitu lze hodnotit mnoha různými způsoby, v závislosti na použité technologii a chemii, a využívá kritérií, jako je síla signálu, počet načtených souvislých nukleotidů a snadnost u nichž je každý nukleotid určen, např. čistý, volný pík v chromatografu. Kromě As, Ts, Cs a Gs je důležité porozumět dalším kódům, které se mohou objevit ve vašich datech (kliknutím sem zobrazíte kompletní seznam kódů IUPAC).

Několik užitečných tipů

  • Důrazně doporučuji zvyknout si na to, abyste si svou práci ukládali včas a často!
  • Zvykněte si na formáty souborů FASTA – budete je potřebovat při stahování z clearingových domů, jako je GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • Obecně platí, že Pokud zarovnáváte sekvence s oblastmi LTR (dlouhé koncové opakování), můžete zkusit tyto oblasti odstranit, pokud jsou všechny shodné ve složení a délce – to urychlí vaše zarovnání bez obětování přesnosti.
  • Čím delší jsou vaše sekvence, tím delší je požadovaný čas.

Zůstaňte naladěni na další článek v této sérii, ve kterém budeme hovořit o různých dostupných programech zarovnání sekvencí.

Pomohlo vám to? Pak prosím sdílejte se svou sítí.

Autor: Jason Garner

Leave a Reply

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *