Begyndervejledningen til DNA-sekvensjustering

Heldigvis ved de af os, der har lært at sekvensere, at justering af sekvenser er meget lettere og mindre tidskrævende end at skabe dem . Uanset om du anvender sekventeringsgeler, Sanger-baserede metoder eller det nyeste inden for pyrosekventering eller ion-torrent-teknologier, har det aldrig været nemmere at opnå, manipulere og analysere dine sekvenser.

Vi vil se på det bare med det grundlæggende i sekvensjustering for at komme i gang.

Hvor mange sekvenser kan jeg justere?

Du skal have mindst 2 sekvenser for at udføre en justering. For at sammenligne to sekvenser skal du udføre en “parvis” tilpasning. De fleste programmer vil justere 3 eller flere sekvenser ad gangen og vil kræve en anden algoritme, fx MUSCLE eller en af Clustal-algoritmer som ClustalW.

Du kan tilpasse flere hundrede til flere tusinde, hvis du ønsker det, men der er flere faktorer, der kan gøre dette ligetil og simpelt eller en tidsvin, hvis ikke umulig. Først skal du vælge en passende algoritme. For eksempel kan sekventeringsprogrammet MUSCLE håndterer normalt store datasæt med en præmie på nøjagtighed. For nogle perspektiver kan jeg normalt justere ~ 750 sekvenser på 1000 nukleotider hver på cirka en time ved hjælp af MUSCLE. For at tilpasse et stort antal sekvenser skal du have tilstrækkelig computerhukommelse og lagring.

Hvad er forskellen mellem lighed og identitet?

Identitet er korrelationsgraden mellem 2 ikke-gappede sekvenser og indikerer, at aminosyrerne eller nukleotiderne i en bestemt position er en eksakt match. Generelt antyder en identitet på 25% eller højere potentialet for lighed af funktion; en identitet på 18-25% indebærer lighed mellem struktur eller funktion. Det er vigtigt at bemærke, at 2 eller flere fuldstændigt ikke-relaterede sekvenser kan have 20% identitet eller derover, så dette er ikke en hård og hurtig regel. Lighed er graden af lighed mellem to sekvenser, når de sammenlignes, og indikerer, at aminosyrerne eller nukleotiderne i en bestemt position har nogle fælles egenskaber (for eksempel ladning eller hydrofobicitet), men ikke er identiske. En høj procentdel af lignende rester kan også antyde en bevaret funktion eller struktur.

Hvad er en “konsensus” -sekvens?

En konsensus-sekvens vises normalt øverst på din opstillingsbord. og hvert nukleotid (eller aminosyre) i sekvensen er baseret på den rest, der forekommer ved denne position hyppigst i din justerede sekvens. For eksempel, hvis du retter 5 sekvenser, og nukleotiderne i position 20 er A, A, T, A og G, så vil konsensus-sekvensen have A i position 20. Brug af konsensus-sekvenser kan være meget nyttig, når man undersøger evolutionære forhold mellem sekvenser med høje identitetsgrader. Det er også nyttigt at bruge konsensus til at identificere potentielle huller i dine justerede sekvenser.

Hvorfor er huller vigtige?

Et hul er et eller flere mellemrum i en enkelt streng i en given justering og svarer normalt til en indsættelse eller sletning i en eller flere sekvenser inden for justeringen. Indsættelsen eller sletningen kan være en kunst ifact af sekventeringskemi og ikke indikativ for den autentiske DNA-sekvens. Ifølge Det Europæiske Bioinformatikinstitut er der flere andre mulige forklaringer på:

En enkelt mutation kan skabe et hul (meget almindeligt).
Uensartet crossover i meiose kan føre til indsættelse eller sletning af basestrenge.
DNA-glidning i replikationsproceduren kan resultere i gentagelse af en streng.
Retrovirusindsættelser.
Translokationer af DNA mellem kromosomer.

Hvordan ved jeg, at mine sekvensdata er gode?

Alfabetssuppe. Masser af As, Ts, Cs og Gs. Uanset dine metoder til at opnå dine sekvenser afhænger den samlede succes og nøjagtighed af dine sekvensjusteringer og efterfølgende analyser helt af kvaliteten af dine sekvensdata. Ting som faste opstrømspræparater, primerdesign og reagenskvalitet kan gøre dig til en helt … eller et nul. Så videnskabeligt set er kvaliteten af sekvensdata direkte proportional med succesen og robustheden af dine tilpasninger. Du ved, ‘affald ind – affald ud’.

I de fleste tilfælde er dine rådata ” scoret “og ryddet op af sequencer-softwaren, hvilket resulterer i din færdige, eksporterbare sekvens. Kvalitet kan scorer på mange forskellige måder, afhængigt af den anvendte teknologi og kemi, og bruger kriterier som signalstyrke, antal sammenhængende nukleotider, der er aflæst, og letheden med hvor hvert nukleotid bestemmes, f.eks. en ren, uhindret top i en kromatograf. Bortset fra As, Ts, Cs og Gs, er det vigtigt at forstå andre koder, der kan vises i dine data (klik her for den komplette liste over IUPAC-koder).

Nogle nyttige tip

Jeg vil stærkt anbefale, at du bliver vant til at gemme dit arbejde tidligt og ofte!
Bliv vant til FASTA-filformater – du skal bruge disse, når du downloader fra clearinghuse som GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Generelt, hvis du tilpasser sekvenser med LTR (lange terminal gentagelser) regioner, kan du prøve at slette disse regioner, så længe de alle er identiske i sammensætning og længde – dette vil fremskynde dine justeringer uden at ofre nøjagtigheden.
Jo længere dine sekvenser er, jo længere tid kræver det.

Hold øje med den næste artikel i denne serie, hvor vi taler om de forskellige programmer til sekvenseringsjustering, der er tilgængelige.

Har dette hjulpet dig? Del derefter med dit netværk.

Skrevet af Jason Garner

Mont Blanc