Nybegynnerveiledningen til DNA-sekvensjustering

Heldigvis vet de av oss som har lært hvordan vi skal sekvensere at det er mye enklere og mindre tidskrevende å tilpasse sekvenser enn å lage dem . Enten du bruker sekvenseringsgeler, Sanger-baserte metoder eller det siste innen pyrosekvensering eller ion-torrentteknologi, har det aldri vært enklere å oppnå, manipulere og analysere sekvensene dine.

Vi skal ta en titt bare med det grunnleggende om sekvensjustering for å komme i gang.

Hvor mange sekvenser kan jeg justere?

Du må ha minimum 2 sekvenser for å utføre en justering. For å sammenligne to sekvenser må du utføre en «parvis» -justering. De fleste programmer vil justere 3 eller flere sekvenser om gangen og vil kreve en annen algoritme, for eksempel MUSCLE eller en av Clustal-algoritmene som ClustalW.

Du kan justere flere hundre til flere tusen hvis du ønsker det, men det er flere faktorer som kan gjøre dette greit og enkelt eller en tidsvin hvis ikke umulig. Først må du velge en passende algoritme. For eksempel kan sekvenseringsprogrammet MUSCLE håndterer vanligvis store datasett med premie på nøyaktighet. For noe perspektiv kan jeg vanligvis justere ~ 750 sekvenser på 1000 nukleotider hver på omtrent en time ved bruk av MUSCLE. For å tilpasse et stort antall sekvenser må du ha tilstrekkelig dataminne og lagring.

Hva er forskjellen mellom likhet og identitet?

Identitet er graden av korrelasjon mellom to ikke-gappede sekvenser, og indikerer at aminosyrene eller nukleotidene i en bestemt posisjon er en nøyaktig kamp. Generelt antyder en identitet på 25% eller høyere potensialet for likhet av funksjon; en identitet på 18-25% innebærer likhet mellom struktur eller funksjon. Det er viktig å merke seg at to eller flere helt ubeslektede sekvenser kan ha 20% identitet eller større, så dette er ikke en vanskelig og rask regel. Likhet er graden av likhet mellom to sekvenser når de sammenlignes, og indikerer at aminosyrene eller nukleotidene i en bestemt posisjon har noen felles egenskaper (for eksempel ladning eller hydrofobisitet), men er ikke identiske. En høy prosentandel av lignende rester kan også antyde en konservert funksjon eller struktur.

Hva er en «konsensus» -sekvens?

En konsensus-sekvens vises vanligvis øverst på justeringsbordet, og hvert nukleotid (eller aminosyre) i sekvensen er basert på resten som vises i den posisjonen hyppigst i den justerte sekvensen din. Hvis du for eksempel retter 5 sekvenser, og nukleotidene i posisjon 20 er A, A, T, A og G, så vil konsensus-sekvensen ha A i posisjon 20. Bruk av konsensus-sekvenser kan være veldig nyttig når man undersøker evolusjonære forhold mellom sekvenser med høy identitetsgrad. Det er også nyttig å bruke konsensus for å identifisere potensielle hull i dine justerte sekvenser.

Hvorfor er hull viktig?

Et gap er ett eller flere mellomrom i en enkelt streng av en gitt justering og tilsvarer vanligvis en innsetting eller sletting i en eller flere sekvenser innenfor justeringen. Innsetting eller sletting kan være en kunst ifact av sekvenseringskjemi og ikke indikerer den autentiske DNA-sekvensen. I følge European Bioinformatics Institute er det flere andre potensielle forklaringer på:

En enkelt mutasjon kan skape et gap (veldig vanlig).
Ulik kryssovergang i meiose kan føre til innsetting eller sletting av basestrenger.
DNA-glidning i replikasjonsprosedyren kan resultere i repetisjon av en streng.
Retrovirusinnsettinger.
Translokasjoner av DNA mellom kromosomer.

Hvordan vet jeg at sekvensdataene mine er gode?

Alfabetssuppe. Mange As, Ts, Cs og Gs. Uavhengig av metodene dine for å få tak i sekvensene, avhenger den totale suksessen og nøyaktigheten av sekvensjusteringene og påfølgende analyser helt av kvaliteten på sekvensdataene dine. Ting som solide oppstrømspreparater, primerdesign og reagenskvalitet kan gjøre deg til en helt … eller null. Så i vitenskapelig henseende er kvaliteten på sekvensdata direkte proporsjonal med suksessen og robustheten til justeringene dine. Du vet, «søppel inn – søppel ute».

I de fleste tilfeller er rådataene dine » scoret «og ryddet opp av sequencer-programvaren, noe som resulterer i den ferdige, eksporterbare sekvensen din. Kvalitet kan skåres på mange forskjellige måter, avhengig av hvilken teknologi og kjemi som brukes, og bruker kriterier som signalstyrke, antall sammenhengende nukleotider som er lest og enkelhet som hvert nukleotid er bestemt, f.eks. en ren, uhindret topp i en kromatograf. Annet enn As, Ts, Cs og Gs, er det viktig å forstå andre koder som kan vises i dataene dine (klikk her for den komplette listen over IUPAC-koder).

Noen nyttige tips

Jeg vil på det sterkeste anbefale å bli vant til å lagre arbeidet ditt tidlig og ofte!
Bli vant med FASTA-filformater – du trenger disse når du laster ned fra clearinghus som GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Generelt sett hvis du justerer sekvenser med LTR-regioner (long terminal repeats), kan du prøve å slette disse regionene så lenge de alle er identiske i sammensetning og lengde – dette vil øke hastigheten på justeringene dine uten å ofre nøyaktigheten.
Jo lengre sekvensene dine er, jo lengre tid kreves.

Følg med for neste artikkel i denne serien, der vi snakker om de forskjellige programvarene for sekvenseringsjustering som er tilgjengelige.

Har dette hjulpet deg? Del så med nettverket ditt.

Skrevet av Jason Garner

Mont Blanc