Nybörjarguiden för DNA-sekvensjustering

Lyckligtvis vet de av oss som har lärt oss att ordna sekvenser att anpassa sekvenser är mycket enklare och mindre tidskrävande än att skapa dem . Oavsett om du använder sekvenseringsgeler, Sanger-baserade metoder eller det senaste inom pyrosekvensering eller jon-torrent-teknik har det aldrig varit lättare att få, manipulera och analysera dina sekvenser.

Vi kommer att ta en titt bara med grunderna för sekvensinriktning för att komma igång.

Hur många sekvenser kan jag justera?

Du måste ha minst två sekvenser för att utföra en inriktning. För att jämföra två sekvenser måste du utföra en ”parvis” inriktning. De flesta program kommer att rikta in tre eller flera sekvenser åt gången och kräver en annan algoritm, t.ex. MUSCLE eller en av Clustal-algoritmerna som ClustalW.

Du kan anpassa flera hundra till flera tusen om du vill, men det finns flera faktorer som kan göra detta enkelt och enkelt eller en tidsvin om inte omöjligt. Först måste du välja en lämplig algoritm. Till exempel kan sekvenseringsprogrammet MUSCLE hanterar vanligtvis stora datamängder med noggrannhet på noggrannhet. För vissa perspektiv kan jag vanligtvis rikta in ~ 750 sekvenser med 1000 nukleotider vardera på ungefär en timme med MUSCLE. För att anpassa ett stort antal sekvenser måste du ha tillräckligt med datorminne och lagring.

Vad är skillnaden mellan likhet och identitet?

Identitet är graden av korrelation mellan två oavbrutna sekvenser och indikerar att aminosyrorna eller nukleotiderna vid en viss position är en exakt match. Generellt antyder en identitet på 25% eller högre potentialen för funktionens likhet; en identitet på 18-25% innebär likhet mellan struktur eller funktion. Det är viktigt att notera att 2 eller flera helt orelaterade sekvenser kan ha 20% identitet eller högre, så detta är inte en svår och snabb regel. Likhet är graden av likhet mellan två sekvenser när de jämförs, och indikerar att aminosyrorna eller nukleotiderna vid en viss position har vissa gemensamma egenskaper (till exempel laddning eller hydrofobicitet), men är inte identiska. En hög andel av liknande rester kan också föreslå en konserverad funktion eller struktur.

Vad är en ”konsensus” -sekvens?

En konsensus-sekvens visas vanligtvis högst upp på din arbetsbord, och varje nukleotid (eller aminosyra) i sekvensen är baserad på resten som uppträder vid den positionen oftast i din inriktade sekvens. Om du till exempel inriktar 5 sekvenser och nukleotiderna vid position 20 är A, A, T, A och G, då kommer konsensussekvensen att ha A vid position 20. Användningen av konsensussekvenser kan vara mycket användbar när man undersöker evolutionära förhållanden mellan sekvenser med hög identitetsgrad. Det är också användbart att använda konsensus för att identifiera potentiella luckor i dina inriktade sekvenser.

Varför är luckor viktiga?

Ett mellanrum är ett eller flera mellanslag i en enda sträng i en given inriktning och motsvarar vanligtvis en infogning eller radering i en eller fler sekvenser inom inriktningen. Infogning eller radering kan vara en konst ifakt av sekvenseringskemi och inte en indikation på den autentiska DNA-sekvensen. Enligt European Bioinformatics Institute finns det flera andra potentiella förklaringar för:

En enda mutation kan skapa ett gap (mycket vanligt).
Ojämn övergång i meios kan leda till till infogning eller radering av bassträngar.
DNA-glidning i replikeringsproceduren kan resultera i upprepning av en sträng.
Retrovirusinsättningar.
Translokationer av DNA mellan kromosomer.

Hur vet jag att min sekvensdata är bra?

Alfabetssoppa. Massor av As, Ts, Cs och Gs. Oavsett dina metoder för att få dina sekvenser beror den totala framgången och noggrannheten för dina sekvensinriktningar och efterföljande analyser helt på kvaliteten på din sekvensdata. Saker som solida uppströmsberedningar, grundfärgdesign och reagenskvalitet kan göra dig till en hjälte … eller noll. I vetenskapliga termer är kvaliteten på sekvensdata direkt proportionell mot framgången och robustheten i dina inriktningar. Du vet, ”sopor in – sopor ut”.

I de flesta fall är dina rådata ” poäng ”och rensas upp av sequencer-programvaran som resulterar i din färdiga, exporterbara sekvens. Kvalitet kan göras på många olika sätt, beroende på vilken teknik och kemi som används, och använder kriterier som signalstyrka, antal sammanhängande nukleotider som läses och lättheten vilken varje nukleotid bestäms, t.ex. en ren, fri topp i en kromatograf. Annat än As, Ts, Cs och Gs, är det viktigt att förstå andra koder som kan visas i dina data (klicka här för en fullständig lista över IUPAC-koder).

Några användbara tips

Jag rekommenderar starkt att du brukar spara ditt arbete tidigt och ofta!
Gör dig van vid FASTA-filformat – du behöver dessa när du laddar ner från clearinghus som GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
I allmänhet om du anpassar sekvenser till LTR-regioner (long terminal repeats) kan du försöka ta bort dessa regioner så länge de alla är identiska i sammansättning och längd – detta kommer att påskynda dina anpassningar utan att offra noggrannheten.
Ju längre dina sekvenser, desto längre tid krävs.

Håll dig uppdaterad för nästa artikel i denna serie, där vi kommer att prata om de olika sekvenseringsinriktningsprogrammen som finns tillgängliga.

Har det hjälpt dig? Dela sedan med ditt nätverk.

Skriven av Jason Garner

Mont Blanc