De beginnershandleiding voor het uitlijnen van DNA-sequenties

Gelukkig weten degenen onder ons die hebben geleerd hoe ze moeten sequencen dat het uitlijnen van sequenties een stuk eenvoudiger en minder tijdrovend is dan het maken ervan . Of je nu sequentiegels, op Sanger gebaseerde methoden of de nieuwste technologieën op het gebied van pyrosequencing of ionen-torrent gebruikt, het verkrijgen, manipuleren en analyseren van je sequenties is nog nooit zo eenvoudig geweest.

We gaan een kijkje nemen om u op weg te helpen.

Hoeveel reeksen kan ik uitlijnen?

U moet minimaal 2 reeksen hebben om een uitlijning uit te voeren. Voor het vergelijken van twee reeksen moet je een “paarsgewijze” uitlijning uitvoeren. De meeste programma’s zullen drie of meer reeksen tegelijk uitlijnen en hebben een ander algoritme nodig, bijvoorbeeld MUSCLE of een van de Clustal-algoritmen zoals ClustalW.

U kunt desgewenst enkele honderden tot enkele duizenden uitlijnen, maar er zijn verschillende factoren die dit rechttoe rechtaan en eenvoudig of een tijdzwijn, zo niet onmogelijk kunnen maken. Ten eerste moet u een geschikt algoritme kiezen. Het sequencing-programma MUSCLE kan bijvoorbeeld verwerkt meestal grote gegevenssets met een hoge nauwkeurigheid. Voor een bepaald perspectief kan ik meestal ~ 750 reeksen van 1000 nucleotiden elk in ongeveer een uur uitlijnen met behulp van MUSCLE. Voor het uitlijnen van een groot aantal reeksen heb je voldoende computergeheugen en opslag nodig.

Wat is het verschil tussen gelijkenis en identiteit?

Identiteit is de mate van correlatie tussen 2 niet-gapped sequenties, en geeft aan dat de aminozuren of nucleotiden op een bepaalde positie een exact bij elkaar passen. Over het algemeen suggereert een identiteit van 25% of hoger het potentieel voor gelijkenis van functie; een identiteit van 18-25% impliceert gelijkenis in structuur of functie. Het is belangrijk op te merken dat 2 of meer volledig ongerelateerde sequenties 20% identiteit of meer kunnen hebben, dus dit is geen vaste regel. Overeenstemming is de mate van overeenkomst tussen twee sequenties wanneer ze worden vergeleken, en geeft aan dat de aminozuren of nucleotiden op een bepaalde positie enkele eigenschappen gemeen hebben (bijvoorbeeld lading of hydrofobiciteit), maar niet identiek zijn. Een hoog percentage van vergelijkbare residuen kan ook wijzen op een geconserveerde functie of structuur.

Wat is een “consensus” -sequentie?

Een consensussequentie verschijnt meestal bovenaan uw uitlijningswerktabel, en elk nucleotide (of aminozuur) van de sequentie is gebaseerd op het residu dat op die positie het vaakst voorkomt in uw uitgelijnde sequentie. Als u bijvoorbeeld 5 sequenties uitlijnt en de nucleotiden op positie 20 zijn A, A, T, A en G, dan zal de consensussequentie een A hebben op positie 20. Het gebruik van consensussequenties kan erg handig zijn bij het onderzoeken van evolutionaire relaties tussen sequenties met een hoge mate van identiteit. Het is ook nuttig om de consensus te gebruiken om mogelijke hiaten te identificeren in je uitgelijnde reeksen.

Waarom zijn hiaten belangrijk?

Een gap is een of meer spaties in een enkele string van een bepaalde alignering en komt meestal overeen met een invoeging of verwijdering in een of meer sequenties binnen de uitlijning Het invoegen of verwijderen kan een kunst zijn ifact van sequentiechemie en niet indicatief voor de authentieke DNA-sequentie. Volgens het European Bioinformatics Institute zijn er verschillende andere mogelijke verklaringen voor:

  • Een enkele mutatie kan een gat creëren (zeer vaak).
  • Ongelijke cross-over in meiose kan leiden op het invoegen of verwijderen van reeksen basen.
  • DNA-verschuiving in de replicatieprocedure kan resulteren in de herhaling van een reeks.
  • Retrovirus-inserties.
  • Translocaties van DNA tussen chromosomen.

Hoe weet ik of mijn sequentiegegevens goed zijn?

Alfabet soep. Veel As, Ts, Cs en Gs. Ongeacht uw methoden om uw sequenties te verkrijgen, hangt het algehele succes en de nauwkeurigheid van uw sequentie-uitlijningen en daaropvolgende analyses volledig af van de kwaliteit van uw sequentiegegevens. Zaken als solide upstream-preparaten, primerontwerp en reagenskwaliteit kunnen van u een held maken… .of een nul. Dus, in wetenschappelijke termen, is de kwaliteit van sequentiegegevens recht evenredig met het succes en de robuustheid van uw uitlijningen, weet u, ‘garbage in – garbage out’.

In de meeste gevallen zijn uw onbewerkte gegevens ” gescoord ‘en opgeschoond door de sequencersoftware, wat resulteert in uw voltooide, exporteerbare sequentie. Kwaliteit kan op veel verschillende manieren worden gescoord, afhankelijk van de gebruikte technologie en chemie, en maakt gebruik van criteria zoals signaalsterkte, aantal aaneengesloten nucleotiden dat wordt gelezen en het gemak waarmee welke elke nucleotide wordt bepaald, bijv. een schone, onbelemmerde piek in een chromatograaf Behalve As, Ts, Cs en Gs, is het belangrijk om andere codes te begrijpen die in uw gegevens kunnen voorkomen (klik hier voor de volledige lijst met IUPAC-codes).

Enkele handige tips

  • Ik zou sterk aanbevelen om er een gewoonte van te maken om uw werk vroeg en vaak op te slaan!
  • Wen aan FASTA-bestandsindelingen – je hebt deze nodig bij het downloaden van verrekenkantoren zoals GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • In het algemeen als je reeksen uitlijnt met LTR-regio’s (long terminal repeats), kun je proberen deze regio’s te verwijderen zolang ze allemaal identiek zijn qua samenstelling en lengte – dit zal je uitlijning versnellen zonder aan nauwkeurigheid in te boeten.
  • Hoe langer je reeksen, hoe langer de tijd die nodig is.

Blijf op de hoogte voor het volgende artikel in deze serie, waarin we zullen praten over de verschillende sequencing-uitlijningsprogramma’s die beschikbaar zijn.

Heeft dit u geholpen? Deel het dan met uw netwerk.

Geschreven door Jason Garner

Leave a Reply

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *