Aloittelijan opas DNA-sekvenssin kohdentamiseen

Onneksi ne meistä, jotka ovat oppineet sekvensoimaan, tietävät, että sekvenssien kohdistaminen on paljon helpompaa ja vähemmän aikaa vievää kuin niiden luominen . Olitpa käyttämässä sekvenssigeelejä, Sanger-pohjaisia menetelmiä tai uusinta pyrosekvensointi- tai ionitorrentiteknologiaa, sekvenssien hankkiminen, käsittely ja analysointi ei ole koskaan ollut näin helppoa.

Aiomme tarkastella vain sekvenssin tasaamisen perusteet, jotta pääset alkuun.

Kuinka monta sekvenssiä voin kohdistaa?

Sinulla on oltava vähintään 2 sekvenssiä tasauksen suorittamiseksi. Kahden sekvenssin vertaamiseksi sinun on suoritettava ”pareittain” -tasaus. Useimmat ohjelmat kohdistavat 3 tai useampaa sekvenssiä kerrallaan ja edellyttävät erilaista algoritmia, esim. MUSCLE tai yhtä Clustal-algoritmeista, kuten ClustalW.

Voit halutessasi kohdistaa useita satoja ja useita tuhansia, mutta on monia tekijöitä, jotka voivat tehdä tämän suoraviivaiseksi ja yksinkertaiseksi, tai aika-sika, ellei mahdotonta. Ensinnäkin sinun on valittava sopiva algoritmi. Esimerkiksi sekvensointiohjelma MUSCLE voi yleensä käsittelevät suuria tietojoukkoja korkealla tarkkuudella. Jostain näkökulmasta, voin yleensä kohdistaa ~ 750 1000 nukleotidin sekvenssiä kukin noin tunnissa MUSCLE-toiminnolla. Suuren määrän sekvenssien kohdentamiseksi sinulla on oltava riittävästi tietokoneen muistia ja tallennustilaa.

Mikä on ero samankaltaisuuden ja identiteetin välillä?

Identiteetti on korrelaatioaste kahden tyhjentämättömän sekvenssin välillä ja osoittaa, että tietyssä asemassa olevat aminohapot tai nukleotidit ovat tarkka ottelu. Yleensä identiteetti, joka on vähintään 25%, viittaa toiminnan samankaltaisuuden mahdollisuuteen; identiteetti 18-25% tarkoittaa rakenteen tai toiminnan samankaltaisuutta. On tärkeää huomata, että kahdella tai useammalla täysin toisiinsa liittymättömällä sekvenssillä voi olla identtisyys 20% tai enemmän, joten tämä ei ole vaikea ja nopea sääntö. Samankaltaisuus on kahden sekvenssin välisen samankaltaisuuden aste, kun niitä verrataan, ja se osoittaa, että tietyssä asemassa olevilla aminohapoilla tai nukleotideilla on joitain yhteisiä ominaisuuksia (esimerkiksi varaus tai hydrofobisuus), mutta ne eivät ole identtisiä. Suuri prosenttiosuus samankaltaisista tähteistä voi myös ehdottaa konservoitunutta toimintoa tai rakennetta.

Mikä on ”konsensussekvenssi”?

Konsensussekvenssi näkyy yleensä kohdistustyöpöydän yläosassa, ja kukin sekvenssin nukleotidi (tai aminohappo) perustuu tähteeseen, joka esiintyy siinä kohdassa useimmiten kohdistetussa sekvenssissäsi. Jos esimerkiksi kohdistat 5 sekvenssiä ja kohdassa 20 olevat nukleotidit ovat A, A, T, A: lla ja G: llä, sitten konsensussekvenssillä on A kohdassa 20. Konsensussekvenssien käyttö voi olla erittäin hyödyllistä tutkittaessa evoluutiosuhteita sekvenssien välillä, joilla on korkea identtisyysaste.Konsensusta on myös hyödyllistä tunnistaa mahdolliset aukot kohdistetuissa jaksoissa.

Miksi aukot ovat tärkeitä?

Rako on yksi tai useampia välilyöntejä tietyn kohdistuksen yksittäisessä merkkijonossa ja vastaa yleensä lisäystä tai poistamista yhdessä tai toisessa. lisäys tai poistaminen voi olla tekniikan tasoa sekvenssikemian ifakti ja ei osoita aitoa DNA-sekvenssiä. Euroopan bioinformatiikan instituutin mukaan on olemassa useita muita mahdollisia selityksiä:

Yksittäinen mutaatio voi luoda aukon (hyvin yleinen).
Epätasainen jakautuminen meioosissa voi johtaa emäsjonojen lisäämiseen tai poistamiseen.
DNA: n liukastuminen replikointimenettelyssä voi johtaa merkkijonon toistamiseen.
Retroviruksen lisäykset.
Kromosomien välinen DNA.

Mistä tiedän, että sekvenssitietoni ovat hyvät?

Aakkoskeitto. Paljon As, Ts, Cs ja Gs. Riippumatta sekvenssien saantitavoistasi, sekvenssiasennustesi ja myöhempien analyysien yleinen menestys ja tarkkuus riippuvat täysin sekvenssitietojesi laadusta. Asiat, kuten kiinteät alkupään valmistelut, pohjamaalin suunnittelu ja reagenssin laatu, voivat tehdä sinusta sankarin … tai nollan. Joten tieteellisessä mielessä sekvenssitietojen laatu on suoraan verrannollinen kohdistusten onnistumiseen ja kestävyyteen, eli roskat sisään – roskat pois.

Useimmissa tapauksissa raakatietosi ovat ” pisteytetty ”ja puhdistettu sekvensseriohjelmiston avulla, jolloin saat valmis, vietävän sekvenssin. Laatu voidaan pisteyttää monella eri tavalla riippuen käytetystä tekniikasta ja kemiasta, ja siinä käytetään kriteerejä, kuten signaalin voimakkuus, vierekkäisten luettujen nukleotidien lukumäärä ja helppous mikä kukin nukleotidi määritetään, esim. puhdas, esteetön piikki kromatografissa. Muita kuin As, Ts, Cs ja Gs, on tärkeää ymmärtää muut koodit, jotka saattavat näkyä tiedoissa (napsauta tästä saadaksesi täydellisen luettelon IUPAC-koodeista).

Hyödyllisiä vinkkejä

Suosittelen lämpimästi tapaa säästää työsi aikaisin ja usein!
Toteuta FASTA-tiedostomuodot – tarvitset niitä, kun lataat selvitystiloista, kuten GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Yleensä jos kohdistat sekvenssit LTR (long terminal repeats) -alueiden kanssa, voit yrittää poistaa nämä alueet, kunhan ne kaikki ovat identtisiä koostumukseltaan ja pituudeltaan – tämä nopeuttaa kohdistuksiasi uhraamatta tarkkuutta.
Mitä pidempiä sekvenssejäsi on, sitä pidempi aika kuluu.

Pysy kuulolla tämän sarjan seuraavasta artikkelista, jossa puhumme erilaisista käytettävissä olevista sekvensointijärjestelmäohjelmista.

Onko tämä auttanut sinua? Jaa sitten verkkoosi.

Kirjoittanut Jason Garner

Mont Blanc