A kezdők útmutatója a DNS-szekvencia összehangolásához

Szerencsére azok, akik megtanultuk a szekvenálást, tudják, hogy a szekvenciák összehangolása sokkal könnyebb és kevésbé időigényes, mint létrehozása. . Akár szekvenáló géleket, akár Sanger-alapú módszereket alkalmaz, akár a legfrissebb piroszekvenálási vagy iontorrent-technológiákat alkalmazza, a szekvenciáinak megszerzése, kezelése és elemzése még soha nem volt ilyen egyszerű.

Megnézzük csak a szekvenciaillesztés alapjainál kezdheti el.

Hány szekvenciát tudok igazítani?

Az igazítás elvégzéséhez legalább 2 szekvenciával kell rendelkeznie. 2 szekvencia összehasonlításához “páronként” igazítást kell végrehajtania. A legtöbb program egyszerre 3 vagy több szekvenciát igazít, és más algoritmusra lesz szükség, pl. MUSCLE vagy valamelyik Clustal algoritmus, például a ClustalW.

Ha akarod, több százat több ezerhez igazíthatsz, de számos tényező teheti ezt egyszerűvé és egyszerűvé, vagy ha nem lehetetlenné egy idő-disznót. Először ki kell választani egy megfelelő algoritmust. Például a MUSCLE szekvenáló program képes általában nagy adatkészleteket kezel, prémium pontossággal. Bizonyos szempontból általában körülbelül 750 óra 1000 nukleotid szekvenciát tudok összehangolni körülbelül egy óra alatt a MUSCLE használatával. Nagyszámú szekvencia igazításához elegendő számítógépes memóriával és tárolóval kell rendelkeznie.

Mi a különbség a hasonlóság és az azonosság között?

Az azonosság a 2 nem hiányos szekvencia közötti korreláció mértéke, és azt jelzi, hogy az adott pozícióban lévő aminosavak vagy nukleotidok egy pontos mérkőzés. Általában a 25% vagy annál nagyobb azonosság a funkció hasonlóságának lehetőségére utal; 18-25% -os azonosság a szerkezet vagy a funkció hasonlóságát vonja maga után. Fontos megjegyezni, hogy 2 vagy több teljesen független szekvenciának 20% -os vagy annál nagyobb azonossága lehet, ezért ez nem nehéz és gyors szabály. A hasonlóság két szekvencia közötti hasonlóság mértéke, amikor összehasonlítjuk őket, és azt jelzi, hogy az adott pozícióban levő aminosavaknak vagy nukleotidoknak van néhány közös tulajdonságuk (például töltés vagy hidrofóbicitás), de nem azonosak. A hasonló maradékok nagy százaléka konzervált funkcióra vagy struktúrára is utalhat.

Mi az a „konszenzus” szekvencia?

A konszenzus szekvencia általában megjelenik az igazítási munkaasztal tetején, és a szekvencia minden nukleotidja (vagy aminosav) azon a szermaradványon alapszik, amely az adott helyzetben leggyakrabban megjelenik az összehangolt szekvenciában. Például, ha 5 szekvenciát igazít, és a 20. pozícióban lévő nukleotidok A, A, T, A és G, akkor a konszenzus szekvenciának A-ja lesz a 20. pozícióban. A konszenzus szekvenciák használata nagyon hasznos lehet a nagyfokú azonosságú szekvenciák közötti evolúciós összefüggések vizsgálatakor. Hasznos a konszenzust használni a lehetséges hiányosságok azonosítására is az összehangolt szekvenciákban.

Miért fontosak a hézagok?

A rés egy vagy több szóköz egy adott igazítás egyetlen karaktersorozatában, és általában egy vagy több beillesztésnek vagy törlésnek felel meg. Az inszerció vagy a törlés lehet szakterület a szekvenáló kémia ifaktusa és nem jelzi a hiteles DNS-szekvenciát. Az Európai Bioinformatikai Intézet szerint számos más lehetséges magyarázat létezik erre:

Egyetlen mutáció hézagot hozhat létre (nagyon gyakori).
A meiózisban tapasztalható egyenlőtlen kereszteződés vezethet a bázisok húrjainak beillesztésére vagy törlésére.
A DNS-csúszás a replikációs eljárásban egy sztring megismétlését eredményezheti.
Retrovírus-beillesztések.
DNS a kromoszómák között.

Honnan tudhatom, hogy szekvenciaadataim jók?

Ábécealeves. Sok As, Ts, Cs és G. Függetlenül a szekvenciák megszerzésének módszereitől, a szekvenciaillesztések és az azt követő elemzések általános sikere és pontossága teljes mértékben a szekvenciaadatok minőségétől függ. Az olyan dolgok, mint a szilárd upstream készítmények, az alapozó kialakítása és a reagens minősége hőssé tehetnek … vagy nulla. Tehát tudományos értelemben a szekvenciaadatok minősége egyenesen arányos az igazítások sikerével és robusztusságával, tudod, hogy „szemét be – szemét ki”.

A legtöbb esetben a nyers adatai ” pontozással ”és a szekvenszeres szoftver segítségével megtisztítva a kész, exportálható szekvenciát eredményezi. A minőség az alkalmazott technológiától és kémiától függően sokféleképpen értékelhető, és olyan kritériumokat használ fel, mint a jelerősség, a szomszédos leolvasott nukleotidok száma és a könnyű kezelhetőség. amelyet az egyes nukleotidok meghatároznak, pl. tiszta, akadálymentes csúcs a kromatográfban. Az As, Ts, Cs és Gs kivételével fontos megérteni az adatokban megjelenő egyéb kódokat (ide kattintva megtekintheti az IUPAC kódok teljes listáját).

Néhány hasznos tipp

Nagyon ajánlom, hogy szokássá váljon, hogy korán és gyakran mentse meg munkáját!
Szokja meg a FASTA fájlformátumokat – ezekre szüksége lesz, ha olyan tisztítóházakból tölt le, mint a GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
Általában ha a szekvenciákat az LTR (hosszú terminálismétlések) régiókhoz igazítja, akkor megpróbálhatja törölni ezeket a régiókat, amennyiben összetételükben és hosszukban mind azonosak – ez felgyorsítja az igazításokat a pontosság feláldozása nélkül.
Minél hosszabb a sorozatod, annál hosszabb az időigény.

Maradj velünk a sorozat következő cikkén, amelyben a rendelkezésre álló különböző szekvenálási igazító programokról fogunk beszélni.

Ez segített Önnek? Ezután kérjük, ossza meg hálózatával.

Jason Garner írta

Mont Blanc